永利集团官网

    首页 >服务支持 > 中企之家 > 程序员 > spark基础知识介绍

    spark基础知识介绍

    spark基础知识介绍

    Spark是一种开源集群计算环境,与Hadoop相似但又有所不同。Apache Spark最初是由加州大学伯克利分销的AMP实验室开发出来的,后来成为Apache的开源项目之一,作为专门为大规模数据处理而设计的快速通用型计算引擎来使用。与MapReduce技术相比,Spark有着多种优势,如提供了统一全面的框架、大大提高了应用运行速度、可以快速使用Java等语言来编写程序等,目前Spark形成一个应用广泛、发展高速的生态系统。接下来就让我们一起来了解下Spark的性能特点、运行模式、运行特点以及体系架构等知识。

    目录

    1. spark性能特点

    2. spark运行模式

    3. spark运行特点

    4. spark体系架构

    5. spark与hadoop的关系

    • spark性能特点

      spark性能特点

      1、专注性。由于高级API剥离了对于集群本身的关注,所以spark开发者可以专注于应用所需要做的计算本身。
      2、速度快。Spark支持复杂算法和交互式计算,运行速度快。
      3、通用性。Spark是一个通用引擎,因此可以用来完成如文本处理、SQL查询等运算。
      4、支持多种资源管理器。如Hadoop YARN、Apache Mesos等管理器都支持使用。

    • spark运行模式

      spark运行模式

      1、spark的运行模式是多种多样的,并不限于一种,可以按需选择。
      2、以单机方式部署时,spark可以用本地模式运行或者伪分布模式运行。
      3、部署在分布式集群时,也可以根据集群的实际选择不同的运行模式。底层资源调度既可以使用spark內建的独立集群运行模式,也可以依赖外部资源调度框架。

    • spark运行特点

      spark运行特点

      1、除非在外部存储系统写入数据,否则Spark Application就不能跨应用共享数据。
      2、spark的运行和资源管理器是没有关系的,只需获取executor进程并保持通信即可。
      3、提交SparkContext的Client需靠近运行Executor的节点,而且最好在同一个Rack里。
      4、Task采用的优化机制是数据本地性和准侧执行。

    • spark体系架构

      spark体系架构

      Spark体系架构主要有三个组件。
      1、数据存储。Spark使用HDFS文件系统来存储数据。
      2、资源管理。Spark有多种不同的部署方式,可以部署在一个单独服务器上,也可以部署在分布式计算框架上,如Mesos等。
      3、API。Spark提供三种程序设计语言的API,分别是Java、Scala和Python。开发者可以利用标准的API接口来创建基于Spark的应用。

    • spark与hadoop的关系

      spark与hadoop的关系

      1、spark自身是没有提供分布式文件系统的,其分析大部分都需要依赖于Hadoop的分布式文件系统,也就是HDFS。
      2、Mapreduce是Hadoop的分布式计算模块,Mapreduce和spark都可以计算数据,但Mapreduce比spark速度要慢一些,且功能也不如spark丰富。
      3、spark可以看作是Hadoop MapReduce的替代品,用来提供一个全面、统一的管理大数据用例和需求的解决方案。

    img

    在线咨询

    建站在线咨询

    img

    微信咨询

    扫一扫添加
    动力姐姐微信

    img
    img

    TOP