问题 spark中的应用,工作,阶段和任务的概念是什么?


我的理解是对的吗?

  1. 应用: 一个火花提交。

  2. 工作: 一旦懒惰的评估发生,就会有一份工作。

  3. 阶段: 它与shuffle和转换类型有关。 我很难理解舞台的边界。

  4. 任务: 这是单位操作。每项任务一次转型。每次转换一项任务。

帮助想要提高这种理解。


3880
2018-02-16 01:35


起源



答案:


主要功能是应用程序。

在RDD上调用操作时,会创建“作业”。工作是提交给Spark的工作。

根据随机边界将作业划分为“阶段”。 这个 可以帮助你理解。

每个阶段根据RDD中的分区数进一步划分为任务。因此任务是Spark最小的工作单元。


14
2018-02-16 06:44





从7步到开发者到学习的apache-spark

Spark应用程序的解剖结构通常包含Spark   操作,可以是您的转换或操作   使用Spark的RDD,DataFrame或Datasets API的数据集。对于   例如,在您的Spark应用中,如果您调用一个动作,例如collect()   或者在您的DataFrame或数据集上使用(),该操作将创建一个作业。   然后将工作分解为单个或多个阶段;阶段   进一步分为个别任务;和任务是单位   Spark驱动程序的调度程序发送给Spark Executors的执行   在要在群集中执行的Spark工作节点上。通常是多个   任务将在同一个执行器上并行运行,每个执行器都处理它   内存中分区数据集的单位。


0
2017-09-17 15:27