我的理解是对的吗?
应用: 一个火花提交。
工作: 一旦懒惰的评估发生,就会有一份工作。
阶段: 它与shuffle和转换类型有关。 我很难理解舞台的边界。
任务: 这是单位操作。每项任务一次转型。每次转换一项任务。
帮助想要提高这种理解。
我的理解是对的吗?
应用: 一个火花提交。
工作: 一旦懒惰的评估发生,就会有一份工作。
阶段: 它与shuffle和转换类型有关。 我很难理解舞台的边界。
任务: 这是单位操作。每项任务一次转型。每次转换一项任务。
帮助想要提高这种理解。
主要功能是应用程序。
在RDD上调用操作时,会创建“作业”。工作是提交给Spark的工作。
根据随机边界将作业划分为“阶段”。 这个 可以帮助你理解。
每个阶段根据RDD中的分区数进一步划分为任务。因此任务是Spark最小的工作单元。
从7步到开发者到学习的apache-spark
Spark应用程序的解剖结构通常包含Spark 操作,可以是您的转换或操作 使用Spark的RDD,DataFrame或Datasets API的数据集。对于 例如,在您的Spark应用中,如果您调用一个动作,例如collect() 或者在您的DataFrame或数据集上使用(),该操作将创建一个作业。 然后将工作分解为单个或多个阶段;阶段 进一步分为个别任务;和任务是单位 Spark驱动程序的调度程序发送给Spark Executors的执行 在要在群集中执行的Spark工作节点上。通常是多个 任务将在同一个执行器上并行运行,每个执行器都处理它 内存中分区数据集的单位。