问题 spark - 在地图内过滤

我正在尝试过滤内部地图功能。基本上我在经典map-reduce中这样做的方式是mapper在过滤条件满足时不会向上下文写任何东西。我怎样才能实现类似的火花？我似乎无法从map函数返回null，因为它在shuffle步骤中失败。我可以使用过滤器功能，但是在我可以在地图期间执行相同的任务时，它似乎是不必要的数据集迭代。我也可以尝试使用虚拟键输出null，但这是一个糟糕的解决方法。

5118

2018-03-03 22:53

起源

你可以添加说明问题的示例代码吗？ - maasg

答案:

选择很少：

rdd.flatMap： rdd.flatMap 会压扁一个 Traversable 收集到RDD。要选择元素，您通常会返回一个元素 Option 由于转型。

rdd.flatMap(elem => if (filter(elem)) Some(f(elem)) else None)

rdd.collect(pf: PartialFunction) 允许您提供可以过滤和转换原始RDD中的元素的部分函数。您可以使用此方法的所有模式匹配功能。

rdd.collect{case t if (cond(t)) => f(t)}
rdd.collect{case t:GivenType => f(t)}

正如Dean Wampler在评论中提到的， rdd.map(f(_)).filter(cond(_)) 可能与上面提到的其他更“简洁”的选项一样好，甚至更快。

哪里 f 是一个转换（或地图）功能。

2018-03-03 23:31

如果你使用 ...filter().map()，它们将在每个分区的相同任务中执行，类似于在MapReduce中链接“映射器”。这甚至可能比单个更快 flatMap 要么 collect，取决于分配了多少个临时对象，然后快速收集垃圾。 - Dean Wampler

@DeanWampler我知道流水线，但知道这一点很好 filter().map() 可能会快于 flatmap 要么 collect......我们换了很多 map().filter() 通过 collect() b / c读取效果更好，但需要检查性能。谢谢。 - maasg

谢谢。就目前而言，“地图链”的方式并不妨碍我。当我查看perf时，我将在后面研究Java 8中的等效flatmap建议 - nir

@maasg flatmap对我来说对代码简单性和性能都很有用。我也删除了spark sql图层，并使用flatmap函数进行过滤和映射。 - nir

热门问题

不使用eval / new函数的JavaScript模板库当涉及内部类时，Java继承如何工作 .NET Windows服务的奇怪问题在.ipa或.app下查找App ID 快速入门XSLT参考[关闭] 如何找出Android应用程序中未使用的资源 Ruby中并发的同步方法[重复] 将std :: chrono :: system_clock :: time_point转换为struct timeval并返回 Google Drive API V3（javascript）更新文件内容 Bootstrap 3.0 - 将元素推到底部受密码保护的.NET ClickOnce部署？如何用postgresql安装wordpress coq Set或Type如何成为命题硒滚动元素进入（中心）视图在Spring Transaction JUnit测试中自动装配Hibernate会话的正确方法 Git的Dockerfile策略如何在FOS_PICKFOLDER中使用IFileDialog，同时仍在对话框中显示文件名在Firefox扩展中复制Google Chrome浏览器操作弹出效果 CakePHP找到MAX 芹菜 - 完成任务的召唤功能从使用fmemopen创建的流中读取宽字符 .NET是否为每个程序集创建一个字符串实习池？ DefaultModelBinder不绑定嵌套模型 Navigator.MediaDevices.getUserMedia（）使用了哪些相机通信标准？选择命名空间名称时应该知道什么？ cout Swagger Codegen CLI Java客户端 - 如何正确使用它一个很好的哈希函数用于采访整数，字符串？ Maven 3 ciManagement配置的目的是什么？如何通过语言文化获取代码页？