问题如何在Apache Spark中使用Hadoop InputFormats？

我上课了 ImageInputFormat 在Hadoop中从HDFS读取图像。如何在Spark中使用我的InputFormat？

这是我的 ImageInputFormat：

public class ImageInputFormat extends FileInputFormat<Text, ImageWritable> {

    @Override
    public ImageRecordReader createRecordReader(InputSplit split, 
                  TaskAttemptContext context) throws IOException, InterruptedException {
        return new ImageRecordReader();
    }

    @Override
    protected boolean isSplitable(JobContext context, Path filename) {
        return false;
    }
}

5795

2018-01-09 09:00

起源

答案:

该 SparkContext 有一个叫做的方法 hadoopFile。它接受实现接口的类 org.apache.hadoop.mapred.InputFormat

它的描述是“使用任意InputFormat获取带有Hadoop文件的RDD”。

还看看了 Spark文档。

2018-01-09 14:15

谢谢〜我现在搞清楚了。相反，我使用newAPIHadoopFile来完成这项工作。但是我有一个新问题，这些图像都存储在hadoopRDD中，或者我可以设置RDD容量，当RDD已满时，其余数据将存储在磁盘中？如果数据太大，表现会受到影响吗？输入有500G图像。再次感谢你。 - hequn8128

对不起，我不是Spark专家。我希望别人能回答。 - Robert Metzger

答案:

该 SparkContext 有一个叫做的方法 hadoopFile。它接受实现接口的类 org.apache.hadoop.mapred.InputFormat

它的描述是“使用任意InputFormat获取带有Hadoop文件的RDD”。

还看看了 Spark文档。

2018-01-09 14:15

对不起，我不是Spark专家。我希望别人能回答。 - Robert Metzger

图像都存储在hadoopRDD中？

是的，所有将在火花中保存的东西都是rdds

可以设置RDD容量，当RDD满时，其余数据将存储在磁盘中吗？

spark中的默认存储级别为（StorageLevel.MEMORY_ONLY），使用MEMORY_ONLY_SER，这样更节省空间。请参考spark文档> scala编程> RDD持久性

如果数据太大会影响性能吗？

随着数据量的增加，它也会影响性能。

2018-01-14 11:53

非常感谢你！就在刚才，我对java.lang.OutOfMemoryError：Java堆空间感到困惑。所以根据你的回复，存储级别设置可能是问题所在！我的群集有1个主服务器和11个从服务器。每个节点都有6G内存。在我的程序中，我将spark.executor.memory设置为3g。要处理的数据约为22g，包含10000个图像。再次感谢你：） - hequn8128

热门问题

不使用eval / new函数的JavaScript模板库当涉及内部类时，Java继承如何工作 .NET Windows服务的奇怪问题在.ipa或.app下查找App ID 快速入门XSLT参考[关闭] 如何找出Android应用程序中未使用的资源 Ruby中并发的同步方法[重复] 将std :: chrono :: system_clock :: time_point转换为struct timeval并返回 Google Drive API V3（javascript）更新文件内容 Bootstrap 3.0 - 将元素推到底部受密码保护的.NET ClickOnce部署？如何用postgresql安装wordpress coq Set或Type如何成为命题硒滚动元素进入（中心）视图在Spring Transaction JUnit测试中自动装配Hibernate会话的正确方法 Git的Dockerfile策略如何在FOS_PICKFOLDER中使用IFileDialog，同时仍在对话框中显示文件名在Firefox扩展中复制Google Chrome浏览器操作弹出效果 CakePHP找到MAX 芹菜 - 完成任务的召唤功能从使用fmemopen创建的流中读取宽字符 .NET是否为每个程序集创建一个字符串实习池？ DefaultModelBinder不绑定嵌套模型 Navigator.MediaDevices.getUserMedia（）使用了哪些相机通信标准？选择命名空间名称时应该知道什么？ cout Swagger Codegen CLI Java客户端 - 如何正确使用它一个很好的哈希函数用于采访整数，字符串？ Maven 3 ciManagement配置的目的是什么？如何通过语言文化获取代码页？

问题 如何在Apache Spark中使用Hadoop InputFormats？

答案:

答案:

热门问题

问题如何在Apache Spark中使用Hadoop InputFormats？