我对大数据和相关领域的概念都很陌生,如果我犯了一些错误或错字,对不起。
我想明白 Apache Spark 并使用它 只在我的电脑里,在开发/测试环境中。由于Hadoop包含HDFS(Hadoop分布式文件系统)和其他仅对分布式系统有用的软件,我可以放弃吗?如果是这样,我在哪里可以下载不需要Hadoop的Spark版本? 这里 我只能找到Hadoop依赖版本。
我需要什么:
- 从Spark运行所有功能没有问题,但在一台计算机(我的家用计算机)。
- 我在计算机上用Spark制作的所有东西都应该在未来的集群中运行而不会出现问题。
我有理由在我的计算机上运行Hadoop或任何其他分布式文件系统用于测试目的吗?
注意 ”apache火花可以没有hadoop吗?“这是一个与我不同的问题,因为我确实希望在开发环境中运行Spark。