问题 我可以在没有Hadoop的情况下使用Spark进行开发环境吗?


我对大数据和相关领域的概念都很陌生,如果我犯了一些错误或错字,对不起。

我想明白 Apache Spark 并使用它 只在我的电脑里,在开发/测试环境中。由于Hadoop包含HDFS(Hadoop分布式文件系统)和其他仅对分布式系统有用的软件,我可以放弃吗?如果是这样,我在哪里可以下载不需要Hadoop的Spark版本? 这里 我只能找到Hadoop依赖版本。

我需要什么:

  • 从Spark运行所有功能没有问题,但在一台计算机(我的家用计算机)。
  • 我在计算机上用Spark制作的所有东西都应该在未来的集群中运行而不会出现问题。

我有理由在我的计算机上运行Hadoop或任何其他分布式文件系统用于测试目的吗?

注意 ”apache火花可以没有hadoop吗?“这是一个与我不同的问题,因为我确实希望在开发环境中运行Spark。


4954
2017-09-12 00:12


起源

Spark使用Hadoop实用程序与本机文件系统一起工作,因此您可以抓住它并使用它。你试了一下它没用吗? - Justin Pihony
你能给我发这个Spark版本的链接吗?另外,当我阅读Spark文档时,我犯了一些错误,现在就会编辑问题。 - Paladini
只需访问主站点并使用Hadoop发行版下载即可。 - Justin Pihony
为什么-1?请至少给这个问题批评一下,不仅仅是-1。 - Paladini
不知道为什么有人给-1。我有同样的问题,所以我给它一个+1,使其为0而不是-1。 :-) - EXP0


答案:


是的,您可以在没有Hadoop的情况下安装Spark。 浏览Spark官方文档:http://spark.apache.org/docs/latest/spark-standalone.html 

粗略的步骤:

  1. 下载预编译的spark或下载spark源并在本地构建
  2. 提取TAR
  3. 设置所需的环境变量
  4. 运行启动脚本。

Spark(没有Hadoop) - 在Spark下载页面上的Avaialble 网址: https://www.apache.org/dyn/closer.lua/spark/spark-2.2.0/spark-2.2.0-bin-hadoop2.7.tgz

如果此URL不起作用,请尝试从Spark下载页面获取它


12
2017-09-14 09:05