我可以将Pandas Dataframe转换为RDD吗?
if isinstance(data2, pd.DataFrame):
print 'is Dataframe'
else:
print 'is NOT Dataframe'
是Dataframe
这是尝试使用.rdd时的输出
dataRDD = data2.rdd
print dataRDD
AttributeError Traceback (most recent call last)
<ipython-input-56-7a9188b07317> in <module>()
----> 1 dataRDD = data2.rdd
2 print dataRDD
/usr/lib64/python2.7/site-packages/pandas/core/generic.pyc in __getattr__(self, name)
2148 return self[name]
2149 raise AttributeError("'%s' object has no attribute '%s'" %
-> 2150 (type(self).__name__, name))
2151
2152 def __setattr__(self, name, value):
AttributeError: 'DataFrame' object has no attribute 'rdd'
我想使用Pandas Dataframe而不是sqlContext来构建,因为我不确定Pandas DF中的所有函数是否都可以在Spark中使用。如果这是不可能的,是否有人可以提供使用Spark DF的示例