问题 使用StructType为Pyspark.sql设置模式时的语法


我是新手,并且正在玩Pyspark.sql。根据pyspark.sql文档 这里,可以像这样设置Spark数据帧和架构:

rdd = sc.textFile('./some csv_to_play_around.csv'

schema = StructType([StructField('Name', StringType(), True),
                     StructField('DateTime', TimestampType(), True)
                     StructField('Age', IntegerType(), True)])

# create dataframe
df3 = sqlContext.createDataFrame(rdd, schema)

我的问题是,什么是 True 代表着 schema 列表上面?我似乎无法在文档中找到它。提前致谢


4657
2018-05-13 12:09


起源



答案:


这意味着如果列允许空值, true 可以为空,和 false 因为不可空

StructField(name,dataType,nullable):表示StructType中的字段。字段名称由名称表示。字段的数据类型由dataType指示。 nullable用于指示此字段的值是否可以具有空值。

参考 Spark SQL和DataFrame指南 了解更多信息。


12
2018-05-13 13:00