请考虑以下 JSON:
{"col1": "yoyo", "col2": 1.5}
{"col1": "", "col2": 6}
{"col1": "456", "col2": ""}
{"col1": 444, "col2": 12}
{"col1": null, "col2": 1.7}
{"col1": 3.14, "col2": null}
我使用(Py)Spark加载,如下所示:
from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local[*]").getOrCreate()
df = spark.read.json("my.json")
df.show()
这将产生:
+----+----+
|col1|col2|
+----+----+
|yoyo| 1.5|
| | 6.0|
|null|null| <---===***
| 444|12.0|
|null| 1.7|
|3.14|null|
+----+----+
我很难理解为什么第三行被无效。似乎原因是第二列中唯一的字符串是空字符串,这以某种方式导致空化。请注意,第 2 行也包含一个空字符串,但该行未被清空。""col1
对我来说,这是一个非常令人困惑和意想不到的行为。我无法在文档中找到提示。
这种行为是预期的吗?为什么会这样发生?
我希望第 3 行包含 的字符串和 的空字符串。我怎样才能实现这种行为(这对我来说感觉更自然)?"456"col1""col2
开心每一天1111
桃花长相依
随时随地看视频慕课网APP
相关分类