打印 pyspark 数据框列中的所有类别

我有一个大型数据框,其中一列名为location,只有少数城市,例如:["New York", "London", "Paris", "Berlin"...].

我想在该列上打印所有不同的值,以便我知道例如某个城市的值是否丢失。我该怎么做,因为该.describe('location')方法没有帮助?


芜湖不芜
浏览 152回答 3
3回答

弑天下

describe方法用于基本的预定义统计数据,如计数、平均值、标准、最小值、最大值等。但是,为了找到任何列的不同值,您可以使用distinct()方法。希望这可以帮助。
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python