如何在pyspark中将列添加到另一个数据框?

我是 pyspark 的新手,我试图对我的数据进行一些标记化。我有我的第一个数据框: reviewID|text|stars


我根据 pyspark 文档对“文本”进行了标记化:


tokenizer = Tokenizer(inputCol="text", outputCol="words")


countTokens = udf(lambda words: len(words), IntegerType())


tokenized = tokenizer.transform(df2)

tokenized.select("text", "words") \

    .withColumn("howmanywords", countTokens(col("words"))).show(truncate=False)

我得到了我的令牌,但现在我想转换如下所示的数据框:


单词|星星


“文字”是我的标记。


所以我需要加入我的第一个数据框和标记化的数据框来获得类似的东西。请你帮助我好吗?如何将列添加到另一个数据框?


交互式爱情
浏览 155回答 1
1回答

不负相思意

好的,我现在明白了。我只需要制作:tokenizer = Tokenizer(inputCol="text", outputCol="words")tokenized = tokenizer.transform(df2)tokenized.select("text", "words", "stars").show(truncate=False)
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python