在pyspark中选择包含字符串的列

我有一个包含很多列的pyspark 数据框，我想选择包含某个字符串和其他字符串的那些。例如：

df.columns = ['hello_world','hello_country','hello_everyone','byebye','ciao','index']

我想选择包含'hello'和名为'index'的列，所以结果将是：

['hello_world','hello_country','hello_everyone','index']

我想要类似的东西 df.select('hello*','index')

提前致谢:)

编辑：

我找到了一个快速解决它的方法，所以我回答了自己，问答风格。如果有人看到我的解决方案并且可以提供更好的解决方案，我将不胜感激

繁花如伊

浏览 550回答 3

料青山看我应如是

您也可以尝试使用Spark 2.3 中引入的colRegex函数，其中您也可以将列名指定为正则表达式。

0 0

随时随地看视频慕课网APP