我在表格中有地址列,如下所示
>>> spark.sql("select add1 from test").show(10,False)
+---------------------------+
|add1 |
+---------------------------+
|PO BOX 1111DUBAI UAE |
|P.O. BOX 2222DUBAI - U.A.E|
+---------------------------+
我必须匹配一组单词并将它们从列中删除只是为了比较目的
我能够用空格替换单个单词,如下所示(在本例中为“UAE”)
spark.sql("select regexp_replace(add1,'UAE','') from test").show(10,False)
+---------------------------+
|regexp_replace(add1, UAE, )|
+---------------------------+
|PO BOX 1111DUBAI |
|P.O. BOX 2222DUBAI - U.A.E|
+---------------------------+
但我想删除所有特殊字符和一组停用词,例如 {'UAE','UAE', 'UA E', 'PO', 'P O'}
期望的输出:
spark.sql("select regexp_replace(add1,'UAE','') from test").show(10,False)
+---------------------------+
|regexp_replace(add1, UAE, )|
+---------------------------+
|1111DUBAI |
|2222DUBAI |
+---------------------------+
有人可以帮我实现这个目标吗,谢谢!
MM们
相关分类