如何通过Twitter API使用python格式化推文?

我通过Twitter API收集了一些推文。然后我数了split(' ')在python中使用的单词。但是,有些单词如下所示:


correct! 

correct.

,correct

blah"

...

那么,如何格式化不带标点符号的推文呢?或者,也许我应该尝试另一种split推文方式?谢谢。


幕布斯6054654
浏览 213回答 3
3回答

斯蒂芬大帝

您可以使用re.split...from string import punctuationimport repuncrx = re.compile(r'[{}\s]'.format(re.escape(punctuation)))print filter(None, puncrx.split(your_tweet))或者,只查找包含某些连续字符的单词:print re.findall(re.findall('[\w#@]+', s), your_tweet)例如:print re.findall(r'[\w@#]+', 'talking about #python with @someone is so much fun! Is there a     140 char limit? So not cool!')# ['talking', 'about', '#python', 'with', '@someone', 'is', 'so', 'much', 'fun', 'Is', 'there', 'a', '140', 'char', 'limit', 'So', 'not', 'cool']我最初在示例中确实有一个笑脸,但是当然这些最终都被这种方法过滤掉了,因此需要警惕。

江户川乱折腾

我建议使用以下代码从特殊符号中清除文本:tweet_object["text"] = re.sub(u'[!?@#$.,#:\u2026]', '', tweet_object["text"])您需要先导入re,然后再使用function subimport re
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python