我有一个包含大量推文的数据框,我想删除重复项。推文存储在 fh1.df['Tweets'] 中。我计算了非重复的数量。j 重复的数量。在 else 语句中,我删除了重复项的行。如果我创建一个新列表“tweetChecklist”,我将所有好的推文都放入其中。
好的,如果我做 i + j ,我就变成了原始推文的数量。所以这很好。但是在其他情况下,我不知道为什么,他删除了很多行,因为在 for 循环(1/10)之后我的数据框的形状要小得多。
“ fh1.df = fh1.df[fh1.df.Tweets != current_tweet] ”行如何删除多行?
tweetChecklist = []
for current_tweet in fh1.df['Tweets']:
if current_tweet not in tweetChecklist:
i = i + 1
tweetChecklist.append(current_tweet)
else:
j = j + 1
fh1.df = fh1.df[fh1.df.Tweets != current_tweet]
fh1.df['Tweets'] = pd.Series(tweetChecklist)
温温酱
暮色呼如
相关分类