我有两个数据框,一个有单词,另一个有文本。我想获取第一个数据框中包含该单词的所有行的计数。
字=
ID | Word
------------
1 | Introduction
2 | database
3 | country
4 | search
文字 =
ID | Text
------------
1 | Introduction to python
2 | sql is a database
3 | Introduction to python in our country
4 | search for a python teacher in our country
我想要的最终输出是
ID | Word | Count
---------------------
1 | Introduction | 2
2 | database | 1
3 | country | 1
4 | search | 2
我在单词 df 中有 200000 行,在文本中有 55000 行(每个文本的长度约为 2000 个单词)df。使用以下代码完成整个过程大约需要 76 小时
'''
def docCount(docdf, worddf):
final_dict = {}
for i in tqdm(worddf.itertuples()):
docdf["Count"] = docdf.Text.str.contains(i[2])
temp_dict = {i[2]: docdf.Count.sum()}
final_dict = dict(Counter(final_dict)+Counter(temp_dict))
return final_dict
'''
SMILET
当年话下
慕勒3428872
相关分类