猿问

在频率分析中定义新词

我想知道如何定义一个可以包含其他词的新词。例如:


Word    Frequency

0   game    52055

1   laura   24953

2   luke    21133

3   story   20739

4   dog     17054

35  cat     4244

我想“创建”一个新词 ,pet其中包括dog和cat以及它们相应的频率。像这样的东西:


Word    Frequency

0   game    52055

1   Laura   24953

4   pet     21298

2   luke    21133

3   story   20739

我正在考虑使用字典来做到这一点:


thisdict = {

  "dog": "pet",

  "cat": "pet"}

但我不确定如何应用它以及这是否可以让我保留它们的值(总共 21298)


holdtom
浏览 108回答 1
1回答

缥缈止盈

replace先做然后做groupbydf.Word.replace(thisdict,inplace=True)dfOut[104]:      Word  Frequency0    game      520551   laura      249532    luke      211333   story      207394     pet      1705435    pet       4244df = df.groupby(['Word'], as_index=False).sum()dfOut[106]:     Word  Frequency0   game      520551  laura      249532   luke      211333    pet      212984  story      20739
随时随地看视频慕课网APP

相关分类

Python
我要回答