我有一个 excel 文件,其中一列包含 1000 多个公司名称,另一列包含大约 20,000 个公司名称。
目标是匹配尽可能多的名称。问题是第一列(1000+)中的名称格式不正确,这意味着“公司名称”字符串可能类似于“9Com(panynAm9e00”。我正在尝试找出解决此问题的最佳方法。(仅12 个名字完全匹配)
在尝试了不同的方法后,我最终尝试使用正则表达式匹配每个名称中的 4-5 个或更多字符,具体取决于每个字符串的长度。但我只是在努力寻找最有效的方法来做到这一点。
例如:
第 1 栏
1. 9Com(panynAm9e00
2. NikE4
3. Mitrosof2
第 2 栏
1. Microsoft
2. Company Name
3. Nike
取第1 列中的第一个元素并在第 2 列中查找匹配项。如果没有完全匹配,则查找具有 4-5 个相同字符的字符串。
有什么建议么?
SMILET
相关分类