如题,简单一点的功能是如何对一份英文API开发文档进行词频的统计?(文档可能是多个html文件,也可能是chm文件,不是简单的txt文本);复杂一点的需求是,因为开发文档涉及很多类名、函数或方法名等,单词可能会连在一起,统计时最好能够分开(这个可以根据命名规则来分开);再复杂一点的需求是,因为单纯统计一个文档的词频没多大的实际意义,如何将统计后的单词再加工处理:剔除掉一些简单的,并对开发来说没多大意义的单词,如the,are,to,is……分析出里面涉及到计算机的专业名词、编程中特定含义的单词或编程语言的关键字(涉及到文档对应的不同语言);对最终分析出的单词标注出解释(中文,可以通过第三方API)……如果开发具有以上功能的软件,具体需要涉及哪些技术?欢迎提供你的想法……呃,其实我的痛点是,看一份英文文档时,有太多不懂的单词,经常要去查单词,效率太低了,如果有一个工具可以统计分析出一份文档的词汇,就可以在看文档前先大致熟悉词汇的意思,提高效率;而且对于开发时,命名也有帮助……修改备注:分开连在一起的单词确实不是分词技术,之前说错了;原问题提到的运用机器学习,我的想法是这样的:一个具有机器学习的软件大量阅读编程的开发文档,找出里面的专业术语,使整个功能的实现更加智能化……当然这是我瞎想的,不一定对,不喜勿喷;最后,我提到的看英文文档的问题,谁都有刚开始看不懂,效率低的阶段,谁不知道多看,效率就会慢慢提高?道理大家都懂……但是,这个不是我们讨论的重点,我只是有这么个想法,提出来让大家讨论下而已另外,提的问题如果有错,可以留言,我会修改,能不踩吗?
烙印99
相关分类