我需要找到一种相当有效的方法来检测单词中的音节。例如,
看不见-> in-vi-sib-le
有一些音节化规则可以使用:
V CV VC CVC CCV CCCV CVCC
*其中V是元音,C是辅音。例如,
发音(5个专业名词; CV-CVC-CV-V-CVC)
我尝试了几种方法,其中包括使用正则表达式(仅在您要计算音节时才有用)或硬编码规则定义(被证明是效率很低的蛮力方法),最后使用了有限状态自动机(没有任何有用的结果)。
我的应用程序的目的是创建给定语言的所有音节的字典。该词典稍后将用于拼写检查应用程序(使用贝叶斯分类器)和文本到语音合成。
如果能在我以前的方法之外给我提示另一种解决此问题的方法,我将不胜感激。
我使用Java,但是使用C / C ++,C#,Python,Perl的任何技巧都可以为我工作。
临摹微笑
慕标琳琳