Go,正则表达式:非常具有挑战性的字符正则表达式

你认为只有使用正则表达式才有可能吗?

这是我在 Go Playground 上的尝试

这是成功的一些脏代码

http://play.golang.org/p/YysZCB3vlu

我想将扩展的韩文字符转换为完整的字母。例如, “ㅈㅗㅎㅇㅡㄴㄱㅏㅂㅅㅇㅣㅆㅏㅇㅛㅇㅏㅊㅣㅁㅇㅏㄴㄴㅕㅇㅎㅏㅅㅔㅇㅛㅇㅜㅔ” 到좋은값이싸요아침안녕하세요웬

对于无法正确呈现韩文字符的浏览器:

좋 은 값 이 싸 요 아 침 안 녕 하 세 요 웬

简单的部分是韩语字母只能以一个辅音+一个或两个元音开头。这可以用 ( .([ㅏ-ㅣ])+)来捕捉。

具有挑战性的部分是元音后面的零个或一个或最多两个可选辅音。难的另一个原因是,在最多两个可选辅音之后,我们还有另一个不属于前一个字母的辅音,这个辅音意味着另一个新字母的开始。

像下面这样:

ㄱㅏㅂㅅㅇㅣ

= ㄱㅏㅂㅅ  +  ㅇㅣ

= 값 + 이

= 값이

可以使用 if 条件和基本正则表达式捕获所有模式。但如果我有更短的版本就好了。

我的最终目标是转换 “ㅈㅗㅎㅇㅡㄴㄱㅏㅂㅅㅇㅣㅆㅏㅇㅛㅇㅏㅊㅣㅁㅇㅏㄴㄴㅕㅇㅎㅏㅅㅔㅇㅛㅇㅜㅔㄴ” 到좋은값이싸요아침안녕하세요웬

对于无法正确呈现韩文字符的浏览器:

좋 은 값 이 싸 요 아 침 안 녕 하 세 요 웬


Cats萌萌
浏览 198回答 1
1回答

神不在的星期二

我不会韩语,但听起来您可能的输入组合是:C(Consonant) V(Vowel)CVVCVVCCVVCCCVCCVCC因此,捕获它的正则表达式规则(不捕获下一个单词的第一个辅音)是: CV{1,2}C{0,2}(?!V)然后你只需要定义你的 C 和 V 字符类,比如用 [ㅏ-ㅣ]使用您的程序遍历字符串中找到的匹配项,并输出组合词编辑:Go 不支持负前瞻,因此我建议执行以下操作:反转字符串(类似于How to reverse a string in Go?,但要小心 unicode 字节序列)进行比赛 C{0,2}V{1,2}C反转每个匹配并执行单词 join/lookup还有其他方法可以解决缺少负前瞻的问题,但它可能会涉及更多代码来操纵下一个匹配项在输入字符串中的开始位置。此外,在定义要查找的元音或辅音字符集时,最好使用 unicode 转义序列而不是韩语字形本身(通常,例如\x1161),但我不确定 Go 是否支持 unicode 引用在正则表达式中...
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Go