从Unicode字符中删除Diacritic标记(ńǹňṅņṇṋṉ̈ɲƞᶇɳȵ)
我正在看一种算法,它可以在字符之间使用对话(蒂尔德, 回旋, 卡雷特, 乌姆劳特, 卡隆)和他们“简单”的性格。
例如:
ń ǹ ň ñ ṅ ņ ṇ ṋ ṉ ̈ ɲ ƞ ᶇ ɳ ȵ --> n
á --> a
ä --> a
ấ --> a
ṏ --> o
等。
我想用Java来做这件事,尽管我怀疑它应该是Unicode-y的东西,并且在任何语言中都应该是相当容易做到的。
目的:方便搜索带有指示符号的单词。例如,如果我有一个网球运动员的数据库,并且输入了Bj rn_Borg,我也会保留Bjorn_Borg,这样如果有人进入Bjorn而不是Bj rn,我就可以找到它。