鉴于 Unicode 非空格标记列表 - https://www.fileformat.info/info/unicode/category/Mn/list.htm
UNICODE_NSM = ['\u0300', '\u0301', '\u0302', '\u0303', '\u0304', '\u0305', '\u0306', '\u0307', '\u0308', '\u0309', '\u030A', '\u030B', '\u030C', '\u030D', '\u030E', '\u030F', '\u0310', '\u0311', '\u0312', '\u0313', '\u0314', '\u0315', '\u0316', '\u0317', '\u0318', '\u0319', '\u031A', '\u031B', '\u031C', '\u031D', '\u031E', '\u031F',
笔记。 请注意,我们在这里有\U000XXXXX和\uXXXX代表。
我想计算像这个印地语字符串“अब यहां से कहा जाएँ हम”这样的 Unicode 输入文本,或者只是一个像“समझा”这样的标记词,不包括非空格字符。
我的实现看起来像
def countNonSpacingCharString(str):
count = 0;
for char in str:
if char not in UNICODE_NSM:
count = count + 1
return count
感谢以下答案中提供的帮助,我已将所有内容放在此 github 中。还有一个可以在 JavaScript / Node.js 中使用的标记代码点列表 - https://github.com/loretoparisi/unicode_marks
互换的青春
相关分类