使用Python2的正则表达式中的Unicode类

是否有可能？

这段代码在Python3中有效：

In [1]: import re

In [2]: re.split(r'\W+', 'Les Misérables')

Out[2]: ['Les', 'Misérables']

但这在Python2中不起作用：

In [1]: import re

In [2]: re.split(r'\W+', u'Les Misérables')

Out[2]: [u'Les', u'Mis', u'rables']

这也不起作用（在具有es_ES.UTF-8区域设置的Linux上测试）：

In [1]: import locale

In [2]: locale.setlocale(locale.LC_ALL, 'es_ES.UTF-8')

Out[2]: 'es_ES.UTF-8'

In [3]: import re

In [4]: re.split(ur'\W+', u'Les Misérables', re.U|re.L)

Out[4]: [u'Les', u'Mis', u'rables']

有什么方法可以让regex在Python2中使用Unicode ？

慕妹3146593

浏览 213回答 1

1回答

慕标琳琳

您的错误是您在错误的位置添加了标记（标记应为第4个参数）。>>> import re>>> re.split(r'(?u)\W+', u'Les Misérables')[u'Les', u'Mis\xe9rables']>>> re.split(ur'\W+', u'Les Misérables', 0, re.U)[u'Les', u'Mis\xe9rables']为了避免这些问题，我建议使用内联标志（(?u)如上）。

随时随地看视频慕课网APP