猿问

使用Python2的正则表达式中的Unicode类

是否有可能?


这段代码在Python3中有效:


In [1]: import re


In [2]: re.split(r'\W+', 'Les Misérables')

Out[2]: ['Les', 'Misérables']

但这在Python2中不起作用:


In [1]: import re


In [2]: re.split(r'\W+', u'Les Misérables')

Out[2]: [u'Les', u'Mis', u'rables']

这也不起作用(在具有es_ES.UTF-8区域设置的Linux上测试):


In [1]: import locale


In [2]: locale.setlocale(locale.LC_ALL, 'es_ES.UTF-8')

Out[2]: 'es_ES.UTF-8'


In [3]: import re


In [4]: re.split(ur'\W+', u'Les Misérables', re.U|re.L)

Out[4]: [u'Les', u'Mis', u'rables']

有什么方法可以让regex在Python2中使用Unicode ?


慕妹3146593
浏览 147回答 1
1回答

慕标琳琳

您的错误是您在错误的位置添加了标记(标记应为第4个参数)。>>> import re>>> re.split(r'(?u)\W+', u'Les Misérables')[u'Les', u'Mis\xe9rables']>>> re.split(ur'\W+', u'Les Misérables', 0, re.U)[u'Les', u'Mis\xe9rables']为了避免这些问题,我建议使用内联标志((?u)如上)。
随时随地看视频慕课网APP

相关分类

Python
我要回答