正则表达式以点|分号空间分割但忽略 url 例如

我正在尝试解析和匹配大量法律文本,将其全部拆分成单独的句子。我有以下正则表达式,它只适用于几行简单的文本:

[^\.\!\?\;\n]*[\.\!\?\;\n](\s+)

!和 ?或在这里非常无关紧要但是。和 ; 因为分隔符在我尝试处理的文本中很常见。问题是上面的正则表达式只是找到那些后跟空格字符的定界符。例如,以下文本将无法正确匹配:

成员国法律或根据与卫生专业人员签订的合同并遵守第 3 段中提到的条件和保障措施;出于公共卫生领域的公共利益考虑,处理是必要的,例如防止严重的跨境健康威胁或确保高标准比较工具 https://ec.europa.eu/ploteus/en/compare 已 采用7可比较的程序(例如认证/审计),并按照成员国的要求进行注册。基于欧盟或成员国法律的医疗保健和医药产品或医疗器械的质量和安全,该法律规定了适当和具体的措施来保护数据主体的权利和自由,特别是职业保密;处理是...

以下整个部分:

出于公共卫生领域的公共利益考虑,处理是必要的,例如防止严重的跨境健康威胁或确保

根本不会匹配。

任何有助于改进上述正则表达式的帮助将不胜感激!


元芳怎么了
浏览 247回答 1
1回答

偶然的你

我想你想要的名字是一个句子分词器。对于 Go,我可以推荐一个库:github.com/jdkato/prose,它应该很有魅力。就个人而言,我从未使用过。祝你好运!
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Go