使用 python 代码基于单词拆分文本

我有一个很长的文本,如下所示。我需要根据一些单词进行拆分(“In”,“On”,“这些”)

以下是示例数据:

另一方面,我们义愤填膺地谴责和不喜欢那些被当下快乐的魅力所迷惑和沮丧的人,他们被欲望蒙蔽了双眼,以至于他们无法预见必然随之而来的痛苦和麻烦;同样的责任属于那些因意志薄弱而未能履行职责的人,这与通过因辛劳和痛苦而退缩而说的相同。这些案例非常简单,易于区分。在一个空闲的小时,当我们的选择权不受约束,当没有什么能阻止我们做我们最喜欢的事情时,每一种快乐都是受到欢迎的,每一种痛苦都是要避免的。但是,在某些情况下,由于责任要求或商业义务,经常会发生必须否定快乐并接受烦恼的情况。因此,智者在这些事情上总是坚持这个选择原则:他拒绝快乐以获得其他更大的快乐,或者他忍受痛苦以避免更痛苦的痛苦。

这个问题可以用代码解决吗,因为我在csv文件中有1000行。


HUWWW
浏览 94回答 3
3回答

婷婷同学_

根据我的评论,我认为一个不错的选择是将正则表达式与模式一起使用:&nbsp;re.split(r'(?<!^)\b(?=(?:On|In|These)\b)',&nbsp;YourStringVariable)

扬帆大鱼

是的,这可以在蟒蛇中完成。您可以将文本加载到变量中,并将内置的 Split 函数用于字符串。例如:with open(filename, 'r') as file:&nbsp; &nbsp; lines = file.read()&nbsp; &nbsp; lines = lines.split('These')&nbsp; &nbsp; # lines is now a list of strings split whenever 'These' string was encountered

泛舟湖上清波郎朗

要查找不属于较大单词的整个单词,我喜欢使用正则表达式:[^\w]word[^\w]示例 python 代码,假设文本位于名为 的变量中:textimport reexp = re.compile(r'[^\w]in[^\w]', flags=re.IGNORECASE)all_occurrences = list(exp.finditer(text))
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python