对于学校项目的第一部分,我试图弄清楚如何删除 JavaScript<script {...} >和</script {...} >标签以及<和之间的任何内容>。
然而,我们无法导入任何模块(甚至是Python内置的模块),因为显然标记可能无法访问它们等等。
我试过这个:
text = "<script beep beep> hello </script boop doop woop> hello <hi> hey <bye>"
while text.find("<script") >= 0:
script_start = text.find("<script")
script_end = text.find(">", text.find("</script")) + 1
text = text[:script_start] + text[script_end:]
while text.find("<") >= 0:
script2_start = text.find("<")
script2_end = text.find(">") + 1
text = text[:script2_start] + text[script2_end:]
这确实适用于较小的文件,但该项目与大文本文件有关(我们给出的简化测试文件是 10.4MB),因此它不会完成并且会卡住。
有人有任何想法可以提高效率吗?
大话西游666
偶然的你
呼唤远方
相关分类