我有一些带注释的 HTML 源代码,其中代码类似于您将使用的代码,requests并且注释是带有标记项目开始的字符索引的标签,并且
例如,源代码可以是:
<body><text>Hello world!</text><text>This is my code. And this is a number 42</text></body>
标签可以是例如:
[{'label':'salutation', 'start':12, 'end':25},
{'label':'verb', 'start':42, 'end':45},
{'label':'size', 'start':75, 'end':78}]
分别指“Hello world”、“is”和“42”这三个词。我们事先知道标签没有重叠。
我想处理源代码和注释以生成适合 HTML 格式的标记列表。
例如,它可以在这里产生如下内容:
['<body>', '<text>', 'hello', 'world', '</text>', '<text>', 'this', 'is', 'my', 'code', 'and', 'this', 'is', 'a', 'number', '[NUMBER]', '</text>', '</body>']
此外,它必须将注释映射到标记化,生成与标记化长度相同的标签序列,例如:
['NONE', 'NONE', 'salutation', 'salutation', 'NONE', 'NONE', 'NONE', 'verb', 'NONE', 'NONE', 'NONE', 'NONE', 'NONE', 'NONE', 'NONE', 'size', 'NONE', 'NONE']
在 Python 中完成此任务的最简单方法是什么?
UYOU
胡说叔叔
相关分类