猿问

在 Pandas 中迭代地分配唯一 ID

我遇到了遍历由 200.000 行组成的 Pandas DataFrame 的问题。每行由不同长度的句子组成,我希望将其拆分为特殊字符,如 re.split 方法所示。


我想做的是通过为它们分配一个唯一的 ID 来跟踪哪些句子被分成了多少个子句子。


我现在拥有的是:


lengths = []

reviews = []

for sentence in corpus:

    subsentence = re.split(r'[.|,|?|!]', str(sentence))

    for i in review:

        lengths.append(len(review))

        reviews.append(i)


df = pd.DataFrame({'review':reviews,'length': lengths})

结果数据框的图片

我想要的是拆分成多个子句的句子共享一个唯一的 ID,这样我就可以再次将它们粘合在一起。


萧十郎
浏览 82回答 1
1回答

缥缈止盈

lengths = []reviews = []unique_ids = []unique_id = 0for sentence in corpus:    review = re.split(r'[.|,|?|!]', str(sentence)) #assuming here that subsentences == review    for i in review:        lengths.append(len(review))        reviews.append(i)        unique_ids.append(unique_id)    unique_id += 1df = pd.DataFrame({'review':reviews,'length': lengths, 'unique_ids': unique_ids})
随时随地看视频慕课网APP

相关分类

Python
我要回答