向 100K+ 数据集添加行

首页课程实战体系课手记专栏慕课教程

向 100K+ 数据集添加行

我对 Python 和数据科学真的很陌生。

我有一个包含 30 列的 100K+ CSV 数据集。如果满足某些条件，目标是向数据集添加一些行。

为了方便起见，假设我只有三列名为“A”、“B”和“C”，A 和 B 的类型是整数。C 是一个字符串。

我们不用担心 B 和 C，因为我会把所有 B 列的值都设为 0，然后我会计算 C。

所以这里是我的“想象”数据集的快速视图：

_____

| 1 |

| 4 |

| 3 |

| 7 |

_______

我在 Dataframe 中解析了我的数据集，并按“A”的值对其进行了排序。

所以，现在，它看起来像这样：

_____

| 1 |

| 3 |

| 4 |

| 7 |

_______

现在，我想遍历我的 DataFrame 并检查我是否在两行之间缺少一些数字并将它们添加到数据框中，即：如果 A[i+1]-A[i]>1，我想添加 A[i]他们之间+1。

_____

| 1 |

| 2 |

| 3 |

| 4 |

| 5 |

| 6 |

| 7 |

_______

据我所知，我有以下选择：

将我的新行直接附加到新的数据框。我不知道为什么，但我认为这不是一个好主意。如果我是对的，你们能解释一下为什么吗？如果我错了，你们能解释为什么吗？
将我的新行附加到一个列表中，从该列表中创建一个数据框，然后将我的旧数据框与我的新数据框“加入”。
Idk，有什么建议吗？

我现在的主要问题是，处理大型 DataFrame 很麻烦，而且我的脚本需要很长时间才能完成这项工作。你们能引导我找到处理如此大量数据的“正确方法”吗？

顺便说一句，这是我为选择 n°2 所做的代码：

df=pd.read_csv("dataset.csv")

df.sort_values(by="A")

L=[]

for i in range (0, len(df)-1):

actual=df.at[i, 'A']

next=df.at[(i+1), 'A']

diff=actual-next-1

for j in range(1, diff):

L.append(actual+1)

actual +=1

df=pd.DataFrame(data=L, columns=list(df))

df.to_csv("my_output.csv", sep=',')

守着一只汪

浏览 179回答 2

2回答

隔江千里

reindex设置'A'为索引并将reindex为我们指定的每个值创建一行，使用range. 所有其他列的缺失单元格是（分别为浮点数和对象）。无需在reindex.df = pd.DataFrame({'A': [4, 3, 1, 7],                    'B': [10, 11, 12, 13],                    'C': ['B1', 'B2', 'B3', 'B4'],                   'D': [True, False, True, True]})idx = range(df.A.min(), df.A.max()+1)  # All 'A' values you want to representdf.set_index('A').reindex(idx).reset_index()#   A     B    C      D#0  1  12.0   B3   True#1  2   NaN  NaN    NaN#2  3  11.0   B2  False#3  4  10.0   B1   True#4  5   NaN  NaN    NaN#5  6   NaN  NaN    NaN#6  7  13.0   B4   True如果'A'是重复的，那么我们需要一个outer连接来完成同样的事情。(df.set_index('A')   .join(pd.DataFrame(index=pd.Index(idx, name='A')), how='outer')   .reset_index())

0 0

达令说

让我们重新创建您的 DataFrame 并通过以下方式对其进行索引A：rows = [1, 4, 3, 7]df = pd.DataFrame({"A": rows, "B": [1] * len(rows), "C": ["string"] * len(rows)})N = df.A.max()df = df.set_index("A")一种选择是创建一个新的 DataFrame，其中填充所有可能的条目，A并在中使用零B：complete_df = pd.DataFrame({"A": range(1, N + 1), "B": [0] * N})complete_df = complete_df.set_index("A")现在您可以使用 in 的值进行更新df并删除 on 的索引A：complete_df = df.combine_first(complete_df)complete_df = complete_df.reset_index()这样，您将保留所有列，在B所有新行的列中置零，并NaN在所有其他列中置零。分享编辑跟随于 2019 年 10 月 

0 0

随时随地看视频慕课网APP