目前我正在抓取亚马逊的网站以获取一些数据。我遇到的问题是我无法真正从同一页面获取产品的所有数据。
我最终得到的是 2 个文件,它们具有相同的列标题,但列本身的数据不同。除了一些小事情,我之前几乎从未使用过熊猫,所以我在该领域的知识并不是那么好。
例如,在一个 .csv 文件中,产品有“代码”、“名称”、“网址”、“尺寸”和信息,但在另一个文件中,它有“代码”、“价格”、“图像1”、“图像2”等等。
如果文件 2 中的代码与文件 1 中的代码相同,则最好的方法是将文件 2 中的数据粘贴到文件 1(或仅创建一个新文件)。我可能会使用数以万计不同的产品代码,因此越有效的方法越好。
我将链接两个文件作为下面的示例
文件 1:https : //ufile.io/oojru
文件 2:https : //ufile.io/cytmq
我将上面的一些数据写为文本(没有使用所有标题,因为它看起来不太好)
文件 1
categoriaProducto codigoEspecifico codigoGenerico nombreProducto precioProducto
- B072L7PVNQ - - price1
- B01D9FKME6 - - price2
- B077Z5ST3P - - price3
- B00KLMFUKC - - price4
档案 2
categoriaProducto codigoEspecifico codigoGenerico nombreProducto precioProducto
Clothing B072L7PVNQ 86K5PBAH name1 -
Clothing B01D9FKME6 86K5PBAH name2 -
Clothing B077Z5ST3P 86K5PBAH name3 -
Clothing B00KLMFUKC 86K5PBAH name4 -
对于上传的文件和文本,代码的顺序相同。值得注意的是,情况可能并非如此。
我还想补充一点,如果产品代码出现在文件 1 中,则该代码也会出现在文件 2 中,但反之则不然。
我尝试从 file1 数据创建一个新列并将该列粘贴到 file2 dataFrame 中,然后保存文件。但后来我发现代码可能不正常,所以这种方式不起作用。
编辑:我不是很清楚我想要什么,我很抱歉。我试图得到的结果是这样的
categoriaProducto codigoEspecifico codigoGenerico nombreProducto precioProducto
Clothing B072L7PVNQ 86K5PBAH name1 price1
Clothing B01D9FKME6 86K5PBAH name2 price2
Clothing B077Z5ST3P 86K5PBAH name3 price3
Clothing B00KLMFUKC 86K5PBAH name4 price4
相关分类