python 如何抽取多个指定样本的数据?

现有数据如下(真实情况大概几十万行):

https://img3.mukewang.com/5c66393100011fc408000145.jpg

比如有另个文件p.txt,里面有一列数,如下:
“8240004146789610
8240004356417597
……
8240004146757344”
我需要抽取数据中第四列为p.txt中的数,该有什么快速的方法吗(方法不限定于pandas)?
其实就是个抽样过程,抽指定的样本,第四列为指定文件里的数。

现在的想法是在p.txt里循环,然后用pandas读取原始数据,第四列==循环的数就提取出来,是否有更快捷的方法?


喵喵时光机
浏览 510回答 1
1回答

肥皂起泡泡

可以考虑用pandas的apply,减去p.txt循环和后继矩阵拼接的步骤。即读取p.txt里的数据转成一个list例如P,然后用pandas读取原始数据,执行:df[df[<第四列名>].apply(lambda&nbsp;x:&nbsp;x&nbsp;in&nbsp;P)]
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python