在线等,挺急的!python 优化文本处理效率以及优化内存占用?求指导!

有一个大文件(795G)共7列,如果第1,2,3,6,7列相同,则,第4,5列的值相加。写了一个简单的版本,可以实现,但是服务器内存只有200G,读不进去?我的程序代码如下:
#!/usr/bin/python
#-*-coding:utf-8-*-
__author__='author'
__author_email__='xxx@icloud.com'
defadd(line,anno):
chr,position,strand,methy_read,all_read,methy_nt,nt=line.strip().split()
key=(chr,position,strand,methy_nt,nt)
ifkeyinanno.keys():
anno[key]=map(lambdax,y:x+y,anno[key],(int(methy_read),int(all_read)))
ifkeynotinanno.keys():
anno[key]=(int(methy_read),int(all_read))
returnanno
withopen('test.tab','r')asf:
dict1={}
forlineinf:
add(line,dict1)
forkey,valueindict1.items():
key=list(key)
value=list(value)
print(*key,*value,sep='\t')
慕斯王
浏览 216回答 2
2回答
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

JavaScript