在线等,挺急的!python 优化文本处理效率以及优化内存占用?求指导!

有一个大文件(795G)共7列,如果第1,2,3,6,7列相同,则,第4,5列的值相加。写了一个简单的版本,可以实现,但是服务器内存只有200G,读不进去?我的程序代码如下:#!/usr/bin/python#-*-coding:utf-8-*-__author__='author'__author_email__='xxx@icloud.com'defadd(line,anno):chr,position,strand,methy_read,all_read,methy_nt,nt=line.strip().split()key=(chr,position,strand,methy_nt,nt)ifkeyinanno.keys():anno[key]=map(lambdax,y:x+y,anno[key],(int(methy_read),int(all_read)))ifkeynotinanno.keys():anno[key]=(int(methy_read),int(all_read))returnannowithopen('test.tab','r')asf:dict1={}forlineinf:add(line,dict1)forkey,valueindict1.items():key=list(key)value=list(value)print(*key,*value,sep='\t')


慕侠2389804
浏览 379回答 2
2回答
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python