我有数十万个数据文本文件要阅读。到目前为止,我每次运行代码时都会从文本文件中导入数据。也许简单的解决方案是简单地将数据重新格式化为文件,以便更快地读取。无论如何,现在我拥有的每个文本文件都如下所示:
User: unknown
Title : OE1_CHANNEL1_20181204_103805_01
Sample data
Wavelength OE1_CHANNEL1
185.000000 27.291955
186.000000 27.000877
187.000000 25.792290
188.000000 25.205620
189.000000 24.711882
.
.
.
我读取和导入txt文件的代码是:
# IMPORT DATA
path = 'T2'
if len(sys.argv) == 2:
path = sys.argv[1]
files = os.listdir(path)
trans_import = []
for index, item in enumerate(files):
trans_import.append(np.loadtxt(path+'/'+files[1], dtype=float, skiprows=4, usecols=(0,1)))
结果数组在变量资源管理器中查找为:{ndarray} = [[185. 27.291955]\n [186. 27.000877]\n ... ]
我想知道,我怎样才能加快这部分的速度?到目前为止,仅导入约 4k 文本文件所需的时间有点长。每个文本文件(谱)中有 841 行。我用这段代码得到的输出是 841 * 2 = 1682。显然,它把 \n 当作一行......
互换的青春
相关分类