对于我们正在使用的作业,我们要做的一件事是逐行解析 uniprotdatabasefile 以收集 uniprot 记录。
我不想共享太多代码,但我有一个工作代码片段,可以在 48 秒内正确解析这样的文件(2.5 GB)(使用 time go-package 测量)。它迭代地解析文件并向记录添加行,直到达到记录结束信号(完整记录),并创建记录上的元数据。然后记录字符串为空,并逐行收集新记录。然后我想我会尝试使用 go-routines。
我之前从 stackoverflow 得到了一些提示,然后在原始代码中我简单地添加了一个函数来处理与元数据创建有关的所有事情。
所以,代码正在做
创建一个空记录,
迭代文件并向记录添加行,
如果找到记录停止信号(现在我们有一个完整的记录) - 将其交给 go 例程以创建元数据
null 记录字符串并从 2) 继续。
我还添加了一个sync.WaitGroup()
以确保我等待(最后)每个例程完成。我认为这实际上会减少解析数据库文件所花费的时间,因为它会继续解析,而 goroutine 将对每条记录执行操作。但是,代码似乎运行了 20 多分钟,表明出现问题或开销变得疯狂。有什么建议么?
package main
import (
"bufio"
"crypto/sha1"
"fmt"
"io"
"log"
"os"
"strings"
"sync"
"time"
)
type producer struct {
parser uniprot
}
type unit struct {
tag string
}
type uniprot struct {
filenames []string
recordUnits chan unit
recordStrings map[string]string
}
func main() {
p := producer{parser: uniprot{}}
p.parser.recordUnits = make(chan unit, 1000000)
p.parser.recordStrings = make(map[string]string)
p.parser.collectRecords(os.Args[1])
}
func (u *uniprot) collectRecords(name string) {
fmt.Println("file to open ", name)
t0 := time.Now()
wg := new(sync.WaitGroup)
record := []string{}
file, err := os.Open(name)
errorCheck(err)
scanner := bufio.NewScanner(file)
for scanner.Scan() { //Scan the file
retText := scanner.Text()
if strings.HasPrefix(retText, "//") {
wg.Add(1)
go u.handleRecord(record, wg)
record = []string{}
} else {
record = append(record, retText)
}
}
file.Close()
wg.Wait()
t1 := time.Now()
fmt.Println(t1.Sub(t0))
}
func (u *uniprot) handleRecord(record []string, wg *sync.WaitGroup) {
defer wg.Done()
recString := strings.Join(record, "\n")
t := hashfunc(recString)
u.recordUnits <- unit{tag: t}
u.recordStrings[t] = recString
}
湖上湖
相关分类