如何使用 Scanner 从特定行号开始读取文件？

如果您不想阅读而只是跳过以前阅读的行，则需要获取上次中断的位置。不同的解决方案以函数的形式呈现，该函数获取要读取的输入和开始读取行的起始位置（字节位置），例如：func solution(input io.ReadSeeker, start int64) error使用了一个特殊的io.Reader输入，它也实现io.Seeker了通用接口，它允许跳过数据而不必读取它们。*os.File实现了这一点，因此您可以将 a 传递*File给这些函数。好的。在“合并”两者的界面io.Reader和io.Seeker是io.ReadSeeker。如果你想要一个干净的开始（从文件的开头开始读取），只需通过start = 0. 如果要恢复先前的处理，请传递上次处理停止/中止的字节位置。这个位置就是pos下面函数（解）中局部变量的值。下面的所有示例及其测试代码都可以在Go Playground上找到。1.与 bufio.Scannerbufio.Scanner 不保持位置，但是我们可以很容易的扩展它来保持位置（读取的字节），所以当我们下次要重新启动时，我们可以寻找到这个位置。为了以最少的努力做到这一点，我们可以使用一个新的拆分函数，将输入拆分为标记（行）。我们可以使用Scanner.Split()来设置拆分器功能（决定标记/行边界在哪里的逻辑）。默认拆分函数是bufio.ScanLines().我们来看看split函数的声明： bufio.SplitFunctype SplitFunc func(data []byte, atEOF bool) (advance int, token []byte, err error)它返回要前进的字节数：advance。正是我们需要保持文件位置。所以我们可以使用 builtin 创建一个新的 split 函数bufio.ScanLines()，所以我们甚至不必实现它的逻辑，只需使用advance返回值来维护位置：func withScanner(input io.ReadSeeker, start int64) error {    fmt.Println("--SCANNER, start:", start)    if _, err := input.Seek(start, 0); err != nil {        return err    }    scanner := bufio.NewScanner(input)    pos := start    scanLines := func(data []byte, atEOF bool) (advance int, token []byte, err error) {        advance, token, err = bufio.ScanLines(data, atEOF)        pos += int64(advance)        return    }    scanner.Split(scanLines)    for scanner.Scan() {        fmt.Printf("Pos: %d, Scanned: %s\n", pos, scanner.Text())    }    return scanner.Err()}2.与 bufio.Reader在这个解决方案中，我们使用bufio.Reader类型而不是Scanner. 如果我们将字节作为分隔符传递，bufio.Reader已经有一个ReadBytes()与“读取一行”功能非常相似的方法'\n'。这个解决方案类似于 JimB 的，增加了处理所有有效的行终止符序列，并将它们从读取行中剥离（很少需要它们）；在正则表达式中，它是\r?\n。func withReader(input io.ReadSeeker, start int64) error {    fmt.Println("--READER, start:", start)    if _, err := input.Seek(start, 0); err != nil {        return err    }    r := bufio.NewReader(input)    pos := start    for {        data, err := r.ReadBytes('\n')        pos += int64(len(data))        if err == nil || err == io.EOF {            if len(data) > 0 && data[len(data)-1] == '\n' {                data = data[:len(data)-1]            }            if len(data) > 0 && data[len(data)-1] == '\r' {                data = data[:len(data)-1]            }            fmt.Printf("Pos: %d, Read: %s\n", pos, data)        }        if err != nil {            if err != io.EOF {                return err            }            break        }    }    return nil}注意：如果内容以空行结尾（行终止符），本方案将处理空行。如果你不想要这个，你可以简单地像这样检查它：if len(data) != 0 {    fmt.Printf("Pos: %d, Read: %s\n", pos, data)} else {    // Last line is empty, omit it}测试解决方案：测试代码将简单地使用"first\r\nsecond\nthird\nfourth"包含多行不同行终止的内容。我们将使用strings.NewReader()来获取io.ReadSeeker其来源为 a 的string。测试代码首先调用withScanner()并withReader()传递0start position: a clean start。在下一轮中，我们将传递一个起始位置，start = 14它的位置是 3. 行的位置，因此我们不会看到前 2 行已处理（打印）：恢复模拟。func main() {    const content = "first\r\nsecond\nthird\nfourth"    if err := withScanner(strings.NewReader(content), 0); err != nil {        fmt.Println("Scanner error:", err)    }    if err := withReader(strings.NewReader(content), 0); err != nil {        fmt.Println("Reader error:", err)    }    if err := withScanner(strings.NewReader(content), 14); err != nil {        fmt.Println("Scanner error:", err)    }    if err := withReader(strings.NewReader(content), 14); err != nil {        fmt.Println("Reader error:", err)    }}输出：--SCANNER, start: 0Pos: 7, Scanned: firstPos: 14, Scanned: secondPos: 20, Scanned: thirdPos: 26, Scanned: fourth--READER, start: 0Pos: 7, Read: firstPos: 14, Read: secondPos: 20, Read: thirdPos: 26, Read: fourth--SCANNER, start: 14Pos: 20, Scanned: thirdPos: 26, Scanned: fourth--READER, start: 14Pos: 20, Read: thirdPos: 26, Read: fourth

如何使用 Scanner 从特定行号开始读取文件？

3回答