从大文本中删除所有非字母数字字符的有效方法

从大文本中删除所有非字母数字字符的有效方法。在 Go 中，“高效方式”意味着我们运行 Gotesting包基准测试。您对大文本的描述含糊不清。让我们假设它以来自文件或其他byte切片的文本开始。string([]byte)您可能有、几个make([]byte)和的开销string([]byte)。您可以使用strings.Builder将开销减少到string([]byte)和几个make([]byte)。string([]byte)您可以通过从函数开始进一步减少它clean([]byte) string。例如，func clean(s []byte) string {    j := 0    for _, b := range s {        if ('a' <= b && b <= 'z') ||            ('A' <= b && b <= 'Z') ||            ('0' <= b && b <= '9') ||            b == ' ' {            s[j] = b            j++        }    }    return string(s[:j])}对于大文，莎士比亚全集作为一部[]byte，$ go fmt && go test strip_test.go -bench=. -benchmemBenchmarkSendeckyMap-8       20     65988121 ns/op    11730958 B/op      2 allocs/opBenchmarkSendeckyRegex-8      5    242834302 ns/op    40013144 B/op    130 allocs/opBenchmarkThunder-8          100     21791532 ns/op    34682926 B/op     43 allocs/opBenchmarkPeterSO-8          100     16172591 ns/op     5283840 B/op      1 allocs/op$strip_test.go:package mainimport (    "io/ioutil"    "regexp"    "strings"    "testing")func stripMap(str, chr string) string {    return strings.Map(func(r rune) rune {        if strings.IndexRune(chr, r) >= 0 {            return r        }        return -1    }, str)}var alphanum = "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789 "func BenchmarkSendeckyMap(b *testing.B) {    for N := 0; N < b.N; N++ {        b.StopTimer()        bytShakespeare := []byte(strShakespeare)        b.StartTimer()        strShakespeare = string(bytShakespeare)        stripMap(strShakespeare, alphanum)    }}func stripRegex(in string) string {    reg, _ := regexp.Compile("[^a-zA-Z0-9 ]+")    return reg.ReplaceAllString(in, "")}func BenchmarkSendeckyRegex(b *testing.B) {    for N := 0; N < b.N; N++ {        b.StopTimer()        bytShakespeare := []byte(strShakespeare)        b.StartTimer()        strShakespeare = string(bytShakespeare)        stripRegex(strShakespeare)    }}func strip(s string) string {    var result strings.Builder    for i := 0; i < len(s); i++ {        b := s[i]        if ('a' <= b && b <= 'z') ||            ('A' <= b && b <= 'Z') ||            ('0' <= b && b <= '9') ||            b == ' ' {            result.WriteByte(b)        }    }    return result.String()}func BenchmarkThunder(b *testing.B) {    for N := 0; N < b.N; N++ {        b.StopTimer()        bytShakespeare := []byte(strShakespeare)        b.StartTimer()        strShakespeare = string(bytShakespeare)        strip(strShakespeare)    }}func clean(s []byte) string {    j := 0    for _, b := range s {        if ('a' <= b && b <= 'z') ||            ('A' <= b && b <= 'Z') ||            ('0' <= b && b <= '9') ||            b == ' ' {            s[j] = b            j++        }    }    return string(s[:j])}func BenchmarkPeterSO(b *testing.B) {    for N := 0; N < b.N; N++ {        b.StopTimer()        bytShakespeare := []byte(strShakespeare)        b.StartTimer()        clean(bytShakespeare)    }}var strShakespeare = func() string {    // The Complete Works of William Shakespeare by William Shakespeare    // http://www.gutenberg.org/files/100/100-0.txt    data, err := ioutil.ReadFile(`/home/peter/shakespeare.100-0.txt`)    if err != nil {        panic(err)    }    return string(data)}()

从大文本中删除所有非字母数字字符的有效方法

2回答