删除字符串中包含切片中单词的所有单词

我正在尝试进行主题提取,我所做的是从字符串中删除所有辅助词,我的伪代码是:


topic := make(map[string]int)

auxiliaryWord := []string{"hbs", "habis", "dan", "kapan", "bagaimana", "kita", "kamu", "warga", "pada", "paling", "ga", "gak", "enggak", "tidak", "bukan", "usai", "juga", "yg", "yang", "kpd", "kepada", "nya", "adanya", "jd", "jadi", "sih", "lah", "kan", "photo", "from", "by", "ini", "saja", "utk", "untuk", "lebih", "ternyata", "apa", "sok", "tau", "bagi", "eksis", "keluar", "kk", "kakak"}

for chat := range chats {

    arrWord := chat.Split(chat, " ")

    for word := arrWord {

        if word not in auxiliaryWord {

            if topic[word] not exist {

                topic[word] = 1

            } else {

                topic[word]+= 1

            }

        }

    }

}

我的问题是,有没有更快的方法来做到这一点?


拉丁的传说
浏览 111回答 1
1回答

波斯汪

只需预先计算 auxilaryWord 进行哈希,然后进行查找即可。package mainimport (    "fmt"    "strings")var auxilaryWords = []string{"hbs", "habis", "dan", "kapan", "bagaimana", "kita", "kamu", "warga", "pada", "paling", "ga", "gak", "enggak", "tidak", "bukan", "usai", "juga", "yg", "yang", "kpd", "kepada", "nya", "adanya", "jd", "jadi", "sih", "lah", "kan", "photo", "from", "by", "ini", "saja", "utk", "untuk", "lebih", "ternyata", "apa", "sok", "tau", "bagi", "eksis", "keluar", "kk", "kakak"}var auxHash = map[string]bool{}func CountTopics(chatWords []string) map[string]int {    result := map[string]int{}    for _, word := range chatWords {        if !auxHash[word] {            result[word] += 1        }    }    return result}func init() {    for _, word := range auxilaryWords {        auxHash[word] = true    }}func main() {    arrWord := strings.Split(`hai kakak habis makan apa`, " ")    fmt.Println(CountTopics(arrWord))   }https://play.golang.org/p/Wr2gK_zizL0
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Go