猿问

如何从 gensim 判断 WikiCorpus 是否正常工作?

我下载了完整的维基百科档案 14.9gb,我正在运行这行代码:

wiki = WikiCorpus("enwiki-latest-pages-articles.xml.bz2")

我的代码似乎没有通过这里,它已经运行了一个小时,我知道目标文件很大,但我想知道我怎么知道它正在工作,或者它的预期时间是多少去完成?


红糖糍粑
浏览 201回答 1
1回答

慕尼黑的夜晚无繁华

您通常可以使用特定于操作系统的监视工具(例如top在 Linux/Unix/MacOS 系统上)来了解您的 Python 进程是否正在密集计算、使用内存或继续使用 IO。即使是在第一次实例化时完成的简单词汇扫描WikiCorpus也可能需要很长时间才能解压缩和标记/计数,所以我不会对超过一小时的运行时间感到惊讶。(如果它在这个简单的操作中依赖于任何虚拟内存/交换,从输出top或类似的监控中可以清楚地看出,那会进一步减慢速度。)作为比较基准,您可以使用以下 shell 命令来计算仅解压所需的时间:% time bzcat enwiki-latest-pages-articles.xml.bz2 | wc(在我的 MacBook Pro 上进行的快速测试表明,15GB 的 BZ2 数据可能需要 30 分钟以上才能解压。)在某些情况下,在INFO级别打开 Python 日志记录将显示gensim模块的进度信息,尽管我不确定WikiCorpus在完成之前会显示任何内容。启用INFO级别日志记录可以很简单:import logginglogging.getLogger().setLevel(logging.INFO)
随时随地看视频慕课网APP

相关分类

Python
我要回答