我正在使用命令行工具twarc将 Twitter 数据下载为 csv。我已经设置了 twarc 命令,它们在命令行上成功执行,没有问题。命令示例:
twarc dosomething > outputfile.jsonl
虽然我想在较长时间内执行收集过程,但运行一天多后输出文件变得有点太大(10+GB)。
我想运行一个执行 twarc 命令的 bash 脚本,运行直到输出文件达到一定限制,然后启动一个新文件。
这些问题是相关的...
...尽管我的翻译运气不佳。
任何人都可以提供一些有关设置基本 bash 脚本来执行命令、等待文件增长到 X 大小,然后重新开始处理新文件的见解吗?可以从那里拿走...
撒科打诨
慕容森
相关分类