继续浏览精彩内容
慕课网APP
程序员的梦工厂
打开
继续
感谢您的支持,我会继续努力的
赞赏金额会直接到老师账户
将二维码发送给自己后长按识别
微信支付
支付宝支付

中文短文本摘要数据集

慕的地10843
关注TA
已关注
手记 1081
粉丝 200
获赞 961

背景

由于目前没有公开的免费的中文短文本摘要数据集,正好在之前的项目中有收集过这样的数据。现在把之前整理的数据公开,所有人都可以免费下载使用,希望能成为一个有用的中文短文本摘要数据集。

英文名称

Chinese Short Text Summarization Dataset

收集方式

数据来源于新浪微博主流媒体发布的微博。
例如:


webp

微博示例一


webp

微博示例二


webp

微博示例三


如上的三条微博所示中,红框中的文本作为短文本的摘要,其他的内容作为短文本的内容。

数据量

在这个版本中,一共 679898 条数据,分为两个文件:

文件名称说明
train_text.txt短文本的内容,约100-200字
train_label.txt短文本的摘要,约10-20字

下载方式

百度网盘:https://pan.baidu.com/s/1NWe6K33GMTp4Wk7CwaGotA
密码:4k12

Cite as:

{
Author: He Zhengfang
Dataset Name: Chinese Short Text Summarization Dataset
Publish Date: 20th June, 2018.
}



作者:Funzion
链接:https://www.jianshu.com/p/8f52352f0748


打开App,阅读手记
0人推荐
发表评论
随时随地看视频慕课网APP

热门评论

多谢!

查看全部评论