数据集简介:
SIGHAN 2005数据集国际中文自动分词评测(简称SIGHAN评测)整合多个机构的分词数据集构成。该数据集由中国微软研究所、北京大学、香港城市大学、台湾中央研究院联合发布,用以进行中文分词模型的训练与评测。其中 AS 和 CityU 为繁体中文数据集,PKU 和 MSR 为简体中文数据集。
数据集详情:
名称 | 规模 | 创建日期 | 单位 | 论文 | 下载 | 评测 |
---|---|---|---|---|---|---|
MSR | 2368391词,4050469字 | 2005年 | 微软亚洲研究院 | 链接 | SIGHAN2005 | icwb2 result summary |
PKU | 1109947词,1826448字 | 2005年 | 北京大学 | 链接 | SIGHAN2005 | icwb2 result summary |
AS | 5449698词,8368050字 | 2005年 | 台湾中央研究院 | 链接 | SIGHAN2005 | icwb2 result summary |
CityU | 1455629词,2403355字 | 2005年 | 香港城市大学 | 链接 | SIGHAN2005 | icwb2 result summary |
基于该数据集发表的论文:
Chen X , Xipeng Qiu∗, Zhu C , et al. Long Short-Term Memory Neural Networks for Chinese Word Segmentation[C]// Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. 2015.
Cai D , Zhao H . Neural Word Segmentation Learning for Chinese[J]. 2016.
Chen X , Shi Z , Qiu X , et al. Adversarial Multi-Criteria Learning for Chinese Word Segmentation[J]. 2017.
Jie Yang, Yue Zhang, Fei Dong. Neural Word Segmentation with Rich Pretraining[C]// The 55th Annual Meeting of the Association for Computational Linguistics (ACL). 2017.
Ma J , Ganchev K , Weiss D . State-of-the-art Chinese Word Segmentation with Bi-LSTMs[J]. 2018.
Huang W , Cheng X , Chen K , et al. Toward Fast and Accurate Neural Chinese Word Segmentation with Multi-Criteria Learning[J]. 2019.
数据集简介:
Weibo分词数据集NLPCC2016分词赛道使用的数据集,该数据集由复旦大学根据新浪微博的数据标注生成,包含更多口语化的文本。该数据集包含经济,运动,环境等多种主题的语料,并且除了训练数据以外,该数据集还提供了相关背景数据,以供结合无的监督方法进行训练和使用。验证集和测试集的OOV率分别为6.82%和6.98%。
数据集详情:
名称 | 规模 | 创建日期 | 作者 | 论文 | 下载 | 评测 |
---|---|---|---|---|---|---|
30779个句子,652740词,1077854字 | 2016年 | Xipeng Qiu | 链接 | 链接 | N/A |
基于该数据集发表的论文:
Luo, Ruixuan, et al. “PKUSEG: A Toolkit for Multi-Domain Chinese Word Segmentation.” arXiv preprint arXiv:1906.11455 (2019).
微信
支付宝