[普通]分词数据集

作者(passion) 更新(2022-08-04) 阅读(660次) 评论(0) 分类( 算法)

分词数据集

数据集简介：
SIGHAN 2005数据集国际中文自动分词评测（简称SIGHAN评测）整合多个机构的分词数据集构成。该数据集由中国微软研究所、北京大学、香港城市大学、台湾中央研究院联合发布，用以进行中文分词模型的训练与评测。其中 AS 和 CityU 为繁体中文数据集，PKU 和 MSR 为简体中文数据集。

数据集详情：

名称	规模	创建日期	单位	论文	下载	评测
MSR	2368391词，4050469字	2005年	微软亚洲研究院	链接	SIGHAN2005	icwb2 result summary
PKU	1109947词，1826448字	2005年	北京大学	链接	SIGHAN2005	icwb2 result summary
AS	5449698词，8368050字	2005年	台湾中央研究院	链接	SIGHAN2005	icwb2 result summary
CityU	1455629词，2403355字	2005年	香港城市大学	链接	SIGHAN2005	icwb2 result summary

Chen X , Xipeng Qiu∗, Zhu C , et al. Long Short-Term Memory Neural Networks for Chinese Word Segmentation[C]// Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. 2015.
Cai D , Zhao H . Neural Word Segmentation Learning for Chinese[J]. 2016.
Chen X , Shi Z , Qiu X , et al. Adversarial Multi-Criteria Learning for Chinese Word Segmentation[J]. 2017.
Jie Yang, Yue Zhang, Fei Dong. Neural Word Segmentation with Rich Pretraining[C]// The 55th Annual Meeting of the Association for Computational Linguistics (ACL). 2017.
Ma J , Ganchev K , Weiss D . State-of-the-art Chinese Word Segmentation with Bi-LSTMs[J]. 2018.
Huang W , Cheng X , Chen K , et al. Toward Fast and Accurate Neural Chinese Word Segmentation with Multi-Criteria Learning[J]. 2019.

数据集简介：
Weibo分词数据集NLPCC2016分词赛道使用的数据集，该数据集由复旦大学根据新浪微博的数据标注生成，包含更多口语化的文本。该数据集包含经济，运动，环境等多种主题的语料，并且除了训练数据以外，该数据集还提供了相关背景数据，以供结合无的监督方法进行训练和使用。验证集和测试集的OOV率分别为6.82%和6.98%。
数据集详情：
名称规模创建日期作者论文下载评测
weibo 30779个句子，652740词，1077854字 2016年 Xipeng Qiu 链接链接 N/A
基于该数据集发表的论文：
Luo, Ruixuan, et al. “PKUSEG: A Toolkit for Multi-Domain Chinese Word Segmentation.” arXiv preprint arXiv:1906.11455 (2019).