[普通]分词数据集

作者(passion) 阅读(707次) 评论(0) 分类( 算法)


分词数据集

1. SIGHAN 2005数据集

  • 数据集简介:

    SIGHAN 2005数据集国际中文自动分词评测(简称SIGHAN评测)整合多个机构的分词数据集构成。该数据集由中国微软研究所、北京大学、香港城市大学、台湾中央研究院联合发布,用以进行中文分词模型的训练与评测。其中 AS 和 CityU 为繁体中文数据集,PKU 和 MSR 为简体中文数据集。

  • 数据集详情:

    名称规模创建日期单位论文下载评测
    MSR2368391词,4050469字2005年微软亚洲研究院链接SIGHAN2005icwb2 result summary
    PKU1109947词,1826448字2005年北京大学链接SIGHAN2005icwb2 result summary
    AS5449698词,8368050字2005年台湾中央研究院链接SIGHAN2005icwb2 result summary
    CityU1455629词,2403355字2005年香港城市大学链接SIGHAN2005icwb2 result summary
  • 基于该数据集发表的论文

    • Chen X , Xipeng Qiu∗, Zhu C , et al. Long Short-Term Memory Neural Networks for Chinese Word Segmentation[C]// Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. 2015.
      Cai D , Zhao H . Neural Word Segmentation Learning for Chinese[J]. 2016.

    • Chen X , Shi Z , Qiu X , et al. Adversarial Multi-Criteria Learning for Chinese Word Segmentation[J]. 2017.

    • Jie Yang, Yue Zhang, Fei Dong. Neural Word Segmentation with Rich Pretraining[C]// The 55th Annual Meeting of the Association for Computational Linguistics (ACL). 2017.

    • Ma J , Ganchev K , Weiss D . State-of-the-art Chinese Word Segmentation with Bi-LSTMs[J]. 2018.

    • Huang W , Cheng X , Chen K , et al. Toward Fast and Accurate Neural Chinese Word Segmentation with Multi-Criteria Learning[J]. 2019.

2. 微博分词数据集

  • 数据集简介:

    Weibo分词数据集NLPCC2016分词赛道使用的数据集,该数据集由复旦大学根据新浪微博的数据标注生成,包含更多口语化的文本。该数据集包含经济,运动,环境等多种主题的语料,并且除了训练数据以外,该数据集还提供了相关背景数据,以供结合无的监督方法进行训练和使用。验证集和测试集的OOV率分别为6.82%和6.98%。

  • 数据集详情:

    名称规模创建日期作者论文下载评测
    weibo30779个句子,652740词,1077854字2016年Xipeng Qiu链接链接N/A
  • 基于该数据集发表的论文

    Luo, Ruixuan, et al. “PKUSEG: A Toolkit for Multi-Domain Chinese Word Segmentation.” arXiv preprint arXiv:1906.11455 (2019).

« 上一篇:tensorflow 下载地址分享
« 下一篇:Linux使用privoxy将socks5代理转为http代理
在这里写下您精彩的评论
  • 微信

  • QQ

  • 支付宝

返回首页
返回首页 img
返回顶部~
返回顶部 img