中文文本校对

无论是OCR识别图像的输出文本、语音信息通过ASR后的转换结果还是用户通过输入法键入的文字,其中不乏有各类文本错误(错别字、语法错误等),这些错误会影响文本的可读性,不利于人类和机器理解。同时,随着互联网的迅速发展,文本的数量日益增长,庞大的文本量下,仅靠人工审查校对已经不再现实,若不加以处理,会造成错误累计,严重影响用户体验以及下游任务的性能。文本校对任务作为自然语言处理中一项重要的任务,主要目标是检测并纠正文本中的各类错误,其在搜索、教育、新闻等领域都有很高的落地价值。

在英文上,文本校对任务已经得到广泛研究,相关校对工具(如:Grammarly)已经较为成熟;相较于英语等其他表音语言,汉字作为表意文字的词素音节文字,有一定的复杂性与自由性,使得中文文本校对的相关研究距离实际落地使用还有很大的距离,仍有着广阔的研究空间。

从错误类型的角度,中文文本校对主要可以分为中文拼写纠错与中文语法纠错:

  • 中文拼写纠错
    • 中文拼写错误旨在根据上下文识别并纠正拼写错误,这类错误通常发生在外观发音相似的字符之间。如:

原始文本的输入:1986年毕业于国防科技大学计算机应用专业,获学学位。

拼写纠错的结果:1986年毕业于国防科技大学计算机应用专业,获学学位。

  • 中文语法纠错
    • 中文语法纠错主要针对文本中存在的冗余、残缺、错词、乱序等语法问题进行识别并纠正,如:

原始文本的输入:为了你们照顾我,付出了很多

语法纠错的结果:你们为了照顾我,付出了很多

虽然任务形式相对简单,但目前文本校对任务仍具有很多挑战: (1) 数据集资源稀缺:真实场景下的文本错误较为稀疏,标注难度较大; (2) 汉字本身具有一定复杂性:中文表达博大精深,且存在大量的多音字多义字,相较于其他类型语言校对难度很大。 我们针对上述问题以及目前拼写纠错和语法纠错的重难点展开研究,并积极参与组织了多次校对相关评测。

  • 拼写纠错相关

目前主流拼写纠错的解决方案大多基于自编码预训练语言模型(如BERT等),其在针对每个Token预测相对独立,而在纠错任务中,存在错误的字符往往在纠正时需要考虑前后字符的依赖关系。基于此动机,本研究提出一种动态连接网络以构建模型输出部分相邻字符之间的相关性,在纠错模型的解码端针对候选词进行搜索,从而得到更充分考虑上下文的纠错结果,很大程度上提高了纠错语句的流畅性以及纠错性能。

  • 语法纠错相关

传统的语法纠错技术主要是通过规则对文本进行纠正,然而随着互联网的快速发展,人们在生活中产生的语法错误已经不能完全被规则所覆盖,因此传统的语法纠错已经不能适应现阶段人们对智能校对的需求。基于深度学习下的语言模型的方法可以让语法纠错技术具有更强的泛化能力,从而避免传统语法纠错无法覆盖所有的错误类型的问题。因此,本研究充分利用深度学习技术,从模型的角度提升语法纠错的性能。重点围绕将先验知识注入模型、增强模型对于文本的表示能力等方向分别进行了有针对性的研究,显著地提升了语法纠错任务的性能。

目前我们已在中文文本校对领域发表CCF A/B类论文5篇,相关技术授权多个企业应用。

评测成绩

201620182020 三年获得中文语法错误自动诊断(Chinese Grammatical Error Diagnosis, CGED)国际评测第1名

组织评测:

论文列表

Dynamic Connected Networks for Chinese Spelling Check

Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021, 2437--2446, 2021.

Wang, Baoxin and Che, Wanxiang and Wu, Dayong and Wang, Shijin and Hu, Guoping and Liu, Ting

Dynamic Connected Networks for Chinese Spelling Check

Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021, 2437--2446, 2021.

Wang, Baoxin and Che, Wanxiang and Wu, Dayong and Wang, Shijin and Hu, Guoping and Liu, Ting

Chinese Grammatical Error Diagnosis using Statistical and Prior Knowledge driven Features with Probabilistic Ensemble Enhancement

Proceedings of the 5th Workshop on Natural Language Processing Techniques for Educational Applications, 52--59, 2018.

Fu, Ruiji and Pei, Zhengqi and Gong, Jiefu and Song, Wei and Teng, Dechuan and Che, Wanxiang and Wang, Shijin and Hu, Guoping and Liu, Ting

Chinese Grammatical Error Diagnosis using Statistical and Prior Knowledge driven Features with Probabilistic Ensemble Enhancement

Proceedings of the 5th Workshop on Natural Language Processing Techniques for Educational Applications, 52--59, 2018.

Fu, Ruiji and Pei, Zhengqi and Gong, Jiefu and Song, Wei and Teng, Dechuan and Che, Wanxiang and Wang, Shijin and Hu, Guoping and Liu, Ting

Chinese Grammatical Error Diagnosis with Long Short-Term Memory Networks

Proceedings of the 3rd Workshop on Natural Language Processing Techniques for Educational Applications ({NLPTEA}2016), 49--56, 2016.

Zheng, Bo and Che, Wanxiang and Guo, Jiang and Liu, Ting

Chinese Grammatical Error Diagnosis with Long Short-Term Memory Networks

Proceedings of the 3rd Workshop on Natural Language Processing Techniques for Educational Applications ({NLPTEA}2016), 49--56, 2016.

Zheng, Bo and Che, Wanxiang and Guo, Jiang and Liu, Ting