哈工大社会计算与信息检索研究中心
友爱  力行  乐学  日新

HIT-SCIR

哈工大讯飞联合实验室研制的文本顺滑技术成功接入“讯飞听见”系统

哈工大讯飞联合实验室研制的文本顺滑技术成功接入“讯飞听见”系统

2017年01月10日

科大讯飞2016年度发布会于2016年11月23日在北京国家会议中心成功召开,升级版的“讯飞听见”系统亮相此次发布会。讯飞在2015年的年度发布会就已推出实时语音转写的“讯飞听见”智能会议系统,实时将语音转写成文字,速度和准确率远超人工速记,其高达95%的转写准确率和极快的转写速度惊艳业内外。自推出之后,讯飞听见已为300余场大型峰会、发布会提供实时转写服务,大型会议配备“讯飞听见”实时转写上屏似乎已成为行业标配。本次升级版的“讯飞听见”除了增加全新的实时多语种翻译功能外,由我研究中心车万翔、刘挺、王少磊、赵怀鹏等老师和同学与科大讯飞研究院合作的文本顺滑功能也首次公开亮相。

图1

科大讯飞轮值总裁胡郁博士现场发布新一代“听见”系统

由于口语的不规范性,直接进行语音转写的可阅读性往往存在较大的问题,所以凸显了语音转写后处理的重要性,即对口语化的文本进行分句、加标点,并对文本内容的流利性进行处理,甚至进行内容的摘要,以利于更好的阅读与编辑。文本顺滑功能就是要对文本中的不流利性进行检测,具体来说,就是要删除转写结果中的停顿词、语气词、语义重复词等,从而使顺滑后的文本更易于阅读。例如,对于语音转写结果“我们在正心楼嗯不还是在主楼见面吧”,其中标红的“在正心楼嗯不还是”属于不流畅的词,除了包括语气词“嗯”之外,还包括语义上被修复的词语“在 正心楼 不 还是”等,它们在语音转写后处理阶段都需要被文本顺滑模型删除掉。这样在保留说话人真实意图的基础上,不但可以提高句子的可读性,而且为后面的诸如摘要、翻译等任务带来便利,以口语机器翻译为例,如果直接将“我们在正心楼,嗯,不,还是在主楼见面吧”这句话输入到Google机器翻译系统中,对应的翻译结果是“We are not in the heart floor, ah, or in the main building to meet it”,明显这句话的翻译错的很离谱,但是如果我们将顺滑后的“我们在主楼见面吧”这句话送到机器翻译系统中,将会得到“Let’s meet in the main building”这一正确的保留有说话人真实意图的翻译结果。

我们通过使用融合泛化特征的双向长短时记忆网络建模技术,使得文本顺滑的准确率达到了实用水平。具体见我们发表在Coling 2016以及CCL 2016上的论文[1,2]。本次发布会的实时字幕生成成功应用了我们的文本顺滑技术,现场演示证明文本顺滑技术取得了很好的效果,“讯飞听见”产品相关的信息详见http://www.iflyrec.com/help/product.jsp。

图2

现场直播时,“讯飞听见”进行实时语音转写,同时顺滑掉不顺畅的文字,并以字幕形式呈现

[1]. Shaolei Wang, Wanxiang Che and Ting Liu. A Neural Attention Model for Disfluency Detection. In Proceedings of the 26th International Conference on Computational Linguistics (Coling 2016). 2016.12. Osaka, Japan.

[2]. Shaolei Wang, Wanxiang Che, Yijia Liu and Ting Liu. Enhancing Neural Disfluency Detection with Hand-Crafted Features. In Proceedings of China National Conference on Chinese Computational Linguistics (CCL 2016). 2016.10. Yantai, China.


Copyright © Research Center for Social Computing and Information Retrieval 2001 - 2015
P.O.Box 321, HIT, P.R.China 150001
webmaster at ir dot hit dot edu dot cn