哈工大主页
首页
中心概况
成员介绍
科研队伍
决策智能(DI组)
近期新闻
成员介绍
发表论文
科研项目
联系我们
问答系统(QA组)
语言分析(LA组)
对话技术(DT组)
知识挖掘(KM组)
文本生成(TG组)
情感计算(SC组)
近期新闻
成员介绍
发布物
科研项目
加入我们
健康智能(HI组)
脑智计算(BC组)
科研项目
发表论文
技术资源
演示系统
中心新闻
你的位置:
首页
科研队伍
知识挖掘(KM组)
哈工大中文篇章关系语料
哈工大中文篇章关系语料
科研队伍
决策智能(DI组)
问答系统(QA组)
语言分析(LA组)
对话技术(DT组)
知识挖掘(KM组)
文本生成(TG组)
情感计算(SC组)
健康智能(HI组)
脑智计算(BC组)
语料标注
1. 语料介绍哈工大中文篇章关系语料 (HIT-CDTB)包括525篇标注文本,语料生文本来源于OntoNotes 4.0中的以下四类文本: 1. bn (broad news) 2. mz (magazine) 3. nw (new wire) 4. wb (web)针对每一篇文本,我们标注了以下三部分内容:分句篇章关系、复句篇章关系和句群篇章关系。p3: 分句篇章关系是指篇章关系涉及到的两个关系元素位于同一个句子内;p2: 复句篇章关系表示两个关系元素是两个独立的句子p1: 句群篇章关系是指篇章关系涉及的两个关系元素都是句子集合。显式篇章关系: 指由显式关联词标识的篇章关系。标注过程中,通常从识别篇章关联词入手,根据关联词判断是否存在篇章关系,但并不是所有的关联词都标识了篇章关系,因此需要标注人员进行识别。 在标注过程中需要首先识别显式关联词,再根据关联词寻找关系元素。隐式篇章关系: 隐式关系是指没有显式关联词的篇章关系。在很多情况下,汉语篇章关系并没有关联词,识别难度比显式关系更大。在标注过程中,首先需要标注人员识别隐式关系,并选择合适的连词插入关系,以此标识该篇章关系。2. 语
了解详情
语料分析
1. 关联词分析此次标注的关联词分为显式关联词和隐式关联词两种。 显式关联词主要是指在实际语料中出现的,用于指示篇章关系的关联词。 隐式关联词主要是指在实际语料中没有出现的,由标注人员手工插入用于指示篇章关系的关联词。 针对标注出来的关联词,主要从以下几个方面进行统计分析: 关联词出现频率;关联词在句群,复句和分句中的分布规律; 关联词在实际语料中的使用频率; 并列关联词;关联词指示能力分析。常见的显式关联词包括以下几个类别:普通关联词可以单独使用来标识篇章关系的关联词,例如:但是,由于,不过等。例如:小强今天没来上课,因为他生病了。带修饰关联词很多普通关联词可以搭配副词使用,例如:部分原因,尤其是等。例如:他最近成绩不好,部分原因是身体不好的原因。平行关联词这样的关联词通常由两部分组成,例如:一方面…另一方面…,一边…一边…等。例如:一方面经济发展迅速,人民生活水平大大提高;另一方面环境问题却日渐严重。1.1: 关联词出现频率该统计结果主要是用来分析在标注结果中每个关联词出现的次数的分布规律。根据关联词的显式和隐式,将统计结果分成了两部分,即显式关联词在标注结果中的出现频率以及隐式关
了解详情
语料下载
1. 课题介绍负责人:刘挺教授依托单位:哈尔滨工业大学项目类型:国家自然科学基金 重点项目项目名称:篇章级中文语义分析理论与方法2. 语料下载感谢您关注哈工大中文篇章关系语料(HIT-CDTB), 本语料由哈工大社会计算与信息检索研究中心开发。本次语料标注工作属于中心承担的自然科学基金重点项目“中文篇章及语义分析理论与方法”的部分工作内容;语料包含525篇Ontonotes中文语料的标注结果,覆盖了句群关系、复句关系、分句关系等多级信息。为促进国内相关研究发展,推动学术交流,我们决定将语料免费对学术界开放,欢迎大家下载使用。• 如果您希望了解我们的语料,这里是小集合语料样例(50篇)下载 语料样例下载(50篇).rar• 如果您希望获取全部语料,请下载签署哈工大社会计算与信息检索研究中心共享资源协议.doc,并联系秦兵教授(qinb@ir.hit.edu.cn)。特别说明:1) 请您所在课题组负责人签署协议,并将协议Word电子版直接发送给秦兵教授(qinb@ir.hit.edu.cn), 协商语料的具体交付方式。2) HIT-SCIR共享资源的完整数据和相关程序库的完整版本只免费提供
了解详情
每页
6
记录
总共
3
记录
第一页
<<上一页
下一页>>
尾页
页码
1
/
1
跳转到
最近更新
2025-03-21
哈工大SCIR《自然语言处理:基于大语言模型的方法》一书出版
2025-03-21
计算学部赵妍妍教授受邀为昌黎县全县教师解锁大模型时代下DeepSeek技术及其应用
2025-03-21
从自我进化视角出发,全面解析LLM的推理能力技术演进路径
2025-03-10
计算学部携手黑龙江省疾控局 用AI为公共卫生筑牢“智慧防线”
2025-03-10
论文浅尝 | 迈向更全面的多模态大模型:多模态大模型如何突破模态与任务限制?(哈工大SCIR)