语料分析

发布时间:2024年10月29日 11:01:43 阅读次数:10


此次标注的关联词分为显式关联词和隐式关联词两种。 显式关联词主要是指在实际语料中出现的,用于指示篇章关系的关联词。 隐式关联词主要是指在实际语料中没有出现的,由标注人员手工插入用于指示篇章关系的关联词。 针对标注出来的关联词,主要从以下几个方面进行统计分析: 关联词出现频率;关联词在句群,复句和分句中的分布规律; 关联词在实际语料中的使用频率; 并列关联词;关联词指示能力分析。

常见的显式关联词包括以下几个类别:

普通关联词
可以单独使用来标识篇章关系的关联词,例如:但是,由于,不过等。
例如:小强今天没来上课,因为他生病了。

带修饰关联词
很多普通关联词可以搭配副词使用,例如:部分原因,尤其是等。
例如:他最近成绩不好,部分原因是身体不好的原因。

平行关联词
这样的关联词通常由两部分组成,例如:一方面…另一方面…,一边…一边…等。
例如:一方面经济发展迅速,人民生活水平大大提高;另一方面环境问题却日渐严重。该统计结果主要是用来分析在标注结果中每个关联词出现的次数的分布规律。
根据关联词的显式和隐式,将统计结果分成了两部分,即显式关联词在标注结果中的出现频率以及隐式关联词在标注结果中的出现频率。

显式关联词出现频率
语料中标注出来的显式关联词共有1472种,它们总共出现的次数是11519次。 其中显式关联词出现频率前20的各个关联词出现次数以及它们在总次数中占据的比例如表1和表2所示。
表1:显式关联词中出现次数排名前1-10的各个关联词
关联词但是因为如果不过所以而且
次数630579467458344337318256254204
比例5.47%5.03%4.05%3.98%2.99%2.93%2.76%2.22%2.21%1.77%

表2:显式关联词中出现次数排名前11-20的各个关联词
关联词并且因此然而由于为了以及之后其中
次数203197192169162144134131129129
比例1.76%1.71%1.67%1.47%1.41%1.25%1.16%1.14%1.12%1.12%
关联词表分为两个部分;
unSingleWord.txt: 单个字作为关联词的词表。每行表示一个关联词,以及它作为显式关联词和隐式关联词的次数
unParallelWord.txt: 并列关联词词表。每行表示一个关联词,以及它作为显式关联词和隐式关联词的次数
中文关联词词表下载>>>

此次标注的篇章关系主要分为三个级别的篇章关系:句群关系、复句关系和分句关系。标注的篇章关系共6个大类:1时序关系、2因果关系、3条件关系、4比较关系、5扩展关系、6并列关系。 显式关系是指在语料中有显式关联词明确指示的篇章关系。在所有标注的显式关系结果中,6类篇章关系的分布情况如图3-2所示。
隐式关系是指没有明显的关联词指示的,但却由标注人员认为存在的,手动标注的篇章关系。在隐式关系中,6类篇章关系的分布情况如图3-3所示。