当前位置:首页 > 桂诗春,杨惠中-语料库
图3.5 CLEC词次和词型的实际观察值和预测值43210-1-2-346.61差态正60.8964.166.6170.2577.74SFI(标准频率指数)
以上CLEC的两幅图都是根据词频分布表做出的,只能给我们一个总体感觉。下面我们进一步解释怎样使用词频分布表来了解中国学习者使用英语词语,特别是常用词的情况。
Palmer,H.(见Bongers,1947)在没有使用计算机的情况下曾估计头1000个英语常用词覆盖了任何英语文本的85%,第二个1000覆盖了7%,第三个1000覆盖了3%。换句话说,头3000个英语常用词覆盖了95%。有了词频分布表,我们就可以进行精确的估算。例如以Brown语料库为例,头一个1000常用词型覆盖了68.98%,第二个覆盖了6.3%,第三个覆盖了5.4%,共80.68%。Palmer的估算实际上有些偏高。那么CLEC的常用词型的覆盖面又如何?这是我们需要作比较分析。
在比较之前,我们需要对怎样使用词频分布表做一点说明。例如我们想知道CLEC中头100个常用词型的覆盖面,只要到VI词频分布表的序号栏里找到100,然后交叉查阅积累词次栏的值(0.453)和积累词型栏的值(0.9935),再用1来减去这两个值(因为词频分布表的排列是从低到高递加的),头一个值为0.547,这是覆盖面的比率,即54.7%。第二个值为0.0065,即6.5%,这是词型的比率。这两个值的含义是占了总词型的6.5%的头100个常用词型覆盖了54.7%的总词次。 其实我们也可在根据词频分布表中序号100的各排数据来算出同样结果,例如积累词次为484534,而CLEC的总词次为1070602,因此这个位置词次为1070602-484534=586068,而比例则为586068/1070602=.547。同样的,积累词型为15214,而总词型为15313,因此比例为(15313-15214)/15313=.0065。
下面我们把Brown,Lob,Frown,Flob几个语料库和CLEC一起按头100,500,1000,3000,5000个常用词型列出它们的覆盖面。
17
表3.3 从这个表可见,几个英语语 Brown 词型比例 0.198 0.992 1.99 5.96 10.281 22543 料库的覆盖面基
本上是相同的,47.43 61.965 68.86 80.663 86.204 词次比例 Frown 词型比例 0.22 1.105 2.211 6.614 11.086 17474 即数目较少的词
型占了很大份量45.28 60.176 67.626 80.121 85.854 词次比例 Lob 0.251 1.259 2.516 7.583 12.96 14264 的词次。但是词型比例 CLEC有一个鲜词次比例 49.662 65.193 72.252 83.73 88.761 Flob 词型比例 0.222 1.113 2.22 6.74 11.402 17958 明的特点,即积
累词型频数的百词次比例 47.118 61.958 69.216 81.414 86.732 0.65 3.25 6.52 19.44 31.5 4930 分比比较大(原CLEC 词型比例 因是总词型数54.7 78 85.9 95.2 97.6 词次比例 少,只有15313),
而占的积累词次数也大:头100个词型占54.7%,头1000词型占85.9%,而头3000词型占95.2%。而其他ECNS的覆盖面只有80~83%。CLEC的头1000个常用词型的覆盖面(85.9%)已经相当于其他ECNS语料库的头5000个常用词型的覆盖面(85.8%~88.7),而这1000个词型只占总词型的6.52%;CLEC的头5000个常用词型(占总词型的31.5%)已经覆盖了其语料的97.6%。
CLEC和其他ECNS的常用词型覆盖面比较 一次词 100 500 1000 3000 5000 图3.6 Clec与其他语料库常用词覆盖面比较150词次百分比100500BrownFrownLobFlobClec10050010003000500047.445.349.747.154.76268.980.760.267.680.165.272.383.76269.281.478常用词85.995.286.285.988.886.797.6BrownFrownLobFlobClec
这里应该说明的是,Palmer当初所做的估计指的其实是词目,而不是词型,因为当时并没有用计算机建立起来的语料库。为了更准确地说明覆盖面的问题,我们把CLEC和Flob的词目表再制成词目分布表(它们均载入光盘内,编号为VII和VIII),然后再比较两者的词目覆盖面:
18
表3.4 Flob CLEC 根据词目分布所作的CLEC和Flob常用词型覆盖面比较 词目比例 词次比例 词目比例 词次比例 100 0.27 48.9 1 59 500 1000 1.37 66 5.04 82.8 2.74 74.2 10.1 90.7 3000 8.14 86.27 30 97.9 5000一 次词 13.24 15128 90.48 47 2851 99.1 由此可见,从词目分布来看覆盖面,范围更宽。这更进一步说明中国学习者的词汇量有限,他们掌握的词汇量比较少,而使用面却比较宽;所以说,很多常用词都超量使用。另一方面这也说明他们写作题目范围的狭窄。就语料库自身的采样范围而言,CLEC的常用词覆盖面明显地超出其他的几个语料库,如表3.3所显示。这几个语料库的总词次都在一百万个词左右,但是它们只出现一次的词汇量又明显比CLEC的大3倍多。按照Carroll的说法,这些罕见词在语料库的出现是带有偶然性的,但都属于理论模型的一部分,都有出现的可能。使用词汇量小,而罕见词也比较少,应该是LC的一种特征。
我们还可以把CLEC内部的5类学习者的常用词覆盖面来和ECNS加以比较。首先取得几个ECNS的各个档次的常用词的平均值,定为X(其实它们的差异不大,取哪一个也可以),作为比较的参照点,然后把5类学习者和这个参照点一起列表和作图,如下:
表3.5 CLEC五类学习者常用词型覆盖面比较 st2 st3 st4 st5 st6 X 100 0.571 0.619 0.634 0.534 0.54 0.474 500 0.818 0.863 0.857 0.766 0.76 0.623 1000 0.902 0.928 0.919 0.849 0.842 0.695 3000 0.978 0.984 0.978 0.948 0.94 0.815 5000 0.99 0.991 0.993 0.974 0.97 0.869 图3.7 CLEC五类学生常用词覆盖面比较1.21词次百分比0.80.60.40.20100500100030005000常用词st2st3st4st5st6x
19
从图中可见,它们都比X偏高,即覆盖面都较大;但较为接近X的是St5和St6的学习者,即水平较高的学习者。
分布表还有另一个用途,可帮助我们了解学习者需要掌握多少常用词才能覆盖所有的文本。例如我们想知道达到90%的覆盖面需要掌握多少常用词型,通过查阅各个ECNS,我们知道:Brown 为7920(90.51%),Frown为7809(90.463%),Lob为5881(90.02%),Flob为7012(90.029%),其平均为7200左右。而在我们的St6语料中总词型为9978,但一次词有3795(只是个别学习者偶然使用),减去它以后只有6183个词,这说明St6的学习者要达到90%的覆盖面还要多懂1000个词。当然,CLEC的语料都是学习者产生的(productive),不等于他们能辨认的语料也只有那么多。
(2) 型/次比
Herdan(1960b,25)曾经指出,在语体统计学里观察词汇及其发生频数的关系的特征时,首先要考虑的是型/次比、对数型/次比和K特征值。
型/次比(type/token ratio)指的是一个语篇里所用的词型和该语篇的总词次的比率,是观察语料库用词多少最常用的参数。一般来说,这个比率视语篇体积的大小而改变:语篇的长度增加,词汇也会随着增加;但是增加并非按比例进行。语篇的长度越大,型/次比反而会降低。 因为不少常用词(特别是一些功能词)的重复率增加了。例如Brown的词型为50406,词次为1014232,型/次比为0.0497;AHI的词型为86741,词次为5088721,型/次比为0.017。这是因为AHI的收词量为5百万,比Brown多5倍。但是对数型/次比(即log(词型)/log(词次))却相对稳定,不受语料库大小的影响。Brown的对数型/次比为0.783,而AHI的对数型/次比为0.736。在我们把CLEC和其他ECNS比较,把CLEC内部的各类学习者比较时,语料的体积不完全一样,所以采用了对数型/次比的计量办法。Scott 在他的Wordsmith专用程序里,还使用了一个标准型/次比的计量,其方法是在首1000个词次中计算出其型/次比,然后在次1000个词中再重新计算一遍,一直算下去。最后取所有型/次比的平均。
K特征值是Yule(1944)首先提出的。对K特征值有不同的解释,Brown用它来表示语词的重复率,即在一个样本里随机抽取两个词,这两个词是同一个词的概率。K值大表示两个词是同一个词的概率大,这意味着使用了较大比例的常用词;K值小表示这两个词是同一个词的概率小,这意味着使用了较多的低频词。
Brown还提供了词型的平均值(总词次/总词型)、标准差和差异指数(coefficient of variation,V),后两个数据都是表示离散程度,V是相对于平均值的离散值(=标准差/平均值)。
型/次比和平均值都是表示语料库中的词汇密度的(严格意义的词汇密度是把功能词排除以后再计算型/次比,见我们在语法标注表中的讨论)。一个语料库里的词型越多,型/次比就越高,而平均值也越小。表3.6给出CLEC和其他几个ECNS在这几个方面的数据:
20
共分享92篇相关文档