当前位置:首页 > Ectdzo在计算机的立场上讨论汉语理解问题
当于英文中的 going, 只不过由于汉语没有形态变化,所以表面上看不出来罢了。
反对者说,不对!其中的“去”仍然是动词,否则你怎么解释下面的句子?
难道其中的“不去”也是名词?“不”是只能用来修饰动词的,“不”字典后面从来不可以跟一个名词!于是按照这一派的意见所拟定的汉语语法中,名词,动词,形容词都可以用来充当主语。
迄今为止,以上两种意见好像谁也说服不了谁。我认为,实际上这种句子是一种非正规,“提示性”的简略表述形式,如果采取这种看法,问题就会迎刃而解。
设想有某个单位,大家讨论该不该派老张出差开会。用严谨的“描述句”来表述两派的争论意见,应该是:
等到老张出差开会回来, 如果双方又开始用同样的提示语句进行争论,那么实际的内容就变成:
换言之,在原来较为完备详尽的说法中,都是以名词性短语作为主语,简略形式中的“去”与“不去”不过是从这些名词性短语中抽取出来的关键性动词而已。
要是把上述例句的提示形式直译为:“Go is right.\ 恐怕不能被认为是正规的英语,而必需说成:\之类。总的说来,像英语,俄语,日语这样讲究语法形态的语言偏向于要求较完备的描述表述形式,而汉语则容忍更加简略的说法。汉语的这一特点使得它的表达形式远较其他语言紧凑,同样篇幅的文字所含有的信息量更高,而其缺点则如鲁迅先生所说:不够精密。由从事计算机自然语言理解工作者的观点看来,由于大量的提示语要依靠语言接收者自备的知识来补充所省略掉的部分,大大增加了计算机理解汉语的困难。
“这次老张 去 开会的作法” 是对的。 “这次老张 不去 开会的作法” 是对的。 “主张老张 去 开会的这一派意见” 是对的。 “主张老张 不去 开会的这一派意见” 是对的。 不去是对的。
岐义词问题
有关岐义词的讨论已经很多。“东西”是一个典型的例子。它可以有好几种含义:
〖“东西”可以有Dong1Xi1和Dong1Xi5两种不同的发音,而不同发音的汉字或者汉字组合不能算是一个词。然而在此只讨论计算机对书面语言的处理,所以不考虑这种区分。〗
东西(物件) ── 到百货公司买东西。
东西(方向) ── 东长安街是东西向的一条大街。 东西(爱称) ── 你这可爱的小东西。 东西(贬意) ── 这人真不是东西!
计算机在碰到这种词时很难依照上下文判断应该使用哪一种含义,除非在计算机中装入常人拥有的社会与自然科学知识。但是如果人们在写作时利用了可以帮助计算机理解汉语的辅助写作软件,则可以在切分词以后查字典,如果发现这个词有多种含义,就通过人机对话向写作者询问他使用的是哪一种含义。
值得注意的是,有些歧义词是以很隐晦的、与上下文有关的方式改变其含义。在中国学习中文的美国留学生说:中文真奇怪,以下两句话:
都是你们中国队嬴。可是:
却依然是美国队输了。
其实,第二句话(b)中的“大败”是及物动词“使...大败”。而第三句话(c)中的“大败”是不及物动词, 表示主语“大败”。换言之:
如果在句子中同时出现主语和宾语,“大败”或者“打败”在句子中就用作“及物动词”,这时,宾语所代表的一方失败,主语所代表的一方当然就是胜利者。
如果在句子中只出现主语而没有宾语,“大败”或者“打败”在句子中只能用作“不及物动词”,这时主语所代表的一方就是失败者。
还有奇怪的事:
中的“地上”和“地下”都是“on the surface of the floor.” 而
把废纸埋 在 地下。
中的“地下”才是“underneath the ground..” 〖“地下”有Di4Xia4和Di4Xia5两种读音,语言学家认为是两个不同的词:前者表示“地面之下”,后者表示“下方的地上”。但一般人即使在口语中也难以注意到这一细微的区分,作为供计算机阅读的书面语,区分就更难了。〗
汉语中没有词尾可以用来标识词性,同一个汉字往往既可以当名词,又可以当动词,甚至形容词。这种“词性歧义”也给汉语理解带来了困难。在古文中,这种例子较多:
(a)中国队 大胜 美国队。 (b)中国队 大败 美国队。
(c)美国队 大败 而归。
把废纸 扔 在 地上。 把废纸 扔 在 地下。
道可道,非常道。名可名,非常名。 君君臣臣父父子子。
老吾老,以及人之老,幼吾幼,以及人之幼。
现代生活口语里也不断发生这种现象。中央电视台“综艺大观”的节目主持人就说过:
老百姓日常生活里也有不少例子:
丈夫问:“宝宝大便了没有?” 妻子答:“已经大过了。”
这个节目很生活。
体词的串接
“体词串接”是汉语中十分普遍的现象。在这种句子或短语中,你只看到一连串反映客观世界中实体的名词、代名词,… ,却找不到反映它们之间关系的谓词、介词,… 。从熟悉ER(实体-关系)模型的软件人员的观点来看,这种做法相当于只列举了反映客观世界的ER模型中的若干Entities(实体),而完全省略了它们之间的Relationship(关系)。它们之间的关系到底是什么,留给读者根据这些体词的语义去猜测。与其他语言相比较,汉语的紧凑、灵活性,同时也就是它的不精密性在很大程度上与这一语言现象有关。
如果在语句中出现 相邻接的两个名词 N1 N2, 那么他们之间的关系可以有多种形式,具体如何选择,往往要看这 两个名词 N1, N2的含义来决定。例如: ?
如果N1,N2都是地名,则N1用来限定N2的范围,如: 中国 北京, 新街口 豁口 ? ? ?
《鲁迅回忆录》
这一个短语里并列了两个代表实体的实词:“鲁迅”和“回忆录”。这两个实体之间有什么样的关系呢?短语里面没有说。从计算机的机械脑袋猜想起来,可以有种种猜测:
关于 鲁迅 的 回忆录 鲁迅 撰写的 回忆录 鲁迅 收藏的 回忆录 鲁迅 销售的 回忆录
小李 黄头发。 ---- 主谓关系 圆领 衬衫。 ---- 前者形容后者 有时还需要根据语句之外的社会知识或者生活常识才能决定:
………………………
但是,大多数人知道,作为一个书名印在封皮上,只能有前两种解释(但是计算机看不见这一点)。有一定文化的人更进一步知道,应理解为 《 (关于)鲁迅(的) 回忆录》,而不是鲁迅自己所写的回忆录:因为他知道鲁迅并没有把自己的经历写过回忆录,而且他又知道有很多人写过与鲁迅交往的情况。或者他曾经翻阅过这本书的目录或内容。至于
《赫鲁晓夫回忆录》
则应理解为 《 赫鲁晓夫(自己写的) 回忆录》:因为他在报上看见过赫鲁晓夫写 回忆录的报导(计算机可没有天天阅报的经历)。
汉语语法的覆盖面
如果承认以上我把汉语表述方式分为“描述方式”和“提示方式”的说法是正确的,就可以得出推论:
〖至少在受限汉语、或者为人与计算机交流而设计的自然语言子集的范围内〗决不要企图设计或者
归纳出既能够描述描述句,又能够描述提示句的汉语语法。汉语语法只要能够覆盖描述句即可。否则,归纳出来的汉语语法一定是系统性很差,例外情况很多,起不到语法应有的规范作用。例如,如果把“去是对的。”“不去是对的。”看成是未被省略的正规语句,那么在制定出来的汉语语法里,除了体词之外,像动词、形容词这些用来规定体词的属性,或者它们之间关系的属于“谓词”范畴的词类也要被允许去充当主语。极而言之,如果在一个语法里,什么都是允许的,那么这种“法”就没有任何用处了。
听说有关部门曾经委托一些专家拟定一套可以正式颁布的汉语语法,但是至今没有成功,其原因是否就在这里?
计算机要怎样才算理解了一句汉语句子?
对于这个问题似乎已经有好多种说法,例如:
根据我们当前的任务,提出如下的具体要求: 1. 2.
计算机能够正确地分词。
对于分出来的每一个词,如果是通用的词,计算机都能在机器词典中找到该词的解释和属性。如果是多义词,则通过上下文或者与用户对话确定采用其中某一义项。如果是人名之类的专用词,则通过与用户对话了解其属性。 3.
区分出代表实体的体词,通过谓词、虚词弄清楚诸体词之间的关系。 如果计算机能够正确产生该语句的句法树。
如果计算机能够正确地将该语句翻译成另一种语言。 等等
就算理解了这句句子。
计算机和人在理解自然语言方面存在的差别
由于自然汉语大量使用简略的“提示方式”,要理解一般使用汉语写出的文章,读者至少需要 ? ? ?
要使计算机能够理解自然汉语,计算机至少需要具有小学毕业生拥有的社会生活常识和自然科学知识。
具有使用以上常识来把“提示句”转换为“描述句”的能力。
如果“提示方式”使用了对话者双方当时所处的环境,由于计算机现在还不具备类似人类的感官及相关的信息处理能力,这样的语句是计算机无法理解的。即便是在小说中,要计算机根据上文来想象当时的环境,也是极其困难的。
目前计算机的水平还达不到这一要求;起码从经济的角度,作不到这一点。因此,原则上不可能要求计算机处理“提示句”的语义。所以,为了使计算机能够理解自然汉语, 一个首先要解决的问题就是:如何把我们日常使用的“提示句”形式改造成为较为完备的“描述句”形式。在当前,这只能利用人们书写文章时的机会,借助软件通过人机对话把原先被省略掉的成份补充回去才行。
如果某人在撰写一篇准备让计算机理解的文章时,写出了本文前面所举的例子,计算机在完成“分词”的工作,并得到作者的认可之后, ? ? ?
如果发现其中有“东西”,“打败”,“大败”,“地下”,… ,之类的多义词,就要通过对话明确作者心目中的确切义项。
如果发现在主语、宾语这类要求“体词”的位置上出现了“谓词”,就要求作者改写。
如果发现“体词串接”现象,在语句中找不到说明它们之间关系的“谓词”,就要求作者填入能够具体说明它们之间关系的“谓词”。
例如:把“鲁讯回忆录”改为“关于鲁讯的回忆录”。 例如:把“去是对的。”改为“〖去〗的决定 是对的”。
结论:
? ? ? ?
“追求简略”与“追求详尽”的矛盾是推动语言发展的动力。汉语的传统是强调简略,因此语言的理解过程要更多地依赖语境和说写方与读听方的共同知识。
在汉语中,区分“描述句”与“提示句”并以不同的态度加以对待是必要的。 汉语语法只能,也只需要覆盖“描述句”的构造规则。
在当前只能要求计算机理解以“描述句”表达的汉语。为了把我们日常使“提示句”形式”改造成为较为完备的“描述句”形式。在当前,只能利用人们书写文章时的机会,借助软件通过人机对话把原先被省略掉的成份补充回去。 ?
当然,“省略”与“完备”都是相对的概念。简略与详尽的矛盾可以说是推动语言发展的动力。在甚么地方折衷,要看语言的接收方所处环境以及智力与知识水平。 ────────
共分享92篇相关文档