HNC(Hierarchical Network of Concepts)是由中科院声学所黄曾阳研究员创立的一种自然语言理解处理领域的重要理论,它以概念联想脉络为主导,建立了自然语言表述和处理的新模式。①本文就是采用我们团队的词群—词位变体理论和语义基元结构理论与HNC理论相结合的研究。
在词汇层面,HNC有概念基元理论及其联想脉络,概念基元“动态v”和“静态g”,解决了类似词类的问题,“属性u”、“值z”和“效应r”解决了概念特征、联系及其相互关系,但未解决每个概念的具体内容(语义内涵),并且概念还不等于词义。词义一般粗分为两类:基本词义和附加意义。而概念义大致相当于基本词义。语言信息处理必须要从概念义延伸至词语义,揭示和处理词义的所有内涵。关于词义内涵的揭示这个难点,HNC未解决,其他流派也未及解决。因此,为全面实现自然语言理解的目标,本文试将HNC的“基层”(概念基元空间)下沉,把概念联想脉络和词义基元结构表述结合起来,建立带词义结构的语义网络,以构建语言概念的区别、联系及语义内容的表述系统,完成计算语言学的工具网络与自然语言语义的对接和映射。这项工作不仅是自然语言处理理论自身发展和向应用延伸的需要,也是语言学和语言教学的客观需求。
一 HNC的两个重要假设及空间概念1. HNC的两个重要假设
黄曾阳先生在《语言概念空间的基本定理和数学物理表示式》(以下简称《定理和表示式》)中提出了两个重要假设:“全人类的语言概念空间具有同一性”(HNC第一假设)。② “语言概念空间是一个四层级的结构体”(HNC第二假设)。③第一假设是对人类概念空间内容及其原理共性的假定,第二假设是对截至2004年HNC研究信念、研究结果及研究内容的理论概括,也是第一假设内容的有限实现和拓展。两个假设及其基本内容,是我们把握HNC理论及其知识的一个“纲”。对理解这个纲来说,“空间”一词的所指及其特性的辨析和把握,十分重要。
2. “空间”一词的所指与HNC的基本内容
从所指看,第一假设中的空间(或“第一类空间”)是总体空间。按黄曾阳先生的表述的:
“自然语言理解是一个自然语言空间到语言概念空间的映射过程,两个空间各有自己的一套符号体系。语言交际过程,即交际引擎的运作过程实质上是这两种符号相互映射的过程。说者/写者将语言概念空间的符号映射成语言空间的符号,这是语言生成过程,听者/读者将语言空间的符号映射成语言概念空间的符号,这是语言理解过程。”“语言空间符号千差万别,据说当今世界上还存在6000种之多,但语言概念符号体系只有一个,全人类的语言概念空间具有同一性。这是一个假设,HNC理论的第一假设。”①
第一假设的意思是人类语言均存在两个性质不同的空间,两空间之间具有一种相互“映射”的关系。这和乔姆斯基普遍语法的性质一样,其目标不是指向某一语言,而是具有人类语言的普适性或世界意义的。
第二假设的“空间”,是指语言概念空间的下位子空间或区域空间。这些子空间共有四个层级。即:
第1层级:基层——概念基元空间(即HNC的基元符号体系);
第2层级:第一介层——句类空间(即句类符号体系);
第3层级:第二介层——语境单元空间(即语境单元符号体系);
第4层级:上层——语境空间(即语境符号体系)。②
在该假设中,4个子空间加上其相对应的世界知识形成其对应的世界:概念基元世界、句类世界、语境单元世界和语境世界。其“世界”对应着其相应对象的物理描述。
3.空间下沉与语言映射
HNC建构的“概念联想脉络”或“语义网络”,是客观空间在研究者头脑中的反映,即是一个主观反映空间。因此,从理论建构方面讲,主观反映空间及其内容都应得到语言客观的验证,需要从理论模式到语言具体事实的延伸。HNC理论是语言信息处理理论,和所有的同类理论一样,其最终目标不能止于理论,必须迈向语言处理实际应用的目标前沿,与具体的语言实体和内容接轨。
由于HNC第一假设的两个空间或第一类空间都是更为抽象的空间,从语言概念空间到语言空间的映射是一种宏观层面的映射,若打个比喻来讲,是发射外空导弹;从语言概念空间到语言各个子空间的映射,是发射大气层内的空空导弹;从概念外延和内涵到词语语义的映射,应是发射空地导弹。但不论是发射哪一种导弹,其性质都是各类各级空间的“下沉”,是从不可感知到相对可感知的运作。限于篇幅,本文阐述仅为部分概念基元空间的下沉及其途径,可能大半属于形而下问题的讨论。
4. “顶天立地”的应用研究
从理论到事实的研究,是语言的下向研究。邢福义先生称之“顶天立地”,反之是上向研究,邢先生称之“立地顶天”。HNC理论作为语言信息处理理论属于应用性理论,该理论的灵魂在于其哲学基础和用有限控制无限的基元思想,其生命力在于语言解释力、产品的可实现性及体现的应用价值。作为应用性理论,“灵魂”和“生命力”二者缺一不可。
对于HNC来讲,其理论和模式建构是“立地顶天”,在这个方向上,正如《语言概念空间的基本定理和数学物理表示式》所引康德的观点:“在建立自然语言模型这一重大探索中,必须谨记有所为和有所不为”,其特征是“舍弃枝节,抓住要害”,并且“没有舍弃就不会形成任何理论”。但是反过来,在“顶天立地”的方向上,不断地拥抱具体和差异,不仅是应用的精度要求,而且也是理论透彻性的又一种方式。因此,每一个空间的下沉,不论从理论还是实践的角度看,这种努力都是不可或缺的。
二 概念基元空间的下沉及其模式1.概念基元空间
概念基元空间,是语言概念空间的基层。其空间概念基元的组成,HNC表述为8-2-1。这里“8-2-1”的表述指的是8类抽象概念、2类具体概念、1类两可概念。其抽象概念是指不涉及具体人或物的概念,可简单表述为人物事件的属性和表现,特别典型的是HNC作用效应链中的六概念:作用、过程、转移、效应、关系、状态。①
概念空间与世界知识的结合即概念基元世界,黄曾阳先生指出:“概念基元世界大致对应于语言空间的词语”。②在HNC理论中,与词相关的知识主要体现为概念表达式。萧国政在将HNC理论概括为基元本位理论的同时,曾将其概念表达式表述为“类别基元(字母或字母串)+节点基元(数字或数字串)”的模式。③例如:
思考vg80 思维g80 想法r80 概念r800 观点z800
在该表达式中,“类别基元”有v(动态),g(静态),u(属性),z(值),r(效应)。v、g、u、z、r在HNC文献中称为基因五元组,其中v、g、u来源于语法学,z来源于明斯基(Minsky)的框架理论,r来源于HNC的“作用效应链”思想。④按照HNC的观点,“思考”、“思维”、“概念”、“想法”“观点”的概念表达式中的类别基元代表的意思是:这几个词分别是“同一内涵”的vg型概念、g型概念、r型概念和z型概念。所谓“同一内涵”是指这几个词都表思维,其中“vg型概念”是说这个概念既是v型概念又是g型概念(粗略地说,就是“思考”这个词既有动词用法的动态性,又有名词用法的静态性), “思维”、“概念”、“想法”、“观点”则都是非动态性的, 即标g、r、z的都是表达静态的名词。其不同的是,它们分别代表着因果两极:“思考”、“思维”是起点(“因”),“概念”和“想法”、“观点”是思考和思维的终点(“果”),在结果中,z又是r取值。
“节点基元”(数字或数字串)中“8”是说这些词都是概念网络中“8行”表心理活动的概念,“80”表示这几个词表述的概念在同一层次上,“800”则表明这几个词比其他几个词所表达的概念较之80行节点的概念低一个层次,在汉语里“想法”包括“概念”而不是相反。⑤
2.概念基元空间的下沉和语言投射
在HNC的理论构成中,实际上包含了两种类型的下沉:一是从“空间”到“世界”的下沉,即HNC的“空间”只是工具或载体的集合,“世界”才是注入了世界知识的范畴,在这个意义上,该类下沉是形而上领域里载体到内容的下沉;二是从HNC理论到自然语言空间的下沉,即第二类下沉。第二类下沉是形而下领域的下沉。用HNC符号标注词语(写上概念表达式)和句类,就是第二类下沉的工作。第二类下沉用HNC的术语,也可表述为从概念空间到语言空间的映射(即语言映射)。本文的下沉是第三类下沉,是从HNC的概念空间和语言认知空间,向自然语言的词义空间下沉或映射。
3.概念基元空间下沉的第三类模式
词语概念表达式体现的第二类下沉,虽然涉及到词语所代表概念的关系属性、使用属性(类别基元v、g、u、r、z表示)和概念类别及层次(阿拉伯数字及数字串表示),但还只是停留在逻辑概念的外延,没有进入逻辑概念的内涵——词义。再看几类带有概念表达式且分属不同概念类别的词语及其标注:
基本类具体概念 原子jw41 岩石jw53aa
挂靠类具体概念 服装pw65330 教室pw6554+va70
主体基元概念 增加v341 迅速u1009c22
复合基元概念 记忆rv6801 法律gra5
基本概念 饱和jv61c33 模范jg730
语言逻辑概念 把l02 除……以外l57
基本逻辑概念 可能jlvu12c31 必然jluv12c33
综合概念 机会sg314 材料s42
语法概念 什么f4209 谁f426
物性概念 白色jx111 荒凉xj2-0+jgu502
其中的“物性概念”是指表达事物性质或属性的概念,其“荒凉”的概念表达式和“教室”一样,是一种复用组合式。①
不论从哪个角度看,上述所有的概念表达式都只是揭示了概念的特性及其所在的网络节点,停留在概念的外延。概念基元空间下沉的第三类模式,就是从逻辑概念的外延,进入到逻辑概念的内涵,从语义网的概念节点延伸到表达概念之词的词义,即要从语言概念空间映射到自然语言空间。
三 第三类空间下沉的语言实现与工程实现1.第三类空间下沉的基本内容
概念基元空间第三类下沉的目的,是为了实现语言映射和语义的智能推理,因此,概念基元空间下沉目标实现的基本内容,应包括两个方面:1)语言实现;2)工程实现。
2.第三类空间下沉的语言实现
第三类空间下沉的语言实现,指的不是把词语转换成其义项词义的解释,而是替换成一个词具体义项的词义要素结构式——严格地讲是词的“语义基元结构”式(简称“词义基元结构”)。
比如据,《现代汉语词典》第5版的解释,“米饭”是:“用大米或小米做成的饭。特指用大米做成的饭。”②如果换成词义的“语义基元结构式”就是:
【米饭】 [[主食+加工+大米/小米]+一种]
其方括号内的语义需从里至外分层级理解,即:(米饭是)用大米或小米加工的主食的一种。又比如:
【骨折】 (词典释义:)由于外伤或骨组织的病变,骨头折断、变成碎块或发生裂纹。
(词义基元结构:)[变化病态+折/断/碎/裂+骨头]
其词义基元结构的所表达的语义内容从右往左解读为:“骨折”是骨头或折、或断、或碎、或裂的病态变化。
词义基元结构的构成可表述为“3义“结构,即:[类属义+核心义+区别义]。比较“米饭”和“面食”的词义结构,可十分清楚地看到词义结构式的语义构成要素及其类型:
【面食】 [[主食+加工+面粉]+总称]
【米饭】 [[主食+加工+大米/小米]+一种]
不难看出,“主食”是二者共有的类属义;“加工”是其共有的核心义;“面粉”和“大米/小米”以及“总称”和“一种”均是其区别义。
词义基元结构式中的义素是形成该词义的若干义素中的主干义素,因而这种词义分析方法,我们称之“主干义素分析法”。这种语义分析法是改进的义素分析,它一方面反映了一个词词义的基本心理构成,即是这类义素支撑起了一个词词义的心理大厦,另一方面解决了“义素分析的义素因其开放性而不具操作性”的问题。③
3.第三类空间下沉的工程实现
第三类空间的下沉,是自然语言处理工程的需要,这种下沉的工程比较艰巨。不过,当我们完成了词义要素结构式的研究以后,这种工程实现就变得相对简单了,即只要把HNC词语概念表达式挂在词义结构式前面,进行连写或连缀,就实现了语言概念空间与自然语言空间的对接,就给机器的语义识别铺平了道路。下面可用“思考”和“思维”为例,如:
A) 语义概念表达式:
(思考)vg80 (思维)g80
B) 词义基元结构式:
【思考】 [ 活动 +思维+深刻、周到]
【思维①】 [ 行为 +认知+分析、综合、判断、推理]
C) 语言概念空间与自然语言空间的对接,即:C = A+B。如:
思考:vg80 [活动+思维+深刻、周到]
思维①:g80 [行为+认知+分析、综合、判断、推理]
四 结语1.在HNC理论中,两个假设是其脊梁和骨架,对语言信息处理原理、方法、方式和内容构成的揭示是空前的透彻和全面。因此,围绕两个假设讨论语言信息处理方方面面的问题,也就非常方便。只要是语言信息处理的问题,即使不是HNC的问题,也可以相当方便地挂在HNC上来讨论。
2.语言信息处理的理论和语言研究,大多是要么构建局部理论,要么建构某种资源(如词网、语义网),HNC是双管齐下,一手抓着概念空间及其映射理论,一手抓着概念的Ontology(层次网)及其联想脉络,使概念及其网络成为人机交互语言描写和理解的工具。并且HNC的主体研究是“工具”和“模式”的理论研究,其应用理应是面向自然语言空间的映射研究。概念映射到语言以及怎么映射到语言,虽然是比较形而下的问题,但其任务并不比其形而上轻松和平庸。因此本文强调的不是概念空间的构成而是语言映射和怎么映射。
3. HNC的概念,主要不是但不应排除逻辑上和词有许多对应关系的概念。词汇概念是HNC第二假设空间的基本内容之一,舍此,我们的自然语言理解就只有抽象的模式和框架,永远不能进入语言的具体语义内容。
4.从自然语言理解的模式层面(概念空间)映射到自然语言理解的对象层面(语言空间和世界),利用HNC概念结构表达式非常方便,只要和“词群—词位变体”理论的主干义素结构拼接即可大功告成,但每个词不同义项的词义结构式的建构之难也不用掩饰。因此对于自然语言理解和语言教学都十分重要的词义结构的研究及其主干义素分析任重道远。①
