`
sunveronica
  • 浏览: 8434 次
  • 性别: Icon_minigender_2
  • 来自: 北京
最近访客 更多访客>>
社区版块
存档分类
最新评论

计算语言学和自然语言信息处理研究和应用综述(二)

阅读更多

四、语言资源的建设

 

在自然语言信息处理领域,语言资源指的是语料库和语言知识库。前者收录原始的语言材料,后者收录的是反映语言内部结构规律和言语过程认知规律的知识。1998年-2002年期间,国内有许多科研力量投入了这两类项目中。

41  语料库

经过科学选材、具有适当规模的语料库能够反映和记录语言的实际使用情况,为语言学研究和应用提供统计数据和各种语言材料。譬如词典编纂,以往收词、立项、释义依靠的主要是编者的语言学知识和语感,语料库的支持将使这种内省和定性分析的方式与实证和定量分析的方式结合起来,这不仅是词典编纂手段的进步,也能够促进词典学的发展。

对于计算语言学基于统计的研究方法来说,语料库的建设更是不可缺少的基础。目前我国已有多个百万字以上容量的汉语语料库和双语语料库(多为英语和汉语),用于语言信息处理的各种研究和应用目的:汉字识别、智能汉字输入、文本自动分类、汉语自动分词、汉语人名地名自动识别、汉语关联词语自动识别、词语多义辨识、句法语义分析、机器翻译,等等。其中比较有代表性的是《人民日报》标注语料库。这个语料库加工的项目有词语切分和词性标注,还有专有名词(人名、地名、团体机构名称等)标注、语素子类标注、动词、形容词的特殊用法标注和短语型标注,2003年容量为3500万字,是我国第一个大型现代汉语标注语料库[28][29]。在选材方面更有普遍意义和代表性的是平衡语料库。目前国内具有相当规模、并且经过规范化标注的平衡语料库还不多,现有的都还未超过百万字级。国家语委主持的《现代汉语通用语料库》有7千万字生语料,从2001年开始对其1千万字的核心语料进行标注加工。还有一些面向特定研究目标的专用语料库也在建设之中。

对于汉语语料库标注来说,最基本的内容是词语切分标记和词类标记。近年来随着计算语言学研究的深入,汉语语料库的标注出现了多样化的趋势。譬如,对句子中的每个词语,除了切分和词类标记以外,还标注它在句子中的句法结构和功能信息,这样就得到了句法树标注语料库(简称树库tree bank)。如果标注的是组成句子的各种短语信息,得到的就是短语标注语料库,也叫语块(chunk)标注语料库。这两种语料库可以为面向句法的统计语言模型提供训练和测试平台,前者用于语句的句法结构分析,后者用于句子的“浅层分析”或称“部分分析”。除此之外,还有的语料库标注词语的语义属性和句子成分之间的语义关系信息。这种语料库也可以作为统计语言模型的训练和测试资源,用于语句意义的分析和理解。关于句法和语义结构的标注往往需要语法理论和义类体系的支持,例如短语结构语法、依存关系语法、《知网》的语义分类系统[3],等等。

 

42  语言知识库

对语言信息处理来说,语言知识库是不同于语料库的另一种语言资源。语料库由自然出现的书面语或口语的样本汇集而成,通过记录语言使用原貌来呈现语言知识。语言知识库收集的则是经过概括和归纳,具有系统性的语言知识,并且用结构化的形式(譬如数据库)组织起来。如果说语料库作为建立统计语言模型和归纳语言规则的基础,对语言信息处理是一种间接资源的话,那么语言知识库就是使语言信息处理系统得以运行的直接资源。

语言知识库收录各种词法、句法、语义以及与言语过程有关的常识信息。国内目前研制的语言知识库有两种类型,一种用于特定的语言信息处理系统,其收录的内容和结构设计都取决于该系统的应用目标、语言模型和算法。另一种用于通用目的,描述常用词语的基本词汇属性和基本语法属性(例如《现代汉语语法信息词典》[18]),或者描述词语所代表的概念之间的关系、概念所具有的属性之间的关系,以及言语过程中的基本常识(例如《知网》[3][30])。各个具体的语言信息处理系统可以从中提取所需要的语言知识,也可以补充自己需要的特殊知识,还可以在它的基础上开发衍生的语言知识资源。

《现代汉语语法信息词典》[18]是为汉语信息处理而建立的基本语言知识库。自1995年底初具规模,经过不断扩充和修改,到2003年,整个词典的规模和质量有了新的改进。这部词典的理论基础是朱德熙先生提出的“词组本位”语法体系。根据语法-义项相结合的原则,它收录了73000多个词语,并根据语法功能分布的原则,建立了面向语言信息处理的现代汉语词语分类体系,完成了7万多个词语的归类工作。这部词典采用数据库技术,在词语分类的基础上逐个详细描写词语的语法属性信息,主要有:各个词类中的每个词语可以同什么样的词类(或具体的词语)组成合法的句法结构,以及该词语在各种句法结构中能担任什么样的句法成分。譬如描述动词的有46项属性,大致可以分为7类:

1.动词本身的特性:是不是系词、助动词、趋向动词等;

2.动词形态的变化:如VV、VV、V了V、ABAB、AABB等;

3.动词有无名词特性、能否直接修饰名词、能否直接受名词修饰、能否做动词“有”的宾语等;

4.动词与虚词的关系:前面能否受“不、没、很”修饰、后面能否带“了、着、过”;

5.动词在句中的功能:能否单独做主语、谓语、宾语、状语和补语;

6.动词与后继成分的关系:能否后接结果补语、趋向补语、时量成分、动量成分,能否带宾语;

7.其他属性:如主语是否必须为“复数”。

词典提供的这些信息可以用于汉语分析和生成、汉语文本输入、汉字识别的后校正、汉语语料库标注、汉语文本校对、信息检索、信息抽取等领域。已经有数十家科研单位和公司成为这部词典的用户。

描述语义知识的典型代表是《知网》[3][30]。这是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。它描述同类概念之间的关系,例如上下位关系、同义关系、反义关系、对义关系、部件与整体关系、材料和成品关系、属性和宿主关系,也描述非同类概念之间的关系,例如属性值和属性的指向关系,事件和角色的关系。它把语义研究置于知识描述的基础上,用网状结构描述语义,从单个概念的静态描述形成相互关联的、动态的知识网络。《知网》2002版收录汉语词语的数量达到了67440个,义项81683个;英文词语66671个,义项85090个。有不少语言信息处理的研究和应用项目把《知网》作为汉语分析、理解和生成的资源。《知网》自己也在利用已有的语言知识系统做进一步的研究和开发,先后推出了中文信息结构库、词语语义相似度的算法、词语相关概念场的构建等衍生资源和语言分析工具。

除此之外,近几年还有其他语言知识库正在研制当中。譬如[29]:现代汉语语义词典、现代汉语短语结构知识库、中文概念词典、汉语句法树库等。值得提到的是,台湾中央研究院在语言知识资源方面也做了相当扎实的工作,资讯研究所研制的“中文句结构树资料库”[31]收录了41100个树图,24万多个词,每句都有完整的结构分析和论元角色标记,并且提供Web检索服务。语言学研究所的“中英双语知识本体词网”[32],可以利用“词汇网络”(WordNet)的架构,提供多重词义和词义关系的检索,也具有Web服务功能。

 

43  基于语料库的语言分析方法

有了语料库,就有了统计语言模型和基于统计的语言分析技术发展的空间。1999-2003年期间,这方面的研究在整个学科领域里是一个热点。从语言信息处理的应用需要出发,在语料库的支持下研究汉语词汇、语法和语义问题的报告日渐增多。这些研究包括:根据逐词索引作汉语词义的调查;对词语搭配进行计量分析;利用量词-名词的搭配数据研究汉语名词分类问题;进行现代汉语句型的统计和研究;分析和统计汉语词语重叠结构的深层结构类型和产生方式;短语自动识别(例如基本名词短语、动宾结构)和自动句法分析的试验;在语句上下文中为词语排除歧义的算法设计;等等[6][8][28]

基于语料库的语言分析方法各有不同,有的检索或提取语料中的语言实例,有的对语料中呈现的某些语言属性进行计量或统计,然后根据实例或数据来分析和归纳谴词造句的规则,这些都是借助定量分析做定性的研究。另一种方法完全依靠统计学规律,先根据一定数量的、标注了统计量特征的语料(称为训练集)作统计和分析,建立统计语言模型和算法,然后用训练集的语料验证和调试这个语言模型和算法,这一步叫做封闭性测试。封闭性测试达到一定指标以后,再用训练集以外的语料进行开放性测试。这一类语言分析技术的评价指标是测试结果的准确率和召回率。准确率是结果中的正确样例数与结果中全部样例总数的比值,召回率是结果中的正确样例数与实际存在的正确样例数的比值。

今后几年语料库的标注和语言知识库的建设将更紧密地结合计算机理解和生成语言的研究。高质量的语料库和知识库能给语言信息处理提供必需的知识资源,反过来语言信息处理的研究也有助于提高语言知识资源的建设水平。

五 主要学术会议和期刊、论著

计算语言学联合学术会议是国内语言信息处理学界的主要学术会议,从1991年开始每两年一次,由中国中文信息学会、中国计算机学会、中国人工智能学会和北京市语言学会联合举办。会上报告国内计算语言学及语言信息处理研究和应用的进展,讨论学科研究的前沿问题和发展动向,会议的议题有基础性的研究,也有应用系统、技术和产品的开发。会前由程序委员会对提交的论文进行评审,按规定的比例录用其中的一部分,汇集成论文集正式出版。1998-2002年期间,会议分别在北京(1999年)和太原(2001年)召开。这两次会议的论文集分别为:《计算语言学文集》[6]和《自然语言理解与机器翻译》[8]

每年一次的汉语词汇语义学研讨会是计算语言学分支学科的学术会议,自2000年起到2002年,分别在香港城市大学、北京大学和台北中央研究院召开了三届。研讨会涉及的论题包括汉语词汇语义学的理论、计算及其应用。譬如:词汇资源(词典、义典、本体结构和术语库)的建造;汉语词汇语义的表示、计算和推理机制;汉语词汇语义与自然语言理解其它相关领域的接口;汉语词汇语义学在信息检索、语言分析等领域的应用;汉语语义网络 (Semantic Web)等。

1999年11月由中国中文信息学会主办的第五届环太平洋自然语言处理研讨会在乌鲁木齐召开。会上讨论的议题有:自然语言处理中的词法、句法问题、机器翻译、信息检索、词汇语义、语料库和语言处理应用系统。会议正式出版了论文集《Proceedings of 5th Natural Language Processing Pacific Rim Symposium 1999》。

2001年11月为纪念中文信息学会成立二十周年,在北京召开了学术研讨会,正式出版了论文集。论文的内容涉及计算语言学的应用研究与基础研究,包括机器翻译、汉语自动分词、汉语语音信息处理、汉语文本检索、汉字识别技术的发展、中文的电子出版及电子传播等。

2001年和2002年分别由日本通信综合研究所和北京大学计算语言学研究所主办,召开了两届中日自然语言处理专家研讨会。讨论的内容包括语言信息处理中的句法和语义问题、机器翻译、语音处理、少数民族语言处理、语言信息处理系统平台与工具等。

国内计算语言学和语言信息处理的主要学术期刊是中国中文信息学会主办的《中文信息学报》。教育部语言文字应用研究所主办的《语言文字应用》有专门设置的语言信息处理栏目。《情报学报》和《计算机学报》也经常刊登计算语言学和语言信息处理的论文。另外,新加坡中文与东方语言信息处理学会的《Journal of Chinese Language and Computing》(《汉语语言与计算学报》)也是计算语言学和中文信息处理的专业期刊。

六、参考文献

以下是1998年到2002年期间的主要参考文献:

[1] 曹右琦 主编 《中国中文信息学会二十周年学术会议论文集》,2001年,北京:清华大学出版社

[2] 陈小荷《现代汉语自动分析---- Visual C++ 实现》,2000年,北京:北京语言文化大学出版社

[3] 《当代语言学》,(中文信息处理专号),2001年,第1期,北京

[4] 冯志伟 《计算语言学基础》,2001年,北京:商务印书馆

[5] 黄昌宁 主编 1998中文信息处理国际会议论文集》,1998年,北京:清华大学出版社

[6] 黄昌宁等 主编 《计算语言学文集》,1999年,北京:清华大学出版社

[7] 黄昌宁  李涓子 《语料库语言学》,2002年,北京:商务印书馆

[8] 黄昌宁等 主编 《自然语言理解与机器翻译》,2001年,北京:清华大学出版社

[9] 黄河燕 主编 《机器翻译研究进展》,2002年,北京:北京电子工业出版社

[10] 黄曾阳 《HNC(概念层次网络)理论》,1998年,北京:清华大学出版社

[11]     潘海华 《形式语义学引论》,1998年,北京:中国社会科学出版社

[12] 靳光瑾 《现代汉语动词语义计算理论》,2001年,北京:北京大学出版社

[13] 刘开瑛 《中文文本自动分词和标注》,2000年,北京:商务印书馆

[14] 鲁  川 《汉语语法的意合网络》,2001年,北京:商务印书馆

[15] 马    陆俭明  “名词+动词”词语串浅析,《中国语文》,1996:2,北京

[16] 孙宏林等  浅层句法分析概述,《当代语言学》,2000:2,北京

[17] 翁富良  王野翊 《计算语言学导论》,1998年,北京:中国社会科学出版社

[18] 俞士汶等《现代汉语语法信息词典详解》(第二版),2003年,北京:清华大学出版社

[19] 詹卫东 《面向中文信息处理的现代汉语短语结构规则研究》,2000年,北京:清华大学出版社

[20] 张  全等 主编 《HNC与语言学研究》,2001年,武汉:武汉理工大学出版社

[21] 赵铁军等 编著 《机器翻译原理》,2000年,哈尔滨:哈尔滨工业大学出版社

[22] Proceedings of International Conference on Machine Translation & Computer Language Information Processing, June, 1999, Beijing, China

[23] Proceedings of 5th Natural Language Processing Pacific Rim Symposium 1999, November, 1999, Beijing, China

[24] Proceedings of 2000 International Conference on Multilingual Information Processing, August, 2000, Urumqi, China

[25] 第二届中日自然语言处理专家研讨会论文集,2002年,北京

[26]《情报学报》,第18-22卷,1999-2003年,第1-6期,北京

[27]《语言文字应用》,1999-2003年,第1-4期,北京

[28]《中文信息学报》,第13-17卷,第1-6期,1999-2003年,北京

[29]《Journal of Chinese Language and Computing》(《汉语语言与计算学报》),Vol.9-13,Num.1-2,1999-2003,Singapore

[30]《知网》,http://www.keenage.com

[31]《中文句结构树资料库》,台湾中央研究院, http://TreeBank.sinica.edu.tw

[32]《中英双语知识本体词网》,台湾中央研究院, http://BOW.sinica.edu.tw

分享到:
评论

相关推荐

    论文研究-中文网络文本的语义信息处理研究综述.pdf

    从学术价值和应用价值两方面分析了将计算机学科与语言学学科的研究方法相结合对于研究网络文本的意义,分别从分析网络文本的特性、网络词汇的演化规律以及构建网络文本语言知识库、开发平台和支持工具等方面对该领域...

    卷积神经网络研究综述

    基于这些优越的特性,它在各种信号和信息处理任务中的性能优于标准的全连接神经网络.该文首先概述了卷积神经网络的发展历史,然后分别描述了神经元模型、多层感知器的结构.接着,详细分析了卷积神经网络的结构,...

    信息检索研究室论文集第一卷

    全国第六届计算语言学联合学术会议, 2001, 7 Collocation Extraction Oriented to Dependency Parsing 2. 秦兵 郑实福 刘挺 张刚 李生 基于改进的贝叶斯模型的中文网页分类器 8 全国第六届计算语言学联合学术会议, ...

    关于基于.NET的毕业设计管理系统研究文献综述

    毕业设计是检查学生综合运用所学基本理论、基本技能、独立分析和解决实际问题能力的重要环节,是对毕业生在学校里所学内容的一个综合性的考察,也是培养应用型人才的重要手段。要达到毕业设计的目的,就必须保证毕业...

    人工智能的综述.doc

    人工智能虽然是计算机科学的一个分支,但它的研究却不仅涉及到计算机科学,而且 还涉及到脑科学、神经生理学、心理学、语言学、逻辑学、认知(思维)科学、行为科学 和数学以及信息论、控制论和系统论等许多学科领域...

    人工智能综述-(Artificial-Intelligence).docx

    人工智能虽然是计算机科学的一个分支,但它的研究却不仅涉及到计算机科学,而且还涉及到脑科学、神经生理学、心理学、语言学、逻辑学、认知(思维)科学、行为科学和数学以及信息论、控制论和系统论等许多学科领域。...

    卷积神经网络研究综述.pdf

    基于这些优 越的特性,它在各种信号和信息处理任务中的性能优于标准的全连接神经网络.该文首先概述了卷积神经网络的 发展历史,然后分别描述了神经元模型、多层感知器的结构.接着,详细分析了卷积神经网络的结构,...

    基于JAVA的学生通讯录管理系统设计和实现[文献综述].doc

    毕业论文文献综述 信息与计算科学 基于JAVA的学生通讯录管理系统设计和实现 一、前言部分 Java是由Sun公司于1995年5月推出的Java程序设计语言和Java平台的总称。它具有 简洁、安全、面向对象、动态、体系结构中立、...

    在线考试系统文献综述

    是未来开发动态网站的主流技术,与其它技术相比有一定的优势,如JSP页面可重用跨平台的组件(JavaBean或Enterprise JavaBean)来执行应用程序所要求更为复杂的处理,能将页面的逻辑和页面显示进行分离, 页面开发人员可以...

    人工智能综述.doc

    人工智能综述 摘要: 随着科学的进步,一个新的概念走进了人们的视野- —人工智能人工智能是一项高科技技术,也是计算机技术的一个重要..."维纳对于生物神经系统及其信息处理机制的观点,引起了人们对生物神 经系统进行

    计算机设计 - VB考试分析评价系统设计(LW+源代码+开题报告+外文翻译+文献综述+答辩PPT).,保证可靠运行,毕业生可参考

    VB考试分析评价系统设计是一个旨在利用Visual Basic(VB)编程语言开发的教育信息化项目,通过构建一个全面、高效的考试分析评价系统,帮助教育机构更好地分析学生的考试表现,为教学改进提供科学依据。 本项目包括...

    人工智能发展综述.docx

    2020年中,人工智能公司OpenAI发布了第三代语言预测模型GPT—3,这是科学家们迄今创建的最先进也是最大的语言模型,由大约1750亿个"参数"组成,这些"参数"是机器用来处理语言的变量和数据点。 众所周知,OpenAI正在...

    【GNN综述_2021_11】Graph Self-Supervised Learning: A Survey

    与计算机视觉和自然语言处理等其他领域中的 SSL 不同,图上的 SSL 具有独特的背景、设计思想和分类法。在图自监督学习的框架下,我们及时全面地回顾了使用SSL技术处理图数据的现有方法。我们构建了一个统一的框架,...

    VC与Labview、Matlab编程论文资料

    LabVIEW和MATLAB在现代光测图像处理中的应用.pdf LabVIEW在自定义应用层CAN总线通讯中的应用.pdf LabVIEW测控系统的网络访问技术研究.pdf LZW压缩算法VC实现、改进及其应用研究.pdf MATCOM与VC_混合编程中自定义...

    VC与Labview、Matlab编程论文资料[2].rar

    LabVIEW和MATLAB在现代光测图像处理中的应用.pdf LabVIEW在自定义应用层CAN总线通讯中的应用.pdf LabVIEW测控系统的网络访问技术研究.pdf LZW压缩算法VC实现、改进及其应用研究.pdf MATCOM与VC_混合编程中自定义...

    VC与Labview、Matlab编程论文资料[4].rar

    LabVIEW和MATLAB在现代光测图像处理中的应用.pdf LabVIEW在自定义应用层CAN总线通讯中的应用.pdf LabVIEW测控系统的网络访问技术研究.pdf LZW压缩算法VC实现、改进及其应用研究.pdf MATCOM与VC_混合编程中自定义...

    数字图像处理车牌定位开题报告

    4.本报告中,由学生本人撰写的对课题和研究工作的分析及描述,应不少于2000字,没有经过整理归纳,缺乏个人见解仅仅从网上下载材料拼凑而成的开题报告按不合格论。 5.开题报告检查原则上在第2~4周完成,各系完成...

    基于JAVA的模拟ATM系统的设计与实现【文献综述】.pdf

    Java 语言由理解和信奉网络计算梦想的一个小巧而专注的开发组设计的,虽然该语言 最初的实施方案有点缺陷,但为了这个梦想,设计者们很少在技术上妥协,结果诞生了一 种专为以相互通信为主要目的的设备而设计的语言...

    我的编程感悟(中文PDF)(共37M二分卷)分卷一

    5.1.5 Windows的窗口和消息处理与传递 114 5.1.6 Windows GDI 125 5.2 控制游戏的速度 130 5.3 浅谈MFC 132 5.4 小结 132 第6章 汇编优化 135 6.1 浅谈代码优化 138 6.2 并不仅仅是汇编 139 6.2.1 在算法实现时减少...

    开题报告-基于Java的坦克大战游戏的设计与实现.doc

    毕业设计开题报告 计算机科学与技术 基于Java的坦克大战游戏的设计与实现 一、综述本课题国内外研究动态,说明选题的依据和意义 本课题国内外动态: 最早的电脑游戏可以追溯到1972年,WillCrowther用当时最流行的DEC...

Global site tag (gtag.js) - Google Analytics