近日,国家自然科学基金委公布了2011年度国家自然科学基金资助项目名单,今年我校共申报10项,获得4项,均为面上项目。分别为:宋柔教授《基于广义话题的汉语篇章结构研究》、荀恩东教授《汉字书写规范性表征与评判》、张劲松研究员《基于语流音变认知机理建模的语音识别研究》、王治敏副教授《隐喻识别与理解的理论与方法研究》。
近年来,我校非常重视国家自然科学基金项目的申报,曾多次组织召开国家级项目申报动员会,通过学校和我校科研工作者的共同努力,自2000年以来,我校共申请到国家自然科学基金项目16项,其中面上项目13项,联合资助基金项目1项,青年科学基金项目1项,主任专项基金项目1项。今年是我校获得国家自然科学基金项目最多的一年。
项目简介:
宋柔教授《基于广义话题的汉语篇章结构研究》:
汉语篇章的组织结构同英语有重大差异。过去计算机处理汉语篇章的研究和应用主要采用源自英语的结构方式和特征体系,在理论和应用实践上都遇到很大障碍。本项目课题组的前期工作研究了汉语标点句间的句法关系,发现了汉语篇章具有一种以广义话题引领的结构。本项目将在此基础上,建立汉语篇章的广义话题结构的形式模型,挖掘它的约束条件,进而建立计算模型,使得汉语篇章处理的理论框架与汉语现实吻合,并能实施计算,使汉语篇章处理的应用取得实质性突破。
荀恩东教授《汉字书写规范性表征与评判》:
书写正确和端正汉字是中小学生写字规范的基本要求,课题针对联机采集的汉字骨架结构,通过对小学生汉字写字语料库调查分析,研究如何表征汉字的拓扑结构,进而评判汉字书写是否正确;研究如何用可计算指标表征汉字书写的端正性,在此基础上,研究汉字书写规范性评定算法。
利用汉字结构层次性特点,汉字拓扑结构和书写端正性可以用笔画、部件和字三级表征,表征方法采用汉字形描述语言,在表征的基础上,研究以下两种形式的汉字书写规范性评判:
1)汉字书写过程动态反馈。发现书写过程中出现的笔势、笔顺、笔画规范性、笔画间搭接的规范性等涉及到书写正确性、端正性问题。
2)书写水平评定。根据书写测试集汉字,给出汉字的总体书写水平,同时根据端正性要素,进行分项评定,反馈书写汉字存在的问题
张劲松研究员《基于语流音变认知机理建模的语音识别研究》
语音是实现人类思想交流最便捷的工具。音位(或其它基本声学单元如音节等)是语音的基本单元,在人类的语言交流中起到“承上启下”的重要作用。“承上”指的是对词汇的标识作用,“启下”指的是对声学信号的分类作用。在孤立发音情况下,音位的声学特性比较稳定,但是在连续语流中,可能发生较大变化甚至发生音位变异(含丢失、插入、替代),称为语流音变现象。语流音变现象会造成当代语音识别技术性能的大幅下降,但是,从人类的语音识别角度来看,人的听觉机制对于语流音变有着很强的抗变能力。不仅一般程度的声学变化,就是一定程度的音位变异(比如方言或洋腔洋调的普通话),也不影响人的听觉理解过程。关于语流音变的人类听觉机制,认知心理学认为是由自上往下和自下往上的两个信息处理机制共同作用的结果。自上往下,指的是听者脑内存在的先验语言功能结构在语音信息加工过程中的各种指导性作用;自下往上,则指的是对语音信号进行加工、提取信息、进行识别的机制。和语言学领域的很多成果缺乏可计算模型的特点一样,这个听觉机制也停留于定性描述,使得它的作用发挥受到了很大限制。如果有一个较可靠的计算模型,能够计算出语言结构与语流音变的某种对应关系,则对于语音识别、合成、语言历史演变等等领域会有很大的应用价值。本项目申请的出发点就是针对这个问题,研究一个连接语言结构与语流音变的计算模型,并且应用于提高语音识别技术的性能。本项目研究对于语流音变的认知机理研究、语音学、语言学、计算机语音识别、第二语言发音习得等学科有着重要的学术促进和实践意义。
王治敏副教授《隐喻识别与理解的理论与方法研究》
隐喻的识别与理解是计算语言学更上一层楼的新的开拓性研究课题,隐喻大量地存在于我们的日常生活中,一项针对电视和新闻评论节目的调查表明做这些节目的人平均25个词就要使用一个独特的隐喻 。另一项针对中文经济报道标题的调查也显示,在6万多标题中概念隐喻的数量已经占到总数的四分之一以上。这不仅对自然语言处理提出了严峻挑战,而且也将直接关系到机器翻译、信息检索、问答系统等诸多语言处理应用系统的质量和成败。如果隐喻的识别和理解不能很好解决,将成为自然语言处理技术发展的瓶颈。
本项目以高质量机器翻译和自然语言理解为目标,探索汉语隐喻识别与理解的理论、方法及实现技术。主要内容有:⑴在对汉语隐喻类型全面考察和计量分析的基础上,总结和发现隐喻的映射规律,建立以源域为核心的隐喻知识架构体系。⑵利用已有的《现代汉语语法信息词典》和《中文概念词典》等基础资源,采用主动学习方法从大规模语料中获取隐喻资源,建造面向机器理解和对外汉语教学的汉语隐喻知识库和标注语料库。⑶优化基于机器学习方法的隐喻识别模型,提高识别效率。(4)开展相似度推理的隐喻理解研究,实现大规模文本的源域、目标域、喻底的自动获取。本项研究将有助于解决隐喻对中文信息处理诸多环节的困扰,为相关应用提供支持。