您当前所在的位置: 首页 -> 北语头条 -> 正文

北语团队在全国计算语言学评测中取得优异成绩

发布时间:2014-09-05  新闻来源:系统管理员 

  我校汉语国际教育技术研究中心的团队在今年的7月举行的自然语言处理与中文计算会议(NLP/CC-2014)开放任务评测,微博命名实体链接项目中取得了第二名的优异成绩。并向大会提交了论文“Chinese Microblog Entity Linking System Combining Wikipedia and Search Engine Retrieval Results”.

  自然语言处理与中文计算会议(NLP/CC-2014)由中国计算机学会(CCF)举办,是计算语言学、自然语言处理和中文计算领域的国内顶级会议之一。本次大会共设有中文微博情绪分析、基于深度学习的情感分类、中文命名实体链接、跨语言知识链接、大规模英语自动问答系统和和大规模中文新闻聚类六个开放任务。面向全球开放评测。NLPCC评测自2012年举办以来就以近贴工业实践而著名,是十分注重紧跟互联网发展脉络和大数据前沿动态的评测活动。

  中文命名实体链接旨在将微博文本中的命名实体(如人名、地名、品牌、机构名等)和知识库中的条目建立链接。这一任务在篇章语义理解、本体知识建设、信息抽取和事件跟踪等研究中有着重要作用。评测组织方提供一个关于命名实体的知识库和原始微博文本。该知识库含有命名实体的部分信息,参赛者需要从给定文本中将命名实体进行识别、消歧、别名转换等加工,并和知识库条目建立链接。

  我校汉语国际教育技术研究中心团队牺牲暑期休息时间,积极准备,刻苦研发,在不到一个月的时间内研发了“中文微博命名实体链接系统CMEL”。并在来自海内外的团队中一举夺得第二名的优异成绩。

  “中文微博命名实体链接系统”综合了基于统计的自动分类模型、信息检索和规则过滤等技术,并结合在线百科资源,实现了微博文本中的命名实体自动链接,精确率达到84.35%,接近于可工业化实用的水平。团队研发成员,硕士研究生孟泽豫表示:CMEL系统虽然还不完美,但是有计算成本小,模型成熟,架构简单等优势。对于能够取得第二名成绩,感到十分高兴。

  通过积极参加开放评测,我校学生科研,信息化建设和计算语言学的教训研究水平都得到了检验。以评测和实践需求为动力,汉语国际教育技术研究中心将进一步开展与其他教学科研单位的合作,共同推进我校语言科学信息化的发展进程。

  团队指导教师:荀恩东教师、于东博士

  团队成员:孟泽豫(硕士研究生)

分享到:

热点新闻

热点专题