本系统基于北京语言大学汉语国际教育技术研发中心采集的1950-2007年新闻语料的全文内容开发。在语料平衡和分词处理的基础上上可根据用户查询,实时计算待查询词在1950-2007年间的使用频次,频率和历年词表排名等情况,并以直方图或点线图的形式进行可视化展示。同时本系统也可提供历年词表前N%范围内的词语总量与总词表前N%在每年出现的情况。
该系统的上线,是本中心资源开放过程中迈出的重要一步。为计算语言学、语用学、新闻学和计量史学提供了丰富资料的同时,实现了方便的查询的用户界面。本中心将继续在资源收集,加工发布上服务业界研究,为相关学科的发展再做贡献。
系统入口:http://nlp.blcu.edu.cn/others/historical%20computing
使用示例:
下图为革命一词在1950-2007年间的频次直方图。

下图为韩国-南朝鲜两词在1950-2007年间的频率变化折线图。
1950-2007年间各年累积频率(覆盖率)百分之50词的个数,以表征各年语言使用的丰富程度。