4月21日,应我校语言政策与标准研究所的邀请,上海师范大学潘悟云教授来到北京语言大学为我校师生做了题为《语言学中的大数据方法》的讲座。张维佳教授主持讲座。
潘悟云教授介绍了语言大数据的特点,语言本身就是结构和体系。大数据语言研究和传统方法的不同在于:海量的数据;不计较个别的错误;不一定都呈现出因果关系。针对如何利用大数据的方法,他展示了1283个点的声调数,从2个声调到16个声调的分布。并调出EXCEL,再筛选数据。通过这种研究,可以反馈过去发表成果中的数据的问题,也是大数据结果对传统数据的一种反馈。他通过对比晋语和东南方言具有一致之处,强调科学研究很重要的是要排除偶然性。所以很多音韵学上的分布都是和三国东吴的版图想吻合,从其中的关联研究因果并结合考察史料。潘教授还介绍了词汇方面的大数据研究。通过大数据方法解决了一些词汇学中未解决的问题。“字词历史频率分析”即使用传统方法是难以进行这样的研究。最后,潘教授指出,大数据库要对外免费开放,大家要参与进来,共同推进语言学的发展。潘教授介绍了田野调查中,声母较为好记,韵母略难,最难的是具有相对特点的声调,尤其是连读变调的听辨记录。目前已能达到80%的正确率,并在继续调试以达到90%。他展示了一段该软件的操作录像。机器可以辅助人工进行处理,机器先标、人工后改。
潘教授的演讲以大量的语言事实和数据作支撑,为当代语言学、语音学的研究开辟了一个新的广阔的天地,在场师生与潘教授进行了精彩的互动提问。张维佳教授对本场报告做了总结,指出现代计算机技术、大数据的背景下,如何建设大数据、利用大数据以及大数据对于语言类型研究具有重要作用。他从四个方面对潘教授对语言学界的贡献做出总结:一是思想家,潘教授对历史层次分析法、语言类型学所作出的思想贡献为后学者奠定了基础;二是实干家,潘教授所研发的语言地理信息系统及田野调查的系统,切实惠及了广大学者的研究;三是探索家,潘教授在语言工具方面的探索也是走在语言学界的前列;四是慈善家,潘教授的研究思想和研究成果都为语言学界无偿开放,为后学者开辟道路。最后张维佳教授呼吁更多的学者参与到语言学大数据研究中。
潘悟云教授是著名语言学家、汉语音韵学专家、上海师范大学教授、博士生导师、上海高校比较语言学E-研究院首席专家,复旦大学杰出访问学者,主持复旦大学中华文明数据中心。曾任上海市社联副主席,国际中国语言学会大陆地区理事。担任《中国语文》《民族语文》《语言研究》《语言科学》等杂志编委、《东方语言学》主编。先后应邀在美国加州大学伯克莱分校和圣地亚哥分校、威斯康辛大学、挪威奥斯陆大学、捷克查理大学、瑞典社会科学高级研究院及港台地区著名大学做学术交流与合作研究。研究领域有:汉语史及东亚语言的历史比较;东亚语言数据平台建设。研究成果曾分别四次获得上海市哲学社会科学研究成果一等奖。

潘悟云教授做演讲

学生提问

讲座现场