您当前所在的位置: 首页 -> 学术沙龙 -> 正文

信息科学学院智能语音习得实验室研究所参加国际语音通信学会年会并做学术展示交流

发布日期:2023-09-13  作者:信息科学学院 项若曦 点击量:

国际性语音及语言科学技术领域盛会国际语音通信学会年会(INTERSPEECH2023)8月20日至24日在爱尔兰都柏林举行,信息科学学院智能语音习得实验室硕士生李瑞珊的一篇论文《Dual Audio Encoders Based Mandarin Prosodic Boundary Prediction by Using Multi-Granularity Prosodic Representations》(《基于多粒度韵律表征的双音频编码器汉语韵律边界预测》)被大会录用并在大会做了海报展示。

国际语音通信学会年会是国际著名学术协会ISCA(国际语音通信协会)的年度大会,内容是关于人类语言科技研究的诸方面,涵盖了从语音学、语言学基本理论研究到语音语言工学技术及应用的最新进展。本届会议以“Inclusive Spoken Language Science and Technology–Breaking Down Barriers”(包容性口语科学与技术——打破障碍)为主题,内容涵盖语音识别、语音合成、语音增强、自然语言处理等多个领域。

李瑞珊同学具体论文摘要如下:

韵律边界预测在语音合成、语音理解等方面起着重要作用。在以往的研究中,pitch(音高)、energy(能量)和duration(时长)等超音段特征被广泛地用来显式地建模汉语普通话的韵律边界。在本文中,我们提出使用从预训练模型中获得的复杂声学特征(包括mel-spectrogram(梅尔频谱)和上下文向量)中获得的细粒度信息来改进隐式韵律表征。音高和能量被编码为显式的韵律表征。由双音频编码器提取的这两种表征被主要由交叉注意层组成的解码器融合,然后利用融合表征解码并预测汉语普通话的韵律边界。结果表明,我们提出的方法在汉语普通韵律边界预测任务中优于基线,特别是对于预测次要韵律短语。

李瑞珊同学的论文海报展示

(责编:王隽毅)

分享到:

热点新闻

热点专题