教程报告

教程报告1:基于离散编码的语音合成

报告人:俞凯,刘树杰,陈谐,杜晨鹏,郭奕玮

报告人简介:

        俞凯,上海交通大学计算机科学与工程系特聘教授,思必驰公司首席科学家。国家高层次人才计划获得者,NSFC优青,上海市“东方学者”特聘教授。清华大学自动化系本科、硕士,英国剑桥大学工程系语音识别博士。长期从事对话式人工智能的研究和产业化工作,发表论文200余篇。IEEE Speech and Language Processing Technical Committee 委员(2017-2019),现任中国计算机学会语音对话及听觉专委会主任,中文信息学会第九届理事会理事,上海市欧美同学会副会长兼AI分会会长。

        刘树杰,微软亚洲研究院首席研究员和研究经理,博士毕业于哈尔滨工业大学,从事自然语言处理、语音处理及机器学习相关工作。 在自然语言处理和语音处理各顶级期刊和会议上发表论文100余篇,并合著《机器翻译》一书,参与编写《人工智能导论》一书。 获得国际自然语言和语音处理评测比赛多项第一。 担任多个国际会议审稿人及领域主席。

        陈谐,上海交通大学计算机科学与工程系副教授,博士生导师,获国家海外高层次人才(青年)项目资助。博士毕业于剑桥大学信息工程系,先后在剑桥大学从事博士后研究,美国微软研究院任高级研究员,资深研究员,2021年9月加入上海交通大学。主要研究方向为深度学习,智能语音和声音信号处理,在本领域的国际权威会议和期刊发表论文80余篇。

        杜晨鹏,上海交通大学博士,主要研究方向为生成式模型及其在语音生成和数字人生成中的应用。过去的两年中,曾在微软和亚马逊参与相关技术领域的前沿研究。其主要参与研发的语音合成系统曾获得ICASSP 2023语音合成挑战赛(LIMMITS)自然度评测第一名。在相关领域国际期刊和会议发表论文20余篇。

        郭奕玮,上海交通大学计算机科学与工程系博士生,本科毕业于人工智能专业,导师为俞凯教授。他的研究方向为语音合成,包含可控性、表现力、生成模型等方面,在语音领域旗舰会议上已发表多篇论文。

报告摘要:

        语音信号的离散化特征提取及标记化近年来得到广泛关注,是以语言模型范式为核心的语音处理技术的关键支撑,也为高逼真度语音合成及新型生成式任务提供了机会。本报告将系统介绍语音的离散化特征提取及标记化方法,进而详细介绍各类基于离散编码的语音合成系统实现。在第三部分将分析离散语音编码与大语言模型技术的结合现状,并探讨现存的挑战和未来发展方向。


• 教程报告2:少样本低资源下语音识别及翻译技术研究

报告人:屈丹

报告人简介:

       屈丹,信息工程大学信息系统工程学院人工智能教研室教授、博导,国家科技部、国家自然科学基金委评审专家,河南省视听感知与语言认知工程技术研究中心副主任,河南省中原科技创新领军人才。长期从事人工智能理论与技术、自然语言处理、语音处理与识别等领域的研究工作,主持国家863课题、国家自然科学基金面上项目、国家社会科学基金面上项目、某部重大研究课题等项目20余项,获得省部级科技进步二等奖4项。发表论文120余篇,被三大检索收录60余篇,申请国家发明专利和软件著作权20项,公开出版《漫画人工智能》《实用深度学习基础》《VoIP语音处理与识别》等专著教材7部。

报告摘要:

       虽然语音识别和语音直译领域在大语种中表现非常出色,但是对世界上绝大多数语言而言,它们仍然面临现实环境复杂、标注数据稀缺等困境。本报告对少样本低资源下的语音识别技术与语音直译技术进行探讨,从数据增强、模型设计、算法优化等不同的角度进行研究,其中重点研究了大模型与元学习技术在处理低资源语音任务的关键技术。主要包括:(1)语音识别与直译前沿技术与发展历程;(2)基于元学习的低资源语音识别技术;(3)受限语料下端到端语音直译技术;(4)基于大模型的语音直译探索与研究。


• 程报告3:结合抗卷绕相位预测的语音生成技术

报告人:艾杨

报告人简介:

        艾杨,中国科学技术大学语音及语言信息处理国家工程研究中心副研究员。 2016 年本科毕业于厦门大学, 2021 年博士毕业于中国科学技术大学,导师是凌震华教授。 主要研究方向包括语音合成、语音增强、语音编解码等,在语音技术领域顶级国际期刊和会议上发表论文 30 余篇。目前主持国家自然科学基金和安徽省自然科学基金等科研项目,参与战略性先导科技专项、国家重点研发计划等项目多项。 在竞赛方面,曾获得国际语音合成大赛 Blizzard Challenge 以及语音伪造检测(ADD)挑战赛冠军。2023 年获得了第十八届全国人机语音通讯学术会议最佳论文奖。

报告摘要:

        语音生成是语音信息处理与人工智能领域的重要研究方向,包括语音合成、语音增强、语音频带拓展和语音编解码等。近年来,语音生成技术仍存在质量和效率瓶颈,相位谱预测困难是产生瓶颈的重要原因之一。本报告首先回顾相位预测技术的发展历程,介绍我们提出的基于平行估计架构和抗卷绕损失的抗卷绕相位预测技术。接下来,本报告介绍我们提出的结合抗卷绕相位预测的语音生成技术,包括幅度相位谱平行直接预测的神经网络声码器、幅度相位谱平行增强的语音增强模型、幅度相位谱平行拓展的语音频带拓展模型以及幅度相位谱平行编码和解码的语音编解码模型,通过大量实验分析证实结合相位预测方法的有效性。最后,本报告对上述语音生成技术的应用进行展望。


• 教程报告4:无监督工业异常声音检测技术

报告人简介:

        关键,哈尔滨工程大学计算机科学与技术学院副教授,天地一体化信息技术全国重点实验室客座教授。中国计算机学会语音对话与听觉专委会执行委员,黑龙江省人工智能学会听觉智能专委会委员。ICASSP 2023分会主席,ICASSP 2024分会/领域主席。于吉林大学计算机学院获理学学士及工学硕士学位,哈尔滨工业大学计算机应用技术专业获工学博士学位。2014年10月至2017年1月,于英国萨里大学视觉语音信号处理中心联合培养。主要兴趣为人工智能技术驱动的信号处理基础理论及应用研究,研究内容包括:声音识别与分类、工业异音检测、跨模态音频内容理解与检索、稀疏表示方法与应用等,在上述领域发表学术论文60余篇。

报告摘要:

        工业异音检测旨在通过设备声音自动判断设备运转状态,实现设备故障检测及预测性维护。由于工业场景异常难以获取且高度多样,现有工业异音检测主要采用基于正常声音数据的无监督策略实现,本报告将围绕无监督工业异音检测面临难点和挑战,介绍无监督异音检测主要解决策略(包括特征重构、标签分类、及域混合和域分类等域泛化技术),以及工业异音检测近期研究成果。




教程报告征集提案(已截止)

       热烈欢迎各位专家和学者提交涵盖会议议题领域的教程报告提案,特别是与会议主题紧密相关以及涉及新兴和前沿话题的提案。

       教程报告将持续2-3小时,中间包括10-20分钟休息时间,并将在会议技术议程之前进行。每项被接受的教程报告,讲授者都必须在会场亲自进行讲授。

提案指南

      教程报告提案应包含以下关键信息:

      1、教程报告标题;

      2、教程报告内容简介;

      3、讲授者姓名、联系方式、个人简介(包括照片)

      教程报告提案将根据上述信息进行评审,选定的教程信息将在会议网页上公布。

      教程报告提案提交请通过电子邮件发送至教程主席邮箱:  

韩纪庆:

 jqhan@hit.edu.cn

张卫强:

 wqzhang@tsinghua.edu.cn  

米吉提·阿不里米提:

 125195364@qq.com

重要时间

提交截止:2024420

录用通知:2024530