教程报告

教程报告1:基于离散编码的语音合成

报告人:俞凯,刘树杰,陈谐,杜晨鹏,郭奕玮

报告人简介:

        俞凯,上海交通大学计算机科学与工程系特聘教授,思必驰公司首席科学家。国家高层次人才计划获得者,NSFC优青,上海市“东方学者”特聘教授。清华大学自动化系本科、硕士,英国剑桥大学工程系语音识别博士。长期从事对话式人工智能的研究和产业化工作,发表论文200余篇。IEEE Speech and Language Processing Technical Committee 委员(2017-2019),现任中国计算机学会语音对话及听觉专委会主任,中文信息学会第九届理事会理事,上海市欧美同学会副会长兼AI分会会长。

        刘树杰,微软亚洲研究院首席研究员和研究经理,博士毕业于哈尔滨工业大学,从事自然语言处理、语音处理及机器学习相关工作。 在自然语言处理和语音处理各顶级期刊和会议上发表论文100余篇,并合著《机器翻译》一书,参与编写《人工智能导论》一书。 获得国际自然语言和语音处理评测比赛多项第一。 担任多个国际会议审稿人及领域主席。

        陈谐,上海交通大学计算机科学与工程系副教授,博士生导师,获国家海外高层次人才(青年)项目资助。博士毕业于剑桥大学信息工程系,先后在剑桥大学从事博士后研究,美国微软研究院任高级研究员,资深研究员,2021年9月加入上海交通大学。主要研究方向为深度学习,智能语音和声音信号处理,在本领域的国际权威会议和期刊发表论文80余篇。

        杜晨鹏,上海交通大学博士,主要研究方向为生成式模型及其在语音生成和数字人生成中的应用。过去的两年中,曾在微软和亚马逊参与相关技术领域的前沿研究。其主要参与研发的语音合成系统曾获得ICASSP 2023语音合成挑战赛(LIMMITS)自然度评测第一名。在相关领域国际期刊和会议发表论文20余篇。

        郭奕玮,上海交通大学计算机科学与工程系博士生,本科毕业于人工智能专业,导师为俞凯教授。他的研究方向为语音合成,包含可控性、表现力、生成模型等方面,在语音领域旗舰会议上已发表多篇论文。

报告摘要:

        语音信号的离散化特征提取及标记化近年来得到广泛关注,是以语言模型范式为核心的语音处理技术的关键支撑,也为高逼真度语音合成及新型生成式任务提供了机会。本报告将系统介绍语音的离散化特征提取及标记化方法,进而详细介绍各类基于离散编码的语音合成系统实现。在第三部分将分析离散语音编码与大语言模型技术的结合现状,并探讨现存的挑战和未来发展方向。


• 教程报告2:大规模语音生成模型

报告人:谭旭,琚泽谦,沈锴

报告人简介:

        谭旭,微软研究院首席研究经理,研究领域为生成式人工智能、大模型、音视频内容生成等。发表论文百余篇,引用万余次,出版学术专著《神经语音合成》。

        琚泽谦,微软亚洲研究院和中国科学技术大学联合培养项目的三年级博士生。在ICML, NeurIPS, ACL, EMNLP等顶级学术会议上发表多篇文章。他目前在微软亚洲研究院机器学习组实习,研究兴趣是大规模语音生成任务。主导参与NaturalSpeech系列工作。

        沈锴,浙江大学计算机学院五年级博士。他的研究兴趣主要集中于语音合成、语音识别纠错、图神经网络。他在微软亚洲研究院实习阶段主要参与NaturalSpeech系列的工作。在博士阶段,在人工智能顶级会议NeurIPS、ICLR、ICML、EMNLP等发表多篇文章。

报告摘要:

        随着大规模生成模型在自然语言处理等领域取得巨大成功,大规模语音生成模型也逐渐成为了当今研究热点。在本报告中,我们将梳理当前大规模语音生成模型的基础理论与主流方案,探讨不同语音表征方式与建模方式的特点,分享近期研究进展。此基础上我们将进一步探讨大规模语音生成的未来研究方向。


• 程报告3:结合抗卷绕相位预测的语音生成技术

报告人:艾杨

报告人简介:

        艾杨,中国科学技术大学语音及语言信息处理国家工程研究中心副研究员。 2016 年本科毕业于厦门大学, 2021 年博士毕业于中国科学技术大学,导师是凌震华教授。 主要研究方向包括语音合成、语音增强、语音编解码等,在语音技术领域顶级国际期刊和会议上发表论文 30 余篇。目前主持国家自然科学基金和安徽省自然科学基金等科研项目,参与战略性先导科技专项、国家重点研发计划等项目多项。 在竞赛方面,曾获得国际语音合成大赛 Blizzard Challenge 以及语音伪造检测(ADD)挑战赛冠军。2023 年获得了第十八届全国人机语音通讯学术会议最佳论文奖。

报告摘要:

        语音生成是语音信息处理与人工智能领域的重要研究方向,包括语音合成、语音增强、语音频带拓展和语音编解码等。近年来,语音生成技术仍存在质量和效率瓶颈,相位谱预测困难是产生瓶颈的重要原因之一。本报告首先回顾相位预测技术的发展历程,介绍我们提出的基于平行估计架构和抗卷绕损失的抗卷绕相位预测技术。接下来,本报告介绍我们提出的结合抗卷绕相位预测的语音生成技术,包括幅度相位谱平行直接预测的神经网络声码器、幅度相位谱平行增强的语音增强模型、幅度相位谱平行拓展的语音频带拓展模型以及幅度相位谱平行编码和解码的语音编解码模型,通过大量实验分析证实结合相位预测方法的有效性。最后,本报告对上述语音生成技术的应用进行展望。


• 教程报告4:无监督工业异常声音检测技术

报告人:关键

报告人简介:

        关键,哈尔滨工程大学计算机科学与技术学院副教授,天地一体化信息技术全国重点实验室客座教授。中国计算机学会语音对话与听觉专委会执行委员,黑龙江省人工智能学会听觉智能专委会委员。ICASSP 2023分会主席,ICASSP 2024分会/领域主席。于吉林大学计算机学院获理学学士及工学硕士学位,哈尔滨工业大学计算机应用技术专业获工学博士学位。2014年10月至2017年1月,于英国萨里大学视觉语音信号处理中心联合培养。主要兴趣为人工智能技术驱动的信号处理基础理论及应用研究,研究内容包括:声音识别与分类、工业异音检测、跨模态音频内容理解与检索、稀疏表示方法与应用等,在上述领域发表学术论文60余篇。

报告摘要:

        工业异音检测旨在通过设备声音自动判断设备运转状态,实现设备故障检测及预测性维护。由于工业场景异常难以获取且高度多样,现有工业异音检测主要采用基于正常声音数据的无监督策略实现,本报告将围绕无监督工业异音检测面临难点和挑战,介绍无监督异音检测主要解决策略(包括特征重构、标签分类、及域混合和域分类等域泛化技术),以及工业异音检测近期研究成果。



教程报告征集提案(已截止)

       热烈欢迎各位专家和学者提交涵盖会议议题领域的教程报告提案,特别是与会议主题紧密相关以及涉及新兴和前沿话题的提案。

       教程报告将持续2-3小时,中间包括10-20分钟休息时间,并将在会议技术议程之前进行。每项被接受的教程报告,讲授者都必须在会场亲自进行讲授。

提案指南

      教程报告提案应包含以下关键信息:

      1、教程报告标题;

      2、教程报告内容简介;

      3、讲授者姓名、联系方式、个人简介(包括照片)

      教程报告提案将根据上述信息进行评审,选定的教程信息将在会议网页上公布。

      教程报告提案提交请通过电子邮件发送至教程主席邮箱:  

韩纪庆:

 jqhan@hit.edu.cn

张卫强:

 wqzhang@tsinghua.edu.cn  

米吉提·阿不里米提:

 125195364@qq.com

重要时间

提交截止:2024420

录用通知:2024530