青年论坛-2025年第二十届全国人机语音通讯学术会议

青年论坛

主题一面向声音信号理解的多模态持续学习机理研究

报告人简介：

许可乐，2017年博士毕业于法国巴黎六大，国防科技大学计算机学院副研究员，Kaggle Grandmaster。长期从事面向声音信号理解的机器学习方法研究。主持科技部科技创新2030—“新一代人工智能”重大项目课题、科技委重大项目等项目十余项，获军队科技进步奖一等奖一项，担任某重大工程项目副总设计师。在相关智能领域的公认的会议和期刊发表论文100余篇（包括NeurIPS、CVPR、ICLR、ICML、AAAI、ACM MM、SIGIR、TASLP、TGRS、JASA等CCF A/B类论文60余篇），谷歌学术引用3000余次，担任IEEE TCSVT副主编、Science Partner Journal Cyborg and Bionic Systems客座主编。所提出算法在包括ACM KDD Cup, IEEE DCASE等国际人工智能和数据挖掘竞赛中获奖40余项。现任中国计算机学会语音对话与听觉专委会执行委员，欧盟/英国科研基金评议专家，担任多个国际顶级会议程序委员，ICASSP 等多个会议领域主席，获CCF BDCI优秀指导老师奖。

内容摘要：

本报告以多模态驱动的无声语音接口（Silent Speech Interface，SSI）技术为切入点，系统梳理基于超声影像等多模态数据融合的SSI技术研究进展。通过深度解析声学信号与生理特征的耦合机制，重点阐释跨模态关联建模方法，提出基于视觉-听觉耦合分析的人脸动态特征与声学信号隐式映射模型，突破传统单模态分析的感知局限。研究进一步将机器学习技术引入空气声学、水下声学领域，实现模型的增量，持续的迭代。本工作不仅为构建新型人机交互范式提供理论支撑，更通过多模态机器学习框架的优化设计，显著提升声学信息的解码精度，为智能可穿戴设备、无障碍通信、水声识别等场景开辟新的技术路径。

主题二研究情智一体的音视频内容生成研究进展

报告人：刘李

报告人简介：

刘李，目前是香港科技大学（广州）的助理教授、博导。她在法国格勒诺布尔阿尔卑斯大学和法国国家科学研究中心共属的GIPSA-lab获得博士学位。曾担任加拿大Ryerson University的博士后研究员。她的主要研究方向是视听语音识别与生成、多模态学习以及人工智能等。她目前在人工智能领域已以第一作者或通讯作者发表论文50多篇，其中包括此领域顶级杂志和会议TPAMI, TMM, TASLP, Neurips, ICCV, IJCAI, ACM MM, ICASSP等。她现担任国际IEEE机器学习信号处理委员会MLSP Member Nominations & Election分会主席。她曾担任2022年语音信号处理顶会ICASSP的Local Chair (China site)以及2024 ICASSP Area Chair。她获得了广州市青年拔尖人才以及深圳市海外高层次人才-孔雀人才称号。作为项目负责人，她主持国自然重点项目课题、国自然面上项目、国自然青年项目、广东省面上及青年基金项目、2024 CCF-腾讯犀牛鸟项目、2023腾讯AI Lab犀牛鸟专项计划以及2022阿里巴巴创新研究计划项目等。她曾在2017年荣获法国Sephora Berribi数学与计算机领域女性科学家奖。她团队文章获得2024年第16届国际社会机器人学会议ICSR最佳学生论文提名奖以及2022、2023深圳市科协人工智能优秀论文奖。

内容摘要：

随着人工智能生成内容（AIGC）技术的高速发展，音视频内容生成已从早期的单一模态功能实现迈向跨模态情感智能融合的新阶段。另外，音视频内容生成在影视工业、互动媒体、数字教育等领域对专业化、人性化音视频内容的需求激增。我将主要介绍近期在音视频内容生成的相关工作，主要包括跨模态的拟人化有声书生成、长视频配音以及舞蹈视频配乐的工作。此外，中文线索语系统通过唇型与手势编码辅助听障人士交流，我将针对中文线索语生成与识别领域，阐述跨模态互学习框架的创新应用：通过参数高效低秩Transformer架构实现多模态快速交互，显著提升识别效率；同时在线索语视频生成模块创新融合思维链提示学习与扩散模型，基于大语言模型解析文本与手势特征的复杂关联，有效提升线索语动作的准确度与系统鲁棒性。

主题三轻量级神经网络语音编码方法研究

报告人：艾杨

报告人简介：

艾杨，中国科学技术大学语音及语言信息处理国家工程研究中心副研究员。主要研究方向包括语音编码、语音增强、语音合成、音频质量评价等，在语音技术领域知名期刊和会议上发表论文50余篇。目前主持国家自然科学基金和安徽省自然科学基金等科研项目，参与战略性先导科技专项、国家重点研发计划等项目多项。在获奖方面，2024年入选“小米青年学者”，获得Interspeech 2024离散语音挑战赛（Discrete Speech Challenge）声码器赛道冠军（第一完成人）以及第十八届全国人机语音通讯学术会议最佳论文奖（通讯作者）等。

内容摘要：

近年来，基于神经网络的语音编码技术发展迅速，相较于传统编码算法，在相同比特率条件下能够实现更高质量的语音重构。然而，目前的神经网络语音编码方法普遍采用非因果结构并伴随较大的模型参数量，难以满足低延迟实时语音通信及存储等场景的实际应用需求，设计轻量化的神经网络语音编码方法仍是一项具有挑战性的课题。本报告将首先介绍团队提出的以语音修正离散余弦变换（MDCT）谱为建模对象的轻量级神经网络语音编解码器MDCTCodec。其次，本报告将介绍团队围绕低延迟实时语音通信场景提出的轻量级流式神经网络语音编解码器StreamCodec。最后，本报告还将介绍神经网络语音编解码器在下游任务中的应用。以语音增强为例，团队借助神经网络语音编解码器产生的声学离散表征，将语音增强任务由回归问题转化为分类问题，成功实现了面向多种失真类型的通用语音增强方案。

主题四面向开放域与可解释多模态情感理解

报告人：连政

报告人简介：

连政，现为中国科学院自动化研究所多模态人工智能系统全国重点实验室副研究员。近年来已在情感计算、人机交互、多模态大模型等领域开展了一系列研究工作。相关研究成果发表于TPAMI、TNNLS、TAC、TASLP、ICML、NeurIPS等会议和期刊；获得2021年中国电子学会技术发明一等奖；连续三年在ACM Multimedia、IJCAI上组织MER系列比赛与研讨会；现任中国中文信息学会情感计算专委会执行委员、中国计算机学会语音对话与听觉专委会执行委员、中国图象图形学学会情感计算与理解专委会委员、中国人工智能学会情感智能专委会委员；担任情感计算会刊IEEE Transactions on Affective Computing 副主编，ACM Multimedia Area Chair、Information Fusion Area Editor、以及ICML、ICLR、NeurIPS等会议以及TPAMI、IJCV等期刊审稿人。

内容摘要：

情感计算是结合心理学与计算科学的前沿交叉学科。本次报告将围绕多模态大模型在情感计算领域的应用展开。首先，将介绍文本大模型的关键技术；然后，将介绍多模态大模型的最新进展，以及如何借助多模态大模型解决情感理解任务（包括我们团队最近提出的EMER和OV-MER任务以及AffectGPT和Emotion-LLaMA框架）；最终，将围绕情感计算的未来研究趋势进行展望。

主题五基于听觉注意力解码的神经导向语音分离方法研究

报告人：范存航

报告人简介：

范存航，安徽大学计算机科学与技术学院副教授，博士生导师，入选安徽省优青人才项目，曾获安徽省计算机学会优秀青年科学家奖。主要从事语音信息处理、类脑听觉计算等方向的研究。主持国家自然科学基金、国家重点研发计划子课题等国家/省部级项目6项。近5年，以第一或通讯作者在TPAMI、TASLP、TAFFC、NeurIPS、ACM MM、IJCAI和AAAI等国际期刊和学术会议上发表论文30余篇。曾获安徽省科技进步三等奖、中国人工智能学会教学激励计划一类成果、安徽省教学成果二等奖等。多次获国内外学术会议的最佳论文奖，指导学生获得国际多模态情感计算挑战赛（MuSe-Mimic）第一名和挑战杯黑科技赛道特等奖（星系级）等。

内容摘要：

人脑的听觉系统具有强大的听觉感知能力，可以在复杂声学场景中只关注自己感兴趣的语音，同时忽略其他声音的干扰，这一现象被称为“鸡尾酒会问题”。现阶段智能语音交互技术很难达到类人水平，语音交互技术在复杂开放环境中表现不佳，制约着语音交互产品的推广应用。因此，让机器拥有类人的听觉处理功能，提升智能语音交互技术的鲁棒性具有重要的理论意义和应用价值。本报告主要围绕基于EEG信号的听觉注意力解码方法、神经导向语音分离方法等两个方面展开介绍。

主题六面向通用场景的语音增强研究：URGENT 系列挑战赛回顾

报告人：张王优

报告人简介：

张王优博士，上海交通大学人工智能学院助理教授。2014 年本科毕业于华中科技大学，同年 9 月保送到上海交通大学攻读博士学位，师从钱彦旻教授，于 2024 年获得博士学位。主要研究方向为语音信号处理、鲁棒语音识别及自监督语音预训练，相关成果发表在 ICASSP、Interspeech、TASLP 等重要学术会议和期刊上，并获得 2019 年 ASRU 最佳论文奖和 2024 年 EMNLP 最佳论文奖，获授权国内专利 6 项。2021 年获得微软学者奖学金。

内容摘要：

随着语音处理技术的迅猛发展，语音应用开始广泛集成到各种智能设备和服务中，对语音质量和语音交互体验的要求也不断提高。语音增强作为语音处理系统的重要组成部分，在提升复杂环境下的语音信号质量、强化语音交互性能等方面发挥着关键作用。基于深度学习的传统增强方法通常聚焦于小规模、特定场景的数据集，以及仅处理特定受限范围的干扰类型（如加性噪声、混响），难以适应多样化的实际应用需求。在这一背景下，URGENT 系列挑战赛应运而生，旨在推动面向更通用场景的语音增强研究。该系列挑战赛自 2024 年起举办，至今已成功举办了两届（URGENT 2024 和 URGENT 2025），涵盖了多种复杂环境下的语音增强任务，吸引了来自全球的研究者参与。本报告将回顾 URGENT 系列挑战赛的背景和目标，重点介绍挑战赛的设计思路、基础框架、数据构建、评估体系以及比赛结果，并分析在挑战赛中表现突出的模型和方法，希望通过对这些工作的总结和反思，总结当前语音增强技术在实际应用中的潜力和局限性，并展望未来的发展趋势。

主题七复杂声学场景下的多任务通用声源分离

报告人：李晨达

报告人简介：

李晨达，上海交通大学听觉认知与计算声学实验室助理研究员，于2024年9月，2020年6月在上海交通大学计算机系获得博士、硕士学位，2018年6月于华中科技大学获得学士学位；获得上海交大 Explore X基金资助,入选 2025 年“微软亚洲研究院铸星计划”学者；曾发表IEEE/ACM T-ASLP期刊一作论文2篇，语音领域顶级会议一作论文11篇，共计发表论文30余篇；李晨达是开源语音增强、分离工具ESPnet-SE的第一作者和长期维护者，该工具是目前学术研究中使用最广泛的语音增强、分离工具包之一，曾获得NCMMSC 2021最佳口头报告，ICASSP L3DAS语音增强比赛一等奖，获微软亚洲学者提名奖。目前的研究兴趣包括语音增强与分离、声音分离、多模态信息处理、语音语言大模型等方向。

内容摘要：

针对复杂声学场景处理中两大核心挑战：1)传统声源分离技术难以应对声源数量不确定性问题,；2)而目标声音提取方法过度依赖精确线索输入，本研究提出突破性的协同解决框架。该框架创新性地整合声源分离（SS）与目标声音提取（TSE）双任务：通过自动分析模块自动推断混合声源的数量并生成声学线索，显著提升未知声源场景的处理能力；同时构建多模态融合机制，精准解析用户提供的多样化线索（声音片段、语义描述或视觉信息），实现高精度目标提取。关键技术突破在于建立跨任务的统一表征空间，使系统能根据场景需求自适应切换工作模式：在无用户干预时自主执行声源分离，当提供线索时则转换为目标驱动提取。实验验证表明，该框架在两项任务中均取得显著突破，分离质量与提取精度均超越主流基线方法。

主题八跨语言国际音标识别研究

报告人简介：

王天恒，南开大学文学院博士生，师从冉启斌教授，南开大学“语言实验与计算”团队成员，汉语音韵学开源工具平台nk2028联合创始人，硕士毕业于纽约大学计算机科学专业。研究兴趣包括语音识别与合成、语言计算、实验语音学、音韵学，相关成果发表于Language and Linguistics、Humanities and Social Sciences Communications、PNAS Nexus等期刊，并获中国语言文学全球博士生论坛优秀论文奖；亦长期致力于语言学科普，获评知乎2024年度新知答主。

内容摘要：

近年来，多语言语音识别技术迅猛发展，但仍然依赖特定语言的正字法或转写，并非真正通用的跨语言语音识别。为此，南开大学“语言实验与计算”团队基于较大规模的多语言语音–音标平行数据集，探索跨语言国际音标识别模型的开发。本报告将介绍其阶段性进展：当前模型对汉语方言的音标识别表现较为出色，可实现约85%的语言学正确率（容许记音习惯差异后的字符正确率）；对汉语以外语言的表现则因语言而异。模型的音素混淆模式大致符合声学相似性，显示模型已学习到跨语言的音素特征。模型成熟后将有望应用于田野调查、语音学教学、语料批量转写和无文字濒危语言的保护。最后，报告还将介绍团队正在开展的跨语言国际音标语音合成研究。

青年论坛征集提案

热烈欢迎各位青年专家和学者提交涵盖会议议题领域的青年论坛提案!

提案指南

青年论坛报告提案应包含以下关键信息：

1、论坛报告题目;

2、论坛报告摘要;

3、讲授者姓名、联系方式、个人简介(包括照片)。

论坛报告提案将根据上述信息进行评审，选定的报告信息将在会议网页上公布。

论坛报告提案提交请通过电子邮件发送至青年论坛主席邮箱：

欧智坚：ozj@tsinghua.edu.cn
李倩：li_qian@cass.org.cn
毕凡：DrFanBi@ujs.edu.cn

重要时间

提交截止：2025年5月31日

最终名单通知：2025年6月3日

青年论坛

主题一面向声音信号理解的多模态持续学习机理研究

主题二研究情智一体的音视频内容生成研究进展

主题三轻量级神经网络语音编码方法研究

主题四面向开放域与可解释多模态情感理解

主题五基于听觉注意力解码的神经导向语音分离方法研究

主题六面向通用场景的语音增强研究：URGENT 系列挑战赛回顾

主题七复杂声学场景下的多任务通用声源分离

主题八跨语言国际音标识别研究

会议地址

会议电话

会议邮箱

青年论坛

主题一 面向声音信号理解的多模态持续学习机理研究

主题二 研究情智一体的音视频内容生成研究进展

主题三 轻量级神经网络语音编码方法研究

主题四 面向开放域与可解释多模态情感理解

主题五 基于听觉注意力解码的神经导向语音分离方法研究

主题六 面向通用场景的语音增强研究：URGENT 系列挑战赛回顾

主题七 复杂声学场景下的多任务通用声源分离

主题八 跨语言国际音标识别研究

会议地址

会议电话

会议邮箱

主题一面向声音信号理解的多模态持续学习机理研究

主题二研究情智一体的音视频内容生成研究进展

主题三轻量级神经网络语音编码方法研究

主题四面向开放域与可解释多模态情感理解

主题五基于听觉注意力解码的神经导向语音分离方法研究

主题六面向通用场景的语音增强研究：URGENT 系列挑战赛回顾

主题七复杂声学场景下的多任务通用声源分离

主题八跨语言国际音标识别研究