主题一 音色属性强度检测竞赛(NCMMSC2025-VtaD)
内容简介:
NCMMSC2025-VtaD挑战赛以语音信号中携带的话者音色信息为对象,关注音色的可解释性,为此构建音色属性检测(Voice Timbre Attribute Detection,VtaD)任务。该任务旨在辨认两句语音中的话者在音色属性上是否存在特定的强弱差异,其中,音色属性指听者通过听觉感知系统,借助语言对话者音色感知进行的描述,如明亮、粗糙、圆润等。本挑战赛由中国科学技术大学和香港理工大学共同发起,以促进对语音中话者音色属性的研究,进而推动相关领域的发展。本挑战赛的详细信息请参看https://vtad2025-challenge.github.io/。
组织者:
陈丽萍/中国科学技术大学 Kong Aik Lee/香港理工大学 凌震华/中国科学技术大学

主题二 AI语音赋能生命健康:无障碍沟通与人机协同创新
内容简介:
议题以“AI语音赋能生命健康”为主题,期望达到以下目的:(1)推动生命健康领域的AI技术转化:聚焦人工智能在医疗咨询、健康监测、紧急响应等场景中的无障碍沟通技术创新,开发可解释、可信赖的交互系统,助力慢性病管理、老龄化护理及突发公共卫生事件应对;(2)突破关键场景技术瓶颈:针对医疗场景中的多模态感知(如手语、眼动、脑机接口)、低资源环境下的小样本学习、隐私敏感数据安全交互等挑战,探索大模型轻量化、联邦学习与边缘计算的前沿解决方案;(3)构建跨学科协作生态:搭建医学、计算机科学、认知科学的多领域对话平台,促进临床需求与AI技术的高效对接,推动从实验室到病房的快速转化;(4)伦理与普惠性保障:制定AI健康交互的伦理准则,确保技术覆盖城乡差异群体,避免算法偏见导致的健康不平等
该特殊议题的设立具有以下重要意义:(1)技术创新价值:发展基于联邦学习的分布式健康监测系统,实现隐私保护下的个性化健康预警(如癫痫发作预测、抑郁症情绪识别);(2)社会健康价值:提升弱势群体(听障、语障、认知障碍患者)的医疗可及性,据WHO统计,全球超15亿人因沟通障碍无法获得充分医疗服务。通过AI辅助诊断与远程康复指导,降低基层医疗资源压力,推动“健康中国2030”战略落地;(3)伦理与产业价值:建立医疗AI交互的透明性标准(如可解释性可视化、用户可控数据共享),响应《生成式人工智能服务管理暂行办法》要求。孵化医疗机器人、智能辅具等新兴产业,预计至2030年全球市场规模将超3000亿美元(Grand View Research数据)。
组织者:
刘李(香港科技大学(广州)) 吴锡欣(香港中文大学)
燕楠(中科院先进技术研究院) 王甦菁(中国科学院心理研究所)
报告介绍:
-
报告1:双重视角下的“AI+辅具”
-
报告人:王甦菁(中国科学院心理研究所)
摘要:随着人工智能技术的飞速发展,智能辅助器具已在肢体运动代偿、感官增强等物理功能智能辅具研发普遍存在"技术供给"与"真实需求"的错配现象,当前成果多聚焦肢体功能代偿,却普遍忽视功能残障群体的心理健康及精神残疾群体的社会融入需求。基于残障用户/研发者双重视角,报告人通过智能轮椅、构音障碍语音识别等研发实践揭示:辅具的技术突破固然重要,但如何精准对接残障群体的真实需求才是核心挑战。此外,本报告提出"AI+辅具"创新路径:利用大模型技术突破传统辅具边界,开发心理康复支持系统。其中,微表情分析技术可通过情绪识别优化心理干预策略,分析残障人士对于辅具应用的实际需求,为肢体/言语障碍者提供动态心理支持。
依托国家在残障保障领域的规划纲要,报告人从残障者技术认知转变与实际需求出发,将心理维度纳入辅具设计框架,融合情感计算与多模态交互技术,通过"身心一体化"助残范式,构建涵盖情绪调节、社交训练等功能的辅具智能化升级,不仅拓展科技助残的应用边界,也为包容性社会构建提供实践参照,实现技术创新与人文关怀的深度协同。
-
报告2:基于大语言模型的构音障碍语音重建
-
报告人:吴锡欣(香港中文大学)
摘要:构音障碍(Dysarthria)是一种由神经系统损伤或肌肉控制异常导致的言语障碍,主要表现为发音不清、语速异常、音量控制困难等,严重影响患者的沟通能力和生活质量。构音障碍语音重建旨在通过恢复不清楚的发音内容,纠正异常的韵律并保持原说话人的音色获得听感正常的语音。该技术可以有效改善构音障碍患者与他人的交流,促进患者康复训练,减轻患者家庭照顾与情绪负担。随着近期大语言模型的快速发展,构音障碍重建这一挑战性问题获得了新的解决思路,尤其在弥补构音障碍语音资源稀缺、引入多模态信息等方面取得了很好的进展。本报告将围绕构音障碍语音重建面临的难点和挑战,介绍在这一方向的系列前沿探索和最新研究结果,并探讨未来的研究方向。
-
报告3:基于语音分析的轻度认知障碍筛查系统的方法研究
-
报告人:燕楠(中科院先进技术研究院)
摘要:轻度认知障碍(MCI)是痴呆的早期阶段,识别MCI可有助于对认知损伤患者进行早期干预,延缓认知损害进程。然而,当前MCI诊断存在认识不足、筛查方法局限等问题,使之就诊率极低,迫切需要一种快速、无损、多环境适应的筛查方法。语言障碍是MCI的重要临床表征之一,且与其病程发展各阶段密切相关。因此,分析AD语音的变异信息将为AD早期筛查、诊断提供重要信息。然而,当前尚未找到高敏感性、高特异性地反映AD语言神经信息传导损伤的语音特征集。因此,本项目拟从行为和脑功能的角度出发,探索AD患者对言语加工过程的影响以及敏感性指标,提出基于多任务言语功能评估方法、MCI自发语音的韵律特征提取方法和基于多任务深度学习的建模方法等,构建了MCI认知障碍的语音评估模型,可以有效的、自动对MCI患者进行筛查,筛查准确率不低于90%,从而为开发可用于普通话的MCI认知障碍的早期自动筛查系统,使之能为认知障碍的早期筛查方法,提供快速、非侵入性的辅助诊断依据打下良好的研究基础。
主题三 语音,情感与精神健康
内容简介:
随着语音信号处理和情感计算技术的不断突破,语音已不仅仅是交流的媒介,更成为感知人类情绪与心理状态的重要窗口。语音中所蕴含的情感线索为精神健康状态的识别与干预提供了新思路,尤其在抑郁、焦虑、自闭症谱系障碍等精神心理问题的辅助诊断和智能干预中展现出巨大潜力。该议题聚焦情感语音合成技术与情感建模在精神健康场景中的前沿进展,旨在推动多模态信号分析、情绪识别、人机交互与临床应用之间的交叉融合。
本议题将邀请国内外该领域的专家学者,共同探讨语音信号在精神健康评估中的新范式,重点关注可解释性建模、小样本学习、多模态融合、跨文化情感表达、以及面向实际应用的系统集成等关键问题。我们期望通过本专题促进语音与心理健康研究的深度结合,推动情感智能技术在医疗、教育与社会关怀等场景中的落地转化,为建设具有温度的人机交互系统奠定基础。
组织者:
罗兆杰(东南大学) 宗源(东南大学)
报告介绍:
-
报告1:音频--数字健康的新启发
-
报告人:钱昆(北京理工大学)
摘要:作为一门融合声学、信号处理、机器学习等多学科理论与方法的交叉学科,计算机听觉(Computer Audition, CA)在数字医学、智慧医疗、生物信息等领域发挥着越来越重要的作用。音频信号因其天然的“非侵入、易采集、普适”等特点,结合人工智能和穿戴技术的发展,使得CA在面向生理和心理的疾病辅助诊断和早期干预方面已取得了一系列有前景的结果。本次报告将结合报告人在计算机听觉医学应用领域多年的工作汇报该领域的进展和展望未来的趋势。
-
报告2:基于多模态大模型的情感理解
-
报告人:连政(中国科学院自动化研究所)
摘要:情感计算是结合心理学与计算科学的前沿交叉学科。本次报告将围绕多模态大模型在情感计算领域的应用展开。首先,将介绍文本大模型的关键技术;然后,将介绍多模态大模型的最新进展,以及如何借助多模态大模型解决情感理解任务(包括我们团队最近提出的EMER和OV-MER任务以及AffectGPT和Emotion-LLaMA框架);最终,将围绕情感计算的未来研究趋势进行展望。
-
报告3:人机语音对话中的链式情感理解和表达
-
报告人:刘瑞(内蒙古大学计算机学院)
摘要:准确的情感理解和表达是实现共情人机语音对话的关键。目前工作主要关注如何利用对话上下文建模、多模态对话融合等技术实现从对话上下文中理解用户情感和生成符合上下文语境的情感回复,但是在情感理解和表达方面缺乏一定可解释性。随着大模型的发展,思维链对于提升模型生成结果的可解释性起到积极作用。受此启发,我们设计了链式情感理解和表达框架,在提升情感理解和表达能力的同时,增强人机语音对话场景下的情感理解和表达可解释性。本报告将汇报我们在链式情感理解和表达方面的最新进展,为可解释性人机语音共情交互提供全新的解决方案。
-
报告4:多模态协同增强的情感分析
-
报告人:李勇(东南大学)
摘要:当前多模态情感识别通过融合文本、语音、面部表情与生理信号等多源数据,大幅度提升了情感分析的准确性与鲁棒性。然而,受限于输入模态的复杂异构性以及情感表达的细微特性,当前方法在真实复杂场景下仍面临诸多挑战,识别精度远未达到与人脸识别等任务相当的水平。本报告将系统回顾多模态情感分析的关键问题与最新进展,并介绍研究团队在在多模态均衡特征表达、细微语义对齐、模态稳健补全等方面的研究进展,探讨大模型驱动下的情感计算新范式。
-
报告5:基于可穿戴生理信号的细粒度情感识别研究
-
报告人:张天翼(东南大学)
摘要:当前情感识别在复杂环境中仍面临标注稀缺、表达细微等挑战。相比传统依赖语音、文本与面部信息的方法,基于可穿戴设备采集的生理信号如皮肤电导与心率,具备难以伪装、易于采集和高度情感相关性的优势,成为更具潜力的情感感知途径。本研究聚焦于在低标注、弱监督条件下提升生理信号驱动的情感识别精度,通过设计交互友好的标签采集方式、引入心理理论建模情感状态,并结合小样本学习策略,实现对用户细粒度情感变化的精准捕捉。本报告将介绍团队在细粒度情感识别中的探索与成果,并探讨生理信号驱动下的情感计算新路径。
NCMMSC 2025 特殊议题征集
第二十届全国人机语音通讯学术会议(NCMMSC 2025)将于2025年10月16-19日在江苏镇江举行。为促进专业领域沟通交流,现面向全国研究机构和企业征集特殊议题。
1. 组织形式
本届会议支持多种形式的特殊议题申请,包括:
(1)就某一前沿方向的约稿和报告(有论文,正常投稿)
(2)就某一具体问题的专家分享和讨论(无论文)
(3)高校、企业组织的本单位研究成果集中分享(可无论文)
(4)竞赛活动
(5)组织者与特殊议题主席沟通确定的其它形式
2. 申请方式
请填写申请信息(
特殊议题申请表),通过邮件发送给特殊议题主席。申请书中包含以下内容:
(1)特殊议题组织者信息(含简介);
(2)特殊议题的名称;
(3)特殊议题设置的目的和意义;
(4)报告信息(演讲者、标题和摘要),可暂定,报告人数不做硬性限制。
3. 申请及接受通知时间
-
特殊议题征集: 2025年2月20日
-
特殊议题征集截止日期:
2025年5月20日2025年5月30日
-
特殊议题接受通知日期:2025年6月20日
4. 特殊议题主席联系方式
王 东(清华大学) wangdong99@mails.tsinghua.edu.cn
张晓雷 (西北工业大学) xiaolei.zhang@nwpu.edu.cn
范存航 (安徽大学) cunhang.fan@ahu.edu.cn