Daniel Povey
报告人简介:
Daniel Povey 博士毕业于英国剑桥大学,先后就职于 IBM 和微软。2012年加入美国约翰霍普金斯大学,任语言和语音处理中心副教授。2019年10月加入小米,担任集团语音首席科学家。 2022年12月, Daniel Povey 凭借在语音识别和声学建模方面的杰出贡献入选 IEEE Fellow。
Daniel Povey 博士是著名开源语音识别工具 Kaldi 的提出者和主要维护者,被业界称为“Kaldi 之父”。Kaldi 项目在学术界和工业界都极具影响力,广泛应用于各研究机构和国内外知名公司,有力地推动了智能语音处理的产业化。Daniel Povey 在智能语音处理的技术上做出了非常多的贡献。他首次将序列区分性训练方法应用于语音识别,他提出的 LF-MMI 建模方法至今仍为商用语音识别系统普遍使用的标准技术。他也是将深度学习用于语音识别领域的重要引领者,在语音识别中推广了时延神经网络,配合 LF-MMI 训练,是 2015-2020 年学术界和工业界普遍使用的最佳组合。他还是深度学习在声纹识别领域的重要引领者,提出的 X-vectors 方法是第一个取得成功并被普遍应用的深度学习说话人识别方法,广泛应用于工业界。他在国际顶级会议和期刊发表论文200多篇,谷歌学术引用近 52000 次,h-index 70,担任 Signal Processing Letters 的终身副主编。
报告题目:
The Zapformer: New work in Model architectures
报告摘要:
Our previously released Zipformer architecture has state of the art performance for speech recognition applications but its uptake has been limited by the complexity of the model and of its training procedure. The new "Zapformer" architecture is the result of an attempt to simplify the Zipformer and to tune its architecture and training method with larger datasets than we previously used for architecture tuning. Performance of Zapformer for ASR applications is significantly better than Zipformer which is itself better than Conformer or Transformer. One change is the removal of randomized elements such as dropout and layer dropout, with their stabilizing and pro-generalization effects replaced by the use of auxiliary loss functions.
报告人简介:
刘知远,清华大学计算机系长聘副教授,主要研究方向为大语言模型、知识工程与社会计算。已在Nature Machine Intelligence等人工智能著名国际期刊和会议发表论文200余篇,Google Scholar统计引用超过6.9万次。曾获教育部自然科学一等奖(第2完成人)、中国中文信息学会钱伟长中文信息处理科学技术奖一等奖(第2完成人)、中国中文信息学会汉王青年创新奖,连续五年入选2020-2024年Elsevier中国高被引学者,入选《麻省理工科技评论》中国区35岁以下科技创新35人榜单、中国科协青年人才托举工程。
报告题目:
VoxCPM:面向高拟真语音生成的高效大模型架构探索与应用
报告摘要:
本报告介绍清华大学联合面壁智能推出的VoxCPM——一款基于扩散自回归建模的端到端语音生成模型。作为高效大语言模型MiniCPM-4在语音生成领域的重要探索,VoxCPM融合了层次化语言建模、有限标量约束与局部扩散Transformer等多项创新技术,在克服传统离散单元方法信息损失的同时,有效增强了连续表征自回归生成的稳定性。本报告将介绍VoxCPM相关技术与实验结果,并展望多模态大模型的发展趋势。
报告人简介:
俞凯,上海交通大学计算机学院特聘教授,机器智能研究所所长,思必驰公司联合创始人及首席科学家,语言计算国家新一代人工智能开放创新平台负责人。国际语音通讯学会会士(ISCA Fellow),国家“万人计划”科技创新领军人才,曾获国家自然科学基金委青年优青、上海市“东方学者”特聘教授。长期智能语音及语言处理的研究和产业化工作,曾任 IEEE Speech and Language Processing Technical Committee 委员,IEEE Transactions on Audio Speech and Language Processing 副主编,Interspeech、ICMI、SigDial等国际会议的程序委员会主席,全国人机语音通讯会议大会主席,以及ACL、EMNLP等国际会议的研究领域主席等。现任中国计算机学会语音对话及听觉专委会主任,中国人工智能产业联盟(AIIA)学术及知识产权组组长。
报告题目:
迈向可靠的任务型大语言模型智能体
报告摘要:
大语言模型智能体因其通用理解及生成能力而受到广泛关注,被认为将能够实现通用的任务执行智能。然而由于语言模型的概率性生成本质,语言模型智能体会出现各种不符合预期的行为,导致执行的不确定性,在真实场景下执行性能和效率极低。经典的解决思路是将此类现象归因为“幻觉”,通过算法提升大模型的输出准确性,期望减少错误幻觉,降低输出不确定性,进而提升智能体执行能力。本报告则从认知型对话交互的角度,提出不同的理论框架。认为“不确定性无法根除”应是提升任务型智能体可靠性的基本前提,可靠性的消除不仅取决于期望行为准确度的提升,还取决于交互行为对不确定性的处理能力。本报告重新定义了任务型智能体的执行可靠性概念,讨论大模型对自身不确定性的建模,并讨论提升任务型智能体执行可靠性的方法。同时,在复杂工具调用的框架下,讨论工具幻觉及复杂调用可靠性提升的方法。
报告人简介:
李慧,教育部语言文字应用研究所(国家语委普通话与文字应用培训测试中心)语言智能研究中心工程师、博士,国家级普通话水平测试员,国家语言文字规范标准培训班授课教师,主要研究领域为计算语言学、语言智能、语言文字规范标准。主持或参与国家级、省部级项目近20项,主持或执笔起草省部级标准5项,申请软著、发表论文9项(篇);执笔撰写或参与组织撰写的调研报告多次得到省部级领导肯定性批示、获评中央和国家机关优秀调研报告和教育部直属机关优秀调研报告。
报告题目:
《机器合成普通话水平测评等级标准及测评大纲》研制与实践
报告摘要:
随着智能语音技术的发展,普通话的使用主体已不再局限于人,越来越多的语音合成系统开始“发声”。机器合成普通话已成为信息传播的重要渠道,广泛应用于教育、传媒、公共服务等多个领域。《宪法》规定“国家推广全国通用的普通话”,普通话水平已在多个行业形成刚性要求,普通话语音合成技术及产品在相关领域的落地和应用亦应与自然人的要求对齐,符合相关规范与标准。
本研究在国家语言文字规范标准体系建设框架下,借鉴普通话水平测试理论体系和实践经验,组织研制《机器合成普通话水平测评等级标准及测评大纲》,同步研发机器合成普通话水平测评工作平台3.0,组织百余名国家级普通话水平测试员,对主流普通话语音合成系统开展3轮实测。测评结果表明,该标准能够有效区分机器合成普通话水平,问题标注也为语音合成技术的迭代优化提供了明确可行的方向指引。

报告人简介:
魏建国,天津大学教授、博导,国家民委人工智能重点实验室主任、天津市虚拟仿真学会理事长。 近年来致力于研究人的发音与听觉感知机理及其在人机交互、安全、医疗等方面的基础理论及应用研究。曾担任NCMMSC2015 程序委员会主席,ISCSLP 2016 、ISSP2017组委会主席,全国人机交互大会HHME2018、NCMMSC2019 大会主席。获得国家级教学成果奖二等奖3项(排名第一、第二各一项)。获中国技术市场协会“金桥奖”--突出项目贡献奖(排名第一)。近年获得全国优秀教育工作者、中央文明办“中国好人”、宝钢优秀教师、青海省杰出教育工作者等称号。
报告题目:
面向类人智能的语音机理研究初探