大会报告

大会报告嘉宾

陶建华

报告人简介:陶建华,清华大学自动化系长聘教授,国家杰出青年基金获得者,国家级领军人才,享受国务院政府特殊津贴。主要从事语音技术、情感计算、多源融合等方向,在IEEE TASLPIEEE TPAMIIEEE SMCBIEEE TAFFCACM MM等国内外主要期刊或会议上发表论文400余篇,先后负责国家重点研发计划项目、国家自然科学基金重点项目、国家863重点项目、国家发改委项目等重点科研任务,参与制定7项国家标准和2项国际标准,获国家发明专利超过100项,国际专利超过20项。研究成果获2022年中国人工智能学会吴文俊技术发明特等奖、2021年中国电子学会技术发明一等奖、2018年中国电子学会技术进步一等奖,并多次在国内外学术会议上获奖,多次在MuSE等重要国际竞赛获得第一名。目前担任中国人工智能学会会士和常务理事、中国计算机学会会士、中国图象图形学会理事兼人机交互专委主任、ISCA Board Member等,并担任Speech CommunicationMIR、计算机研究与发展等多个主要国内外期刊编委,曾担任InterspeechACIIIEEE ICSPIEEE MLSP等会议大会主席或程序委员会主席。
报告题目:大模型与语音技术
报告摘要:报告通过分析大模型的技术特点与发展现状,阐述大模型在语音生成、语音识别与内容理解等方面的应用。基于大模型的语音技术通过算法框架融合、端到端的处理能力以及跨领域、跨语种计算等优势,为语音技术带来了一系列新的发展机遇。报告还对大模型存在的问题和技术挑战进行分析,提出大模型与语音技术进一步融合的发展思路。


孔江平

报告人简介:孔江平,男,北京大学中文系教授、博士生导师、学教育部哲学社会科学重点实验室-北京大学语言学实验室主任;享受国务院政府特殊津贴,国家社会科学重大招标项目首席专家。北京大学语言学实验室主任、教育部重点文科基地“中国语言学研究中心”研究员及管委会成员和北京大学、香港中文大学、台湾大学联合系统“语言与人类复杂系统联合研究中心”常务副主任。社会兼职有:美国嗓音学会会员,中国声学学会高级会员。中国中文信息学会理事,中国艺术医学协会理事,中国民族语言学会理事。中国语言学会语音学分会副主任,中国中文信息学会语音信息专业委员会副主任,中国民族语言文字信息技术国家民委-教育部重点实验室学术委员会委员。JCLJournal of Chinese Linguistics)特约编辑,《中国语音学报》创刊人之一,副主编,创刊号执行编辑;《语言学论丛》编委;《民族语文》编委;《语言与翻译》编委;《听力学及言语疾病杂志》编委;《中国听力语言康复科学杂志》编委。
报告题目:面向中华有声语言和文化展示的生理几何模型研究

报告摘要:随着信息技术、互联网技术和人工智能的发展,数字人文已逐步成为人文社会科学研究的主要形式,其中有声语言和有声文化的保护与传承是数字人文的一个重要部分。北京大学语言学实验室的前身是北京大学语音乐律实验室,由刘半农创建于1925年,实验室的宗旨是采用声学和生理的科学方法研究中国境内的有声语言和有声文化,包括中国的语言、民歌、戏曲和音乐。本世纪初,实验室改名为北京大学语言学实验室,开始了中华有声语言和文化现代声学和生理学的研究。研究主要包括:1)采用视频研究唇形模型及麦格克效应;2)采用喉头仪和高速数字成像研究声门模型和语言发声类型;3)采用X光、超声仪、电子腭位、咽声反射仪和磁共振研究声道模型和人类元音的涌现;4)采用高清视频研究面部情感模型和言语交际的副语言学功能;5)采用呼吸带和运动信号采集器研究呼吸模型;6)采用大型语音情感数据库研究情感语音合成系统和语音情感的感知范畴。以上研究的关键设备主要有:1)高速数字成像系统:主要用于采集动态声门。由于目前高速成像速度可达10000/秒,即使人发出的最高音“假声也可以完美的还原其声带的振动过程。2)高速磁共振系统:北大购买了西门子生产的磁共振设备,经过协商,西门子公司同意向北大提供高速储存模块,仅用于科学研究。目前我们能采集17/秒的2维动态声道数据。实验室2021年获批教育部哲学社会科学实验室,在教育部的支持下,实验室正在将多年研究的生理模型进行整合,计划建立面向中华有声语言和文化展示的生理几何模型“中华虚拟发音人”,主要用于中华有声语言和有声文化的展示,为建立“中国有声博物馆”提供技术支撑。


张超

报告人简介:张超,清华大学电子工程系助理教授,博士生导师,伦敦大学学院脑科学部荣誉副教授,研究方向为多模态语音语言处理技术和计算认知神经科学。张超于2009和2012年在清华大学计算机系获得本科和硕士学位,2017年在剑桥大学工程系获博士学位。在博士期间在HTK语音识别工具包中开发了完整的深度学习模块,并多次在DARPA BOLT、iARPA Babel、MGB等国际重大语音项目评测和挑战赛中获得单项第一。博士毕业后曾任剑桥大学副研究员、京东AI顾问和语音组联合负责人、Google公司高级研究科学家等职务,在语音识别、语音合成、推荐系统等领域有多项技术获得了产业应用。还发表了90多篇同行评议的会议和期刊论文,其中包括ICASSP 2014、ASRU 2019、SLT 2021和Interspeech 2022等语音领域旗舰级会议的最佳学生论文奖。还担任剑桥大学工程系客座研究员、中国中文信息学会语音信息专委会副秘书长等学术兼职。入选国家高层次人才计划青年项目。

报告题目:SALMONN:认知导向的视听觉大语言模型

报告摘要:ChatGPT的横空出世全球范围内掀起了空前的人工智能热潮。作为一种大语言模型(Large Language Model,LLM),ChatGPT以文本输入和文本生成作为交互的主要手段,在自然语言和形式语言任务中展现了相当程度的任务通用性,但一个关键缺陷在于模型的语言认知与物理世界的多模态信息几乎无关(ChatGPT的最新更新已支持图片和语音指令输入)。最近我们推出了首个认知导向的开源听觉模型SALMONN(Speech Audio Language Music Open Neural Network)。通过将LLM直接与音频和语音编码器连接起来,SALMONN实现了对语音、音频事件、音乐等各类音频输入的感知和理解。相较于仅仅支持语音输入或非语音音频输入的其他大模型,SALMONN给大模型“长了耳朵”,涌现出语音指令、多语言、跨模态推理等高级能力,大幅提高了模型的通用性和任务的丰富性。为让模型具有涌现能力,我们提出了一种关键的多模态LLM“激活”技术。在具有较为完整的音频感知的基础上,我们还给LLM增加了视觉编码器,给SALMONN“长了眼睛”。我们提出了一种多时空精度的因果Q-Former结构,使模型能够完整的获取时间对齐的音视频信息,并在音频、视频、图片等模态所需的不同时空精度间取得平衡。综上,SALMONN能够利用LLM从海量文本中学习得到的人类知识和认知能力,实现一种认知导向的音视频感知,是第一个能够“看”短视频的多模态大模型。