工业论坛

敬请期待以下赞助企业的精彩报告:

OPPO、标贝科技、数据堂、Intelligent Computing、慧听科技、海天瑞声。

报告时间:10.17日15:30-17:30



主题一 OPPO小布助手语音交互中TTS的技术演进

报告人:梁敏


报告人简介:

    梁敏,OPPO高级语音算法工程师。长期从事语音合成研发工作,在该领域拥有超过10年的一线研发经验,拥有从前端文本处理、到声学模型、声码器模型的完整技术栈。持续探索语音合成在自然度、表现力、个性化上的突破,致力于将前沿算法落地,打造更好的人机语音交互体验。

内容摘要:   

    TTS作为语音交互体验中的关键一环,其发展深刻影响着产品的智能化与人性化水平。本次分享主要介绍TTS技术在OPPO小布助手语音交互中的技术演进。从里程碑式模型Tacotron、到一体化VITS模型、到基于Transformer-decoder的自回归模型,OPPO一直致力于给用户提供更自然更拟人化的语音体验。


主题二 赋能语音大模型:高质量数据实践路径

报告人:肖永红


报告人简介:

    肖永红,数据堂(北京)科技股份有限公司联合创始人、副总裁,中国计算机学会青年计算机科技论坛(YOCSEF)委员、CCF语音对话与听觉专业委员会委员、北京大学信息管理系业界导师、北京市经济和信息化局高精尖产业技能提升培训评审专家。

内容摘要:   

    从数据供给侧出发,系统阐述语音大模型在不同阶段对数据规模、质量、多样性的真实需求,并分享构建高价值数据集构建的最佳实践。


主题三 《智能计算》期刊简介与展望

报告人:金熠


报告人简介:

    金熠,之江实验室高级研究专员,毕业于荷兰格罗宁根大学,获人工智能博士学位。后于法国原子能委员会(CEA)NeuroSpin研究所从事博士后工作。目前研究方向为认知与人工智能交互、脑机接口、类脑等。

内容摘要:   

    Intelligent Computing 是由之江实验室与美国科学促进会(AAAS)共同创办的开放获取国际学术期刊,是《科学》合作期刊框架下智能计算领域的首本开放获取(Open Access)期刊。期刊创刊于2022年,以“面向人工智能的计算方法, 基于人工智能的计算技术,基于机器智能、数据、计算的科学发现”为核心主题,接收的文章类型涵盖研究论文、综述论文、观点论文、科学数据集/软件论文和评论等。目前,期刊已经被ESCI, Ei Compendex,Scopus等重要数据库收录,并已获得3.7的影响因子,位列JCR分区中计算机科学-理论方法Q1区,计算机科学-人工智能和计算机科学-多学科应用Q2区。


主题四 高质量语音数据:驱动人工智能语音技术创新的基石

报告人:胡婕


报告人简介:

    胡婕,慧听科技市场总监,全面负责慧听数据相关业务的市场推广策略制定与落地执行。

内容摘要:   

    介绍近期数据热点,解析慧听科技核心热销数据库,系统阐述其核心技术特性、关键竞争优势,展示产品的实际应用场景与价值,助力听众快速了解产品价值。



主题五 构建高质量端到端语音大模型数据集的关键技术与实践

报告人:穆向禹


报告人简介:

    穆向禹,标贝科技副总裁,中国科学院博士,20余年语音技术研发和智能语音产品经验,已授权专利10余项;曾任小鹏、滴滴AI产品专家、百度资深产品。

内容摘要:   

    随着端到端语音大模型的快速发展,高质量、场景化、多模态的语音数据已成为提升模型性能与泛化能力的关键支撑。本次分享标贝科技将系统介绍如何构建面向语音大模型的训练数据集。结合标贝科技在语音数据领域的实践案例,重点阐述覆盖数据采集、清洗、标注、测评与调优的全流程智能化生产管线,并展示自身在端到端语音交互数据、高表现力语音合成数据、多语种对话数据等方面的构建成果,为行业提供可借鉴的数据工程方案与前瞻性思考。



主题六 Dolphin语音大模型技术框架及底层数据构建

报告人:王冠博


报告人简介:

    王冠博,现任海天瑞声算法中心研发专家,拥有扎实的教育背景与丰富的行业实践经验。他本科毕业于清华大学电子工程系,硕士阶段就读于约翰霍普金斯大学语言与语音处理研究中心(CLSP)。曾在清华大学语音与音频技术实验室(SATLab)担任科研助理,还以机器学习工程师实习生身份在 Seasalt.ai 积累实践经验。他长期聚焦语音技术领域,主要研究方向涵盖语音识别、语音合成及语音大模型,同时作为核心参与者,深度参与了 Gigaspeech、Dolphin 等开源项目的研发与优化工作。

内容摘要:   

    大规模高质量数据是语音大模型性能提升的核心驱动力。Dolphin 语音大模型在构建过程中,采用系统化的数据工程方法,涵盖跨语言、多场景的语音语料采集,精细化的清洗与标注,以及多维度的数据处理与增强策略。这一完整的数据体系不仅保障了模型在语音识别与生成中的鲁棒性和泛化能力,也为上层架构的优化提供了坚实支撑。本报告将重点解析 Dolphin 的技术框架与底层数据构建方法,并展示海天瑞声作为全球领先的 AI 数据解决方案企业在高质量数据建设方面的实践成果。