2025-12-21 16:48:39

火山引擎推豆包语音识别2.0,支持多模态与13种海外语言

摘要
12月5日,火山引擎推出豆包语音识别模型2 0版本,基于Seed混合专家大语言模型架构打造。该版本在推理能力方面实现显著提升,能够通过深度

火山引擎推豆包语音识别2.0,支持多模态与13种海外语言

12月5日,火山引擎推出豆包语音识别模型2.0版本,基于Seed混合专家大语言模型架构打造。该版本在推理能力方面实现显著提升,能够通过深度理解上下文内容完成更精准的语音识别,整体关键词召回率较此前提高20%。

新版本引入多模态视觉识别能力,不仅可处理语音信息,还能结合图像内容进行综合判断,支持单图与多图输入,使文字识别结果更加准确。系统现已覆盖日语、韩语、德语、法语等13种海外语言,具备较强的跨语种识别性能。

针对实际使用中的复杂场景,模型在专有名词、人名、地名、品牌名称以及易混淆的多音字识别方面进行了专项优化。例如,在讨论历史人物苏辙时,当用户提到其贬谪地“筠(yún)州”,即便上下文中未直接出现该地名,模型也能结合当前语境和相关背景知识,准确区分“筠州”与发音相近的“云州”“郓州”等,有效避免误识别。

目前,豆包语音识别模型2.0已在火山方舟体验中心上线,并开放API接口,供外部接入使用。

科技趋势
时事资讯
回顶部