AI应用如何驱动模型创新？火山引擎冬季Force原动力大会揭秘豆包语音大模型-模具钢网

AI应用时代，模型能力应该如何进化？｜甲子光年_AI应用时代，模型能力应该如何进化？｜甲子光年_

AI应用将如何驱动模式创新？

作者｜王士新‍‍‍

编辑｜王博‍‍‍‍‍‍

如果给你一个机会和十年后的自己对话，你最想问什么？

在火山引擎冬季力量大会上，你会有这样的机会：只需站在手机前，按下按钮，对着麦克风提问，然后按下按钮结束录音，等待几秒钟，手机就响了你面前的电话会响起，十年后你的声音会在电话那头听到。这位“十年后的你”将亲自回答你刚才提出的问题，并与你展开一场时空对话。

AI应用时代，模型能力应该如何进化？｜甲子光年__AI应用时代，模型能力应该如何进化？｜甲子光年

实现这个科幻场景的不是时光机，而是一个大豆袋语音模型。 2024年12月18日，在火山引擎冬力大会AI应用分会上，字节跳动语音产研负责人叶顺平详细介绍了豆宝语音交互的新能力。其中，大模型声音再现技术是支撑“跨时空对话”玩法的核心技术。通过豆宝语音模型的超强语音再现能力，通过语音输入的一句话，模型可以快速、高-品质再现你的声音和说话风格，同时，也会给声音增添一些“沧桑”，一个十年后的“你”在模型中诞生。

短短几个月的时间，国产机型就能够实现如此有趣的玩法，这让我们对AI应用有了更多的思考。

对于模型厂商来说，焦点从“量模型”向“量应用”的转变实际上正在发生。随着大模型能力的显着提升，AI原生应用越来越多地落地到特定垂直领域。与移动互联网时代App的快速发展类似，大机型的竞争也开始延伸到应用层面，特别是在互动娱乐和营销服务方面。在面向消费者的C端场景中，AI正在引发一场革命，这对模型能力提出了新的要求。

与“百模型之战”时期不同，模型发展的逻辑已经在发生变化。对于主流厂商来说，提升模型能力仍然是核心任务，但重点不再是简单的规模扩张或参数竞争，而是真正将模型融入到实际应用场景中，并在实际应用中不断优化和改进模型。表现。

在2024年火山发动机冬力大会上，“甲子光年”也注意到了行业正在发生的变化。顺应市场趋势，火山引擎开始布局AI应用领域，围绕特定应用场景持续提升系列模型能力，豆宝语音大模型就是最好的案例之一。

1、做最“会说话”的产品，目标：语音模型No.1

在2024年火山引擎冬季动力大会上，大豆袋语音模型无疑是亮点之一。业界普遍认为，语音交互是AI模型落地的关键切入点。 2024年5月，OpenAI推出端到端语音交互模型GPT4o，以其出色的语音交互能力引起了消费者端的广泛讨论。这标志着语音交互已成为继文本对话之后最重要的人工智能模型和应用之一。世界上最重要的人机交互模式之一。

另一方面，实现实时语音交互也是AI应用生态的现实需求。在应用方面，语音模型的实现场景很多，需求也是真实的。除了比较成熟的AI助手和客服场景外，有声读物、虚拟数字人、在线翻译、无障碍协助等场景都需要调用语音功能。以火山引擎为例，背靠字节系统生态，抖音、飞书、番茄小说、剑影等产品的真实业务也需要更好的声音模型来满足需求。由此，豆宝语音模型在整个2024年实现了快速演进。

语音交互之所以如此“难”，归根结底是AI应用矩阵的需求。在应用方面，语音模型的实现场景很多，需求也是真实的。除了比较成熟的AI助手和客服场景外，有声读物、虚拟数字人、在线翻译、无障碍协助等场景都需要调用语音功能。在字节系生态中，抖音、飞书、番茄小说、剑影等产品的真实业务也需要更好的健全模型来满足需求。

叶顺平介绍，基于Byte的应用中有50多个与语音相关的业务场景。火山引擎必须有强大的大型语音模型。同时，这些真实的业务场景也将保证大语音模型通过反复尝试而快速成长。

“我们语音团队的使命是利用多模态语音技术，让内容制作和语音交互变得更简单、更沉浸、更多元化。”叶顺平说，所以短短几个月，豆宝语音模型就上线了。快速进化。

AI应用时代，模型能力应该如何进化？｜甲子光年_AI应用时代，模型能力应该如何进化？｜甲子光年_

字节跳动语音团队将大语音模型分为语音合成、语音识别、声音再现三个部分。简单来说，就是解决大模型在语音输入、输出和学习三大方面的问题。

对于“输入”这一步，在识别准确率方面，此次豆宝语音识别模型在多个公开测试集中，与国内公开发布的大型语音识别模型相比，错误率降低了10%。 -40%；在语音理解方面，它可以利用一系列上下文信息进行推理，可以带来15%以上的召回率提升；在保持场景高精度的同时，豆宝语音识别支持一种模型识别普通话和多种中国方言，包括上海话、闽南语、四川话、陕西话、粤语等，能够真正实现国内主流方言的精准识别。

这意味着豆宝语音模型能够准确识别大部分中文内容，并且对专有名词、上下文等内容也有了更深入的理解。大型模型逐渐被赋予“更智能”的识别能力。

在最难的语音合成方面，新的豆宝语音合成模型可以根据上下文智能预测文本的情感、语调等信息，生成超自然、高保真、个性化的语音，满足用户的需求。不同用户的个性化需求。与传统语音合成技术相比，豆宝语音合成大模型在自然度、音质、节奏、气息、情感、情态粒子表达等方面均能输出突破。

以难度较大的“情感”合成为例。与之前手动记录各种情感音色的方法相比，豆宝语音合成可以直接通过生成文本来合成不同的情感。用叶顺平的话说，越来越像“真人”了。大型号还可以使用260种风格的声音。用户可以选择自己喜欢的声音，真正做到随心所欲、随心所欲。

AI应用时代，模型能力应该如何进化？｜甲子光年__AI应用时代，模型能力应该如何进化？｜甲子光年

还有开头提到的豆袋放声技术。在开放环境下，用户只需录制5秒的数据，即可即时复制用户的音色、说话风格、口音和声学环境。同时，由于大模型本身的奇幻特性，效果体现在表现力/节奏波动较强的文本同一句话多次合成可能会产生不同的效果。结合多语言复现和低成本调优，让用户根据使用场景更灵活地使用大模型复现能力。

从识别到合成、再现，豆宝语音模型正在构建全新的模型能力矩阵，让人机交流真正达到超自然、低延迟的效果，让用户有更身临其境的体验，这也使得语音模型能力可以真正应用于更多样化的场景。叶顺平在演讲中多次介绍了大型语音模型的内部实际案例。对模型“落地”的重视已经铭刻在火山发动机产品创新的基因中。

2.拆解模型能力，技术的最终目标仍然是需求

拆解字节模式产品和AI应用的快速发展，我们可以发现，一方面可以归功于字节跳动商业生态带来的天然优势；另一方面，这种快速发展与火山引擎模型技术升级的策略有很强的相关性：虽然AI时代相信Scaling法则和智能的出现，但移动互联网时代极快的App迭代模型仍然发挥作用：在用户有应用场景的最主流垂直场景中，我们可以针对这些场景做出针对性的应用。模型能力升级。

回到语音模型的竞争，豆宝语音模型近日获得信通院语音大模型评估和中文母语语音合成评估基准（SuperCLUE-TTS）的双重认证。豆宝语音模型综合能力被信息通信研究院评选为首届“领先”语音模型，并荣获SuperCLUE-TTS中文原生“语音合成”评测基准榜单和声音再现第一名列表。

从技术角度来看，两次权威评测的结果无疑验证了豆宝语音模型的模型能力。在中文本土领域，豆宝确实占据了领先地位。值得注意的是，信通院根据《大型语音模型技术能力要求》对豆宝的评价：第一名。在AI应用专场，中国信息通信研究院云计算与大数据研究所副所长董恩然也出现在现场，向观众讲解了信息通信研究院的考核标准。通信技术——什么是真正好的语音模型。

据信息通信研究院介绍，大型语音模型的评估主要包括以四大核心功能为主要评估标准的技术能力部分，以及涉及语音模型使用中十个方面的业务成熟度部分。 “能听、能说、够理解、好用”。董恩然这样总结评价标准。顶尖的技术能力和相关参数是核心，但代表“好用”的服务成熟度同样重要。

AI应用时代，模型能力应该如何进化？｜甲子光年_AI应用时代，模型能力应该如何进化？｜甲子光年_

最强技术与应用场景的深度结合，打造了“领先水平”的豆宝语音模型。

以语音合成为例。这次之所以能达到超自然的合成效果，是因为豆宝语音合成模型采用了最新的Seed-TTS模型架构，采用语音信号分词、自回归模型生成语音特征、扩散模型生成语音。信号处理等一系列技术使语音合成能够实现高稳定性和更高的合成质量。我们之所以在超凡、高稳定性上下功夫，是为了结合聊天陪伴、音频生成、数字真人广播、语音客服等场景所面临的真实效果问题。对于这些场景，输出的质量、稳定性和体验至关重要。直连，让豆宝语音合成有了针对性的升级。

以本次专场介绍的营销服务场景为例。在语言模型+语音模型+视觉模型的支持下，智能客服已经可以实现更加智能的理解和输出能力。然而，对于语音输出问题，确实需要高度拟人化并克服幻想。因此，语音合成自然需要朝着更加智能、具有人类特征的方向发展，以满足高语音输出的需求。

AI应用时代，模型能力应该如何进化？｜甲子光年_AI应用时代，模型能力应该如何进化？｜甲子光年_

豆宝语音合成模型超凡的音色定制功能，深入洞察C端用户和企业用户的需求。目前，虚拟人物和互动娱乐已成为AI应用的主流场景。这个功能正是通过大模型的超级合成来实现的。该功能释放了语音内容生成的生产力，并真正释放了语音 IP 的更多可能性。同时，依托火山引擎全定制托管模型，模型能力为客户低门槛、高效率赋能。

语音识别模型的升级更加实用，直接解决传统语音识别面临的准确率问题以及复杂场景识别困难的问题。通过阶段性大规模训练以及LLM中的情境感知功能，豆宝语音识别可以满足互动娱乐、客服、会议等多种应用场景下的ASR需求，并需要适应不同的口音、语言、领域知识、环境干扰等，实现超高识别率和多方言、语言识别能力。语音识别模型不仅可以推动AI应用进一步与用户交互，还可以提高会议录音、语音输入、字幕转录等现实场景的效率。

语音模型能力的全面提升必将带来新的应用需求。以字节跳动最近推出的智能AI耳机Olafriend为例。高可用性、高识别率以及高质量的多轮对话，大大提高了AI的可用性。 “内置”在耳机中的AI朋友或将成为未来推动AI硬件广泛应用的驱动力之一。

可以看到，这些新推出的功能都经过了字节跳动50+内部业务的“苦干”，是真正经过验证的“实用大规模模型”。业务打磨除了帮助模型找到真正的应用方向外，还可以保证模型走向产品化，投入市场后能够快速落地。

叶顺平还强调，豆宝语音模型将在不久的将来不断进化，实现端到端的超自然语音交互。可以预见，这将再次彻底改变用户体验，豆宝语音模式也将开辟更广泛的应用场景。

三、多业态推进，形成人工智能应用创新动力

豆宝语音大模型的发展历史是一个窗口。对于火山引擎来说，模型能力与AI应用的交互驱动着大模型的演进。从另一个角度，我们可以看到更加雄心勃勃的一面：火山引擎依然沿袭字节跳动的高效研发模式做模型产品，并且也在进行大规模、全方位的布局。

整个冬季原力大会，从基础语言模型到语音模型、视觉模型、应用开发平台，火山引擎拿出了目前“能买到”的所有消费级大型模型产品。其广度几乎涵盖了AI应用的所有领域。对于火山引擎来说，模型创新的规模等于应用创新的规模。他们不满足于少数市场，而是真心想打造一个属于字节跳动的AI应用生态。

多模态大模型的发展无疑将成为构建应用生态系统的重要基础。 12月19日，致远研究院发布了FlagEval“百模型”评测结果，其中包括对100多个开源和商业闭源语言、视觉语言、Vincentian图形、Vincentian视频、语音语言大模型的综合评价和专项评价。国内外。其中，豆宝语言模型获得中文语言模型第一名，并在视觉语言和文森图竞赛中排名前列。

此次全新的大语音模型也再次证明了火山引擎在多模态方面的进步。更重要的是，多模态模式与字节内部业务深度融合后，正在推动越来越多创新应用形态和有趣玩法的诞生。

在发布会的主论坛上，一款大豆袋语音模型的“伴侣模型”引起了我们的注意，这就是豆袋音乐模型。对于抖音、剪报、汽水音乐等基于字节的应用来说，音乐内容是需求量巨大的内容之一。也是大量C端用户的原创、二代内容。基于这种洞察，一种新的豆袋音乐模式应运而生。它已经可以完成一首完整的3分钟歌曲的创作，包括前奏、主歌、副歌、间奏、过渡部分等，还可以对歌词进行部分修改，并且可以在原旋律的节奏框架内进行改编。

更难得的是，这样的一代更具有连贯性。通过旋律、节奏、和声等信息的合理运用，音乐模型的创作可以使整首歌曲在风格、情感和音乐逻辑上保持一致。

_AI应用时代，模型能力应该如何进化？｜甲子光年_AI应用时代，模型能力应该如何进化？｜甲子光年

在大模型的驱动下，我们的灵感可以更直接、更有效地呈现在音乐创作中。与其他多模态模型能力相结合，还创建了新的玩法和应用。在VIVO全新OriginOS 5系统中，“时间剪影”功能深度融合了豆宝音乐模型的能力，可以以图片为基础，让豆宝音乐模型根据豆宝提供的素材创作AI歌词和音乐。还提供版权音乐、AI纯音乐等多种音乐选择，为用户生成独特的个性化大片。

虽然这种玩法看上去仍然以“有趣”为主，但可以预见的是，在音乐教育、广告营销等领域，这种模式能力的应用将进一步提高内容创作的效率，从而解放生产力，让从业者可以更加专注于创意开发，提高营销内容的质量。

就“实用性”而言，火山引擎的视觉模型走在前列。在克服了 Vincentian 图形领域生成内容不准确、风格不连贯的问题后，火山引擎找到了当前行业真正需要的应用场景：专业图像编辑。

对于之前的大多数文森图模型来说，图像编辑任务的关键是在“维持原始图像”和“生成新图像”之间达到最佳平衡。此次豆宝文森图模型的升级是在文森图的基础上进行的。该模型的零样本模型可以根据用户需求稳定地编辑图片，同时增强响应能力和保留能力。提出SeedEdit框架，在不引入新参数的情况下将图像生成扩散模型转换为图像编辑模型，并添加一键海报等功能，真正将文生图“产品化”。

豆宝不仅为图像生成提供了无与伦比的想象力，也让生成变得更加可控和专业。通过高精度的命令理解和高质量的编辑效果，高效率的创作和创新成为常态。目前，该模型也开始在智创云、绿米平台等AI应用中落地。无论是营销服务场景，还是专业设计平台，AIGC也将发挥新的作用。

AI应用时代，模型能力应该如何进化？｜甲子光年__AI应用时代，模型能力应该如何进化？｜甲子光年

正如董恩然演讲中提到的，我们正在见证模型技术从单一的技术价值向更广泛的综合价值转变。技术进步固然重要，但真正的创新往往来自于解决实际问题的过程。将创新的人工智能技术应用于现实挑战是衡量模型能力发展的核心标准。这也提醒我们，在人工智能应用领域，技术突破与实际场景实践相辅相成。

火山引擎也秉承这一策略并不断前行。 IDC公布的数据显示，火山引擎在生成式AI IaaS（GenAI IaaS）领域市场份额排名第二；在AI应用市场，豆宝等基于字节的AI应用也势头强劲，牢牢占据榜单头把交椅。前排位置。 ‍

这或许就是火山引擎不断强调大模型从“有趣”到“有用”转变的根本原因。扎根场景、驱动创新，沿着这条路，火山引擎也在寻求建立完整的产品生态。 AI应用可能成为大型模型进化的下一个驱动力。对于All in AI公司来说，这是一个难得的机会：快速占领可见的垂直市场并找到自己的生态利基可能是唯一的竞争方式。钥匙。

本文采摘于网络，不代表本站立场，转载联系作者并注明出处：http://mjgaz.cn/fenxiang/273588.html

AI应用如何驱动模型创新？火山引擎冬季Force原动力大会揭秘豆包语音大模型

相关推荐

联系我们