字节跳动发布豆包视觉理解模型，性价比高且功能强大-模具钢网

凤凰网科技讯 12月18日，在火山引擎原力大会上，字节跳动正式发布豆宝视觉理解模型。据介绍，这是一个更划算的解决方案——豆宝视觉理解模型一千个代币的投入价格仅为3毛钱。折算下来，1元钱可以处理284张720P图片，比行业价格便宜85%。

火山引擎总裁谭岱表示，豆宝视觉理解模型不仅能够准确识别视觉内容，而且具有出色的理解和推理能力。它可以根据图像信息进行复杂的逻辑计算，完成分析图表、处理代码，并回答学科问题。等待任务。此外，该模型具有更详细的视觉描述和创建能力。

图：火山引擎总裁谭待

图：火山引擎总裁谭代

此前，豆宝的视觉理解模型已集成到豆宝App和PC产品中。为了让用户输入更加快捷、方便，豆宝产品非常注重多模态输入和打磨，包括语音、视觉等能力。这些模型已经通过火山引擎向企业客户开放。

此外，多款豆宝大模产品也获得了重要更新。据现场透露，豆宝通用模型pro已与GPT-4o全面对接，价格仅为后者的1/8；音乐模型在 60 秒内生成一个简单的结构。升级为3分钟生成完整作品；文胜图模型2.1版本在业界率先实现了准确生成汉字和一句话P图的能力。该模型已接入极萌AI、豆宝App。

另据透露，具有更长视频生成能力的豆宝视频生成模型1.5版本将于2025年春季推出，豆宝端到端实时语音模型也即将推出。谭代表示，豆袋大款虽然发布较晚，但一直在快速迭代、进化。

数据显示，截至12月中旬，豆宝通用模型日均代币使用量已超过4万亿，较7个月前首次发布时增长了33倍。

本文采摘于网络，不代表本站立场，转载联系作者并注明出处：http://mjgaz.cn/fenxiang/273523.html

字节跳动发布豆包视觉理解模型，性价比高且功能强大