凤凰网科技讯 12月18日,在火山引擎原力大会上,字节跳动正式发布豆宝视觉理解模型。据介绍,这是一个更划算的解决方案——豆宝视觉理解模型一千个代币的投入价格仅为3毛钱。折算下来,1元钱可以处理284张720P图片,比行业价格便宜85%。
火山引擎总裁谭岱表示,豆宝视觉理解模型不仅能够准确识别视觉内容,而且具有出色的理解和推理能力。它可以根据图像信息进行复杂的逻辑计算,完成分析图表、处理代码,并回答学科问题。等待任务。此外,该模型具有更详细的视觉描述和创建能力。
图:火山引擎总裁谭代
此前,豆宝的视觉理解模型已集成到豆宝App和PC产品中。为了让用户输入更加快捷、方便,豆宝产品非常注重多模态输入和打磨,包括语音、视觉等能力。这些模型已经通过火山引擎向企业客户开放。
此外,多款豆宝大模产品也获得了重要更新。据现场透露,豆宝通用模型pro已与GPT-4o全面对接,价格仅为后者的1/8;音乐模型在 60 秒内生成一个简单的结构。升级为3分钟生成完整作品;文胜图模型2.1版本在业界率先实现了准确生成汉字和一句话P图的能力。该模型已接入极萌AI、豆宝App。
另据透露,具有更长视频生成能力的豆宝视频生成模型1.5版本将于2025年春季推出,豆宝端到端实时语音模型也即将推出。谭代表示,豆袋大款虽然发布较晚,但一直在快速迭代、进化。
数据显示,截至12月中旬,豆宝通用模型日均代币使用量已超过4万亿,较7个月前首次发布时增长了33倍。
本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://mjgaz.cn/fenxiang/273523.html