阶跃星辰与吉利汽车联合开源Step系列多模态大模型，包括全球最大参数量文生视频模型Step-Video-T2-模具钢网

DeepSeek迎最强队友！国产大模型开源猛踩油门，全球第一，免费可用，技术报告公开_DeepSeek迎最强队友！国产大模型开源猛踩油门，全球第一，免费可用，技术报告公开_

聪明的东西

作者｜陈兴达（Chen Junda）

编辑｜ Xinyuan

吉文奇在2月18日报告说，今天，“六只小虎”之一的Step Yuexingchen和Geely Automobile Group共同宣布，它将开放两个步骤系列的多峰模型，其中包括全球参数数量最多的开源。。 Wensheng Video Big Model Step-Video-T2（300亿）和Step-Audio语音交互模型。 Step-Video-T2可以直接生成最大分辨率为204帧和540p的视频。

据报道，这也是Step Star首次打开其Step系列基本模型。从现在开始，用户可以在Yuewen应用中体验这两个模型。 Step Yuexingchen还发布了一份36页的Step-Video-T2技术报告和25页的Step-Adio技术报告。

DeepSeek迎最强队友！国产大模型开源猛踩油门，全球第一，免费可用，技术报告公开__DeepSeek迎最强队友！国产大模型开源猛踩油门，全球第一，免费可用，技术报告公开

在Jieyuexingchen宣布开源后，相关新闻是由开源平台拥抱脸的首席执行官转发的，负责拥抱面孔的人中国的人也向他的时刻提出了建议。

_DeepSeek迎最强队友！国产大模型开源猛踩油门，全球第一，免费可用，技术报告公开_DeepSeek迎最强队友！国产大模型开源猛踩油门，全球第一，免费可用，技术报告公开

▲左侧拥抱脸的首席执行官，右边拥抱脸的人

在开始使用实际的视频模型之后，Netizens还进行了高评估，称其可以产生连贯且复杂的动作。网民还特别提到Jieyuexingchen使用MIT开源协议。这与DeepSeek的开源协议一致。

项目链接：

技术报告地址：（ Step-Video-T2）

（Step-Adio）

1。恢复复杂的运动并了解移动镜的要求。视频文本一代将不再是“幽灵绘画护身符”

Step-Video-T2采用高压缩比视频VAE模型，该模型可以在空间维度中压缩视频16×16次，在时间维度中进行8次，同时保持视频重建的质量。这项有效的压缩技术可显着提高培训和发电效率，从而使视频生成过程更快，效率更高。

此外，Step Star使用两个双语文本编码器（Hunyuan-CLIP和Step-Llm）来处理中文和英语提示，还优化了基于流匹配的DIT架构以及Video-DPO（视频偏好优化）算法的使用，该算法是增强了模型处理复杂视频数据的能力，并可以进一步提高视频生成的质量。

在培训过程中，他们构建了一个大型数据集，其中包含20亿个视频文本对和38亿张图像文本对。将原始视频转换为适用于模型预训练的高质量视频文本对，例如视频分割，质量评估，运动评估，字幕生成，概念平衡和文本对齐。

为了支持大规模培训，已经开发了Step-Video-T2V训练系统，包括步进模拟器，StepRPC（高性能RPC框架），Steptelemetry（监视系统）和Stepmind（分布式培训平台）。这些工具优化了模型的培训效率和资源利用。

从发电效应的角度来看，该模型在复杂运动，美丽的角色，视觉想象力，基本文本生成等中显示出一定的力量。

在下图中，Step-Video-T2V产生了一张美国足球运动员的图片。该模型已经实现了图片内容的良好恢复以及在及时单词中使用镜子的要求，这反映了该模型的语义理解和命令依从性。

▲提示单词：在视频中，一名强大的美式足球运动员穿着职业足球制服，在球场上练习。整个场景都在公开场上与其他球员和教练在后台进行。该视频采用固定的摄像头翻译方法，捕获玩家运行的每个细节，清楚地显示了橄榄球的强度和速度。

但是，当产生更困难的图片（例如潜水）时，Step-Video-T2V的结果中会有一些物理扭曲。

就文本而言，Step-Video-T2V产生的英语艺术特征没有幻觉，并且蛇年的元素被纳入数字“ 2025”中。

Step-Video-T2V还可以准确描绘历史上著名的人物，同时还可以考虑到图片的美丽。

为了全面评估开源视频生成模型的性能，Step-Video-t2v-eval还发布并打开了用于Wensheng视频质量评估的新基准数据集的来源，该数据集可以评估体育，景观，动物，组合，概念和超级视频生成质量在11个内容类别中，例如现实。

2。模型同时支持文本和语音生成，而无需将语音转换为文本

Step Yuexingchen还打开了Step-Audio语音互动模型，该模型可以根据不同的场景需求生成情感，方言，语言，唱歌和个性化样式的表达方式，并且自然会与用户进行高质量的对话。

在包括Llama问题和Web问题在内的五个主要主流公共测试集中，Step-Audio模型的性能超过了行业中相同类型的开源模型的性能，排名第一。

大多数现有的语音交互系统主要使用级联体系结构（ASR-LLM-TTS），它们具有诸如延迟积累，错误传播和优化不一致的问题。 Step-Audio统一了语音和文本的理解和发电能力，并支持语音识别，语义理解，对话，语音克隆，音频编辑和语音综合。该模型可以在Yuewen免费使用。

根据具有1300亿个参数的Step-Audio的完整版本，Step-Audio培训和开源的有效的Step-Adio-TTS-3B型号，从而增强了以下功能的说明。

此外，由于行业中相对缺乏语音对话测试集，Step Ade-audio-360基准测试构建和打开了，从角色扮演，逻辑推理，生成控制，Word中采购了Stepeval-Audio-360基准测试游戏，创意能力和说明开源语音模型通过包括控制在内的9个基本功能进行了全面评估。

结论：中国的人工智能开源力已经变得更强大

Jieyuexingchen的创始人兼首席执行官Jiang Daxin博士说，Jieyuexingchen这次的开源是分享最新的技术成就，并为开源社区做出贡献。另一方面，他们还认为，多模型模型是实现AGI的必经之路。这条路仍处于早期阶段。我们希望使用开源措施与社区开发商进行集思广益，共同扩大模型技术的界限，并促进行业的实施。

在由DeepSeek造成的开源风暴之后，越来越多的中国模型选择向广大开发人员社区开放自己的专有模型，以免费或开源的开源模型，而开源行业的中国部队悄然上升了。

本文采摘于网络，不代表本站立场，转载联系作者并注明出处：http://mjgaz.cn/fenxiang/274324.html

阶跃星辰与吉利汽车联合开源Step系列多模态大模型，包括全球最大参数量文生视频模型Step-Video-T2

相关推荐

联系我们