谷歌推出新一代AI大模型Gemini 2.0 Flash，支持实时对话、图像生成及调用第三方服务-模具钢网

它可以搜索网络、编写代码并教你如何玩游戏。

OpenAI连续几天的“轰炸”，已经让人厌倦了。

对此，谷歌周三推出了新一代至强AI大型号Gemini 2.0 Flash。

网友们可以先来体验一下。

实时对话模型所看到的内容感觉就像科幻小说一样。

通过共享屏幕和实时讨论论文，这个研究助手非常强大。

谷歌的科技有多强大__科幻武器3d模型

让AI在对话过程中自然生成图像。

谷歌的科技有多强大__科幻武器3d模型

现在，一句提示词就可以一步生成一个包含步骤说明和图片的菜谱博客。

据谷歌介绍，除了生成文本之外，它还可以直接生成图像和语音。

不仅如此，2.0 Flash还可以调用第三方应用程序和服务，例如使用Google搜索、运行代码等功能。

从今天开始，开发者可以通过以下方式试用Flash 2.0的测试版：

不过，生成图像和声音的功能目前仅对“早期合作伙伴”开放，要到明年1月才会向所有人开放。谷歌表示，在未来几个月内，它将把各个版本的Flash 2.0集成到多个产品中，包括：

主要型号Gemini 2.0

今天发布的Gemini 2.0 Flash实验版是Gemini 2.0系列的首款型号，也是目前的主力型号。

它具有快速的响应速度（低延迟）和强大的性能，代表了Google Gemini的顶尖技术水平。

Flash 2.0除了速度比前身快一倍并支持图像、视频和音频等多模态输入外，现在还支持多模态输出，例如本机生成的图像和文本混合以及可控的多语言文本转换。语音转语音 (TTS) 音频。

它还可以原生调用Google搜索、代码执行和第三方用户定义函数等工具。

谷歌的科技有多强大__科幻武器3d模型

下图为Gemini不同版本在各项测试中的性能对比。

总体而言，新模型在编程、数学和多模态处理方面有显着改进，尤其是在代码生成方面。

有趣的是，在长文本理解（MRCR）方面，2.0 Flash（69.2%）的表现比 1.5 Pro（82.6%）差。这是少数没有改善的指标之一。

_科幻武器3d模型_谷歌的科技有多强大

图表展示了Gemini不同版本在各项测试中的性能对比。

Gemini 2.0 Flash正式版将于1月份推出。但与此同时，谷歌正在发布一个API——Multimodal Live API（多模态实时API），帮助开发者构建具有实时音视频流功能的应用程序。

网友们已经乐在其中了。

谷歌的科技有多强大_科幻武器3d模型_

它可以帮助你画出下一步的位置。来自X网友@robertriachi

使用 Multimodal Live API，开发人员可以创建实时多模式应用程序，从摄像头或屏幕接收音频和视频输入。 API支持集成各种工具来完成任务，并且可以处理自然的对话模式。

例如，谈话中断。这与 OpenAI 的 Realtime API 非常相似。

在对话过程中自然生成图像，就像人类在聊天时随机绘制图表一样自然

谷歌的科技有多强大_科幻武器3d模型_

对图像的后续编辑

谷歌的科技有多强大__科幻武器3d模型

处理实时音频输入，同时执行数据可视化等复杂任务

_谷歌的科技有多强大_科幻武器3d模型

Project Astra：通用助手的黎明

今年5月，谷歌发布了通用AI助手研究原型Project Astra，这是一个多模态AI代理项目，旨在为用户提供一个能够理解并响应复杂动态现实世界的“AI助手”。

此次，谷歌对搭载Gemini 2.0的最新版Project Astra做出了一系列改进：

对话更流畅：Project Astra 现在能够使用多种混合语言进行交流，并且可以更准确地理解口音和不熟悉的单词。

新工具的使用：通过Gemini 2.0，Project Astra可以使用Google搜索、Google Lens和Google地图，使其成为您日常生活中更强大的助手。

更强大的内存：增强了 Project Astra 的内存功能并确保您可以控制其内存。它现在可以进行长达 10 分钟的对话，并记住您过去与其进行的更多对话，为您提供更加个性化的服务。

更低的延迟：借助新的流媒体功能和本机音频理解技术，代理可以以接近人类对话的延迟理解语言。

他们正在努力将这些功能引入 Google 产品，例如 Gemini 应用程序和其他形式的产品（例如眼镜）。与此同时，他们还开始在原型眼镜上测试 Project Astra。

在官方的演示视频中，老外使用安装了最新 Beta 版 Project Astra 的 Pixel 手机进行测试。

收到包含公寓信息的电子邮件后，它可以告诉您公寓门的密码并记住它。

科幻武器3d模型_谷歌的科技有多强大_

只要用相机拍下衣服上的标签和洗衣机上复杂的按钮，它就会告诉你衣服是否可以机洗、漂白、烘干，以及如何使用洗衣机。

_科幻武器3d模型_谷歌的科技有多强大

你还可以把你朋友读过的书发给它，让它分析你朋友的阅读品味，推荐相关书籍。

科幻武器3d模型__谷歌的科技有多强大

我遇到一辆公共汽车，就问是否可以到唐人街附近。 Project Astra不仅可以搜索公交车路线，还可以解答沿途著名地标。

谷歌的科技有多强大_科幻武器3d模型_

另外，我还戴上了原型眼镜来测试Project Astra，效果相当酷。

只需一个问题，它就能预测天气预报、告诉你是否可以骑自行车进公园、搜索沿途超市等等。

科幻武器3d模型__谷歌的科技有多强大

水手计划：“贾维斯”的浏览器版本

Project Mariner 是基于 Gemini 2.0 构建的早期研究原型。通过Chrome浏览器插件，它可以理解屏幕上的所有内容——无论是文本、代码、图像还是表单。

其厉害之处在于，在WebVoyager基准测试中，Project Mariner被设置为独立代理，在完成网页任务方面取得了83.5%的准确率，目前来说是一个相当不错的成绩。

虽然现在可能仍然有点慢并且准确率不是 100%，但该技术正在迅速改进。

为了确保安全，谷歌采取了许多保护措施。

例如，它只能在您当前打开的网页选项卡中进行操作。当你想做一些重要的事情（比如网上购物）时，你必须先询问你是否同意。这就像有一个助手来帮助你处理事情，但你仍然可以做出重要的决定。

Jules：经验丰富的编程助理

Jules 是一位精通编程的智能助手，直接集成到 GitHub 工作流程中。假设你有一个编程问题需要解决，它会理解问题，制定解决方案，然后在你的指导和监督下编写代码。

这就好像你有一个经验丰富的编程伙伴，可以帮助你分析问题、规划解决方案、编写代码，但最终的决定权还是在你手里。您可以随时检查其工作情况，以确保一切都如您所愿。

游戏等领域代理

谷歌DeepMind一直喜欢用游戏来锻炼AI能力，就像前几天推出的Genie 2一样。只要给它一张图片，它就可以创建一个可玩的3D世界。

现在，他们开发了基于Gemini 2.0的游戏代理。

特别有趣。它可以了解你正在玩什么游戏，了解游戏屏幕上正在发生什么，然后与你实时聊天，并给你如何玩的建议。就像有一位资深玩家朋友在你身边指导你一样。

谷歌的科技有多强大_科幻武器3d模型_

他们还与Supercell等大型游戏公司合作，在《部落冲突》等策略游戏和《卡通卡通农场》等模拟经营游戏中测试AI。 AI需要了解不同类型游戏的规则和挑战，这并不是一件容易的事。

更神奇的是，这款代理还可以利用Google搜索来帮助你找到网络游戏攻略和技巧。就像一个玩伴，了解游戏，知道去哪里寻找答案。

除了探索虚拟世界中智能体的能力外，谷歌还尝试将Gemini 2.0的空间推理能力应用到机器人领域，帮助智能体在现实世界中提供帮助，但目前还处于早期阶段。

本文采摘于网络，不代表本站立场，转载联系作者并注明出处：http://mjgaz.cn/fenxiang/273212.html

谷歌推出新一代AI大模型Gemini 2.0 Flash，支持实时对话、图像生成及调用第三方服务

相关推荐

联系我们