1. 首页>>分享

谷歌推出新一代AI大模型Gemini 2.0 Flash,支持实时对话、图像生成及调用第三方服务

它可以搜索网络、编写代码并教你如何玩游戏。

OpenAI连续几天的“轰炸”,已经让人厌倦了。

对此,谷歌周三推出了新一代至强AI大型号Gemini 2.0 Flash。

网友们可以先来体验一下。

实时对话模型所看到的内容感觉就像科幻小说一样。

通过共享屏幕和实时讨论论文,这个研究助手非常强大。

谷歌的科技有多强大__科幻武器3d模型

让AI在对话过程中自然生成图像。

谷歌的科技有多强大__科幻武器3d模型

现在,一句提示词就可以一步生成一个包含步骤说明和图片的菜谱博客。

据谷歌介绍,除了生成文本之外,它还可以直接生成图像和语音。

不仅如此,2.0 Flash还可以调用第三方应用程序和服务,例如使用Google搜索、运行代码等功能。

从今天开始,开发者可以通过以下方式试用Flash 2.0的测试版:

不过,生成图像和声音的功能目前仅对“早期合作伙伴”开放,要到明年1月才会向所有人开放。谷歌表示,在未来几个月内,它将把各个版本的Flash 2.0集成到多个产品中,包括:

主要型号Gemini 2.0

今天发布的Gemini 2.0 Flash实验版是Gemini 2.0系列的首款型号,也是目前的主力型号。

它具有快速的响应速度(低延迟)和强大的性能,代表了Google Gemini的顶尖技术水平。

Flash 2.0除了速度比前身快一倍并支持图像、视频和音频等多模态输入外,现在还支持多模态输出,例如本机生成的图像和文本混合以及可控的多语言文本转换。语音转语音 (TTS) 音频。

它还可以原生调用Google搜索、代码执行和第三方用户定义函数等工具。

谷歌的科技有多强大__科幻武器3d模型

下图为Gemini不同版本在各项测试中的性能对比。

总体而言,新模型在编程、数学和多模态处理方面有显着改进,尤其是在代码生成方面。

有趣的是,在长文本理解(MRCR)方面,2.0 Flash(69.2%)的表现比 1.5 Pro(82.6%)差。这是少数没有改善的指标之一。

_科幻武器3d模型_谷歌的科技有多强大

图表展示了Gemini不同版本在各项测试中的性能对比。

Gemini 2.0 Flash正式版将于1月份推出。但与此同时,谷歌正在发布一个API——Multimodal Live API(多模态实时API),帮助开发者构建具有实时音视频流功能的应用程序。

网友们已经乐在其中了。

谷歌的科技有多强大_科幻武器3d模型_

它可以帮助你画出下一步的位置。来自X网友@robertriachi

使用 Multimodal Live API,开发人员可以创建实时多模式应用程序,从摄像头或屏幕接收音频和视频输入。 API支持集成各种工具来完成任务,并且可以处理自然的对话模式。

例如,谈话中断。这与 OpenAI 的 Realtime API 非常相似。

在对话过程中自然生成图像,就像人类在聊天时随机绘制图表一样自然

谷歌的科技有多强大_科幻武器3d模型_

对图像的后续编辑

谷歌的科技有多强大__科幻武器3d模型

处理实时音频输入,同时执行数据可视化等复杂任务

_谷歌的科技有多强大_科幻武器3d模型

Project Astra:通用助手的黎明

今年5月,谷歌发布了通用AI助手研究原型Project Astra,这是一个多模态AI代理项目,旨在为用户提供一个能够理解并响应复杂动态现实世界的“AI助手”。

此次,谷歌对搭载Gemini 2.0的最新版Project Astra做出了一系列改进:

对话更流畅:Project Astra 现在能够使用多种混合语言进行交流,并且可以更准确地理解口音和不熟悉的单词。

新工具的使用:通过Gemini 2.0,Project Astra可以使用Google搜索、Google Lens和Google地图,使其成为您日常生活中更强大的助手。

更强大的内存:增强了 Project Astra 的内存功能并确保您可以控制其内存。它现在可以进行长达 10 分钟的对话,并记住您过去与其进行的更多对话,为您提供更加个性化的服务。

更低的延迟:借助新的流媒体功能和本机音频理解技术,代理可以以接近人类对话的延迟理解语言。

他们正在努力将这些功能引入 Google 产品,例如 Gemini 应用程序和其他形式的产品(例如眼镜)。与此同时,他们还开始在原型眼镜上测试 Project Astra。

在官方的演示视频中,老外使用安装了最新 Beta 版 Project Astra 的 Pixel 手机进行测试。

收到包含公寓信息的电子邮件后,它可以告诉您公寓门的密码并记住它。

科幻武器3d模型_谷歌的科技有多强大_

只要用相机拍下衣服上的标签和洗衣机上复杂的按钮,它就会告诉你衣服是否可以机洗、漂白、烘干,以及如何使用洗衣机。

_科幻武器3d模型_谷歌的科技有多强大

你还可以把你朋友读过的书发给它,让它分析你朋友的阅读品味,推荐相关书籍。

科幻武器3d模型__谷歌的科技有多强大

我遇到一辆公共汽车,就问是否可以到唐人街附近。 Project Astra不仅可以搜索公交车路线,还可以解答沿途著名地标。

谷歌的科技有多强大_科幻武器3d模型_

另外,我还戴上了原型眼镜来测试Project Astra,效果相当酷。

只需一个问题,它就能预测天气预报、告诉你是否可以骑自行车进公园、搜索沿途超市等等。

科幻武器3d模型__谷歌的科技有多强大

水手计划:“贾维斯”的浏览器版本

Project Mariner 是基于 Gemini 2.0 构建的早期研究原型。通过Chrome浏览器插件,它可以理解屏幕上的所有内容——无论是文本、代码、图像还是表单。

其厉害之处在于,在WebVoyager基准测试中,Project Mariner被设置为独立代理,在完成网页任务方面取得了83.5%的准确率,目前来说是一个相当不错的成绩。

虽然现在可能仍然有点慢并且准​​确率不是 100%,但该技术正在迅速改进。

为了确保安全,谷歌采取了许多保护措施。

例如,它只能在您当前打开的网页选项卡中进行操作。当你想做一些重要的事情(比如网上购物)时,你必须先询问你是否同意。这就像有一个助手来帮助你处理事情,但你仍然可以做出重要的决定。

Jules:经验丰富的编程助理

Jules 是一位精通编程的智能助手,直接集成到 GitHub 工作流程中。假设你有一个编程问题需要解决,它会理解问题,制定解决方案,然后在你的指导和监督下编写代码。

这就好像你有一个经验丰富的编程伙伴,可以帮助你分析问题、规划解决方案、编写代码,但最终的决定权还是在你手里。您可以随时检查其工作情况,以确保一切都如您所愿。

游戏等领域代理

谷歌DeepMind一直喜欢用游戏来锻炼AI能力,就像前几天推出的Genie 2一样。只要给它一张图片,它就可以创建一个可玩的3D世界。

现在,他们开发了基于Gemini 2.0的游戏代理。

特别有趣。它可以了解你正在玩什么游戏,了解游戏屏幕上正在发生什么,然后与你实时聊天,并给你如何玩的建议。就像有一位资深玩家朋友在你身边指导你一样。

谷歌的科技有多强大_科幻武器3d模型_

他们还与Supercell等大型游戏公司合作,在《部落冲突》等策略游戏和《卡通卡通农场》等模拟经营游戏中测试AI。 AI需要了解不同类型游戏的规则和挑战,这并不是一件容易的事。

更神奇的是,这款代理还可​​以利用Google搜索来帮助你找到网络游戏攻略和技巧。就像一个玩伴,了解游戏,知道去哪里寻找答案。

除了探索虚拟世界中智能体的能力外,谷歌还尝试将Gemini 2.0的空间推理能力应用到机器人领域,帮助智能体在现实世界中提供帮助,但目前还处于早期阶段。

本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://mjgaz.cn/fenxiang/273212.html

联系我们

在线咨询:点击这里给我发消息

微信号:13588888888

工作日:9:30-18:30,节假日休息