它可以搜索网络、编写代码并教你如何玩游戏。
OpenAI连续几天的“轰炸”,已经让人厌倦了。
对此,谷歌周三推出了新一代至强AI大型号Gemini 2.0 Flash。
网友们可以先来体验一下。
实时对话模型所看到的内容感觉就像科幻小说一样。
通过共享屏幕和实时讨论论文,这个研究助手非常强大。
让AI在对话过程中自然生成图像。
现在,一句提示词就可以一步生成一个包含步骤说明和图片的菜谱博客。
据谷歌介绍,除了生成文本之外,它还可以直接生成图像和语音。
不仅如此,2.0 Flash还可以调用第三方应用程序和服务,例如使用Google搜索、运行代码等功能。
从今天开始,开发者可以通过以下方式试用Flash 2.0的测试版:
不过,生成图像和声音的功能目前仅对“早期合作伙伴”开放,要到明年1月才会向所有人开放。谷歌表示,在未来几个月内,它将把各个版本的Flash 2.0集成到多个产品中,包括:
主要型号Gemini 2.0
今天发布的Gemini 2.0 Flash实验版是Gemini 2.0系列的首款型号,也是目前的主力型号。
它具有快速的响应速度(低延迟)和强大的性能,代表了Google Gemini的顶尖技术水平。
Flash 2.0除了速度比前身快一倍并支持图像、视频和音频等多模态输入外,现在还支持多模态输出,例如本机生成的图像和文本混合以及可控的多语言文本转换。语音转语音 (TTS) 音频。
它还可以原生调用Google搜索、代码执行和第三方用户定义函数等工具。
下图为Gemini不同版本在各项测试中的性能对比。
总体而言,新模型在编程、数学和多模态处理方面有显着改进,尤其是在代码生成方面。
有趣的是,在长文本理解(MRCR)方面,2.0 Flash(69.2%)的表现比 1.5 Pro(82.6%)差。这是少数没有改善的指标之一。
图表展示了Gemini不同版本在各项测试中的性能对比。
Gemini 2.0 Flash正式版将于1月份推出。但与此同时,谷歌正在发布一个API——Multimodal Live API(多模态实时API),帮助开发者构建具有实时音视频流功能的应用程序。
网友们已经乐在其中了。
它可以帮助你画出下一步的位置。来自X网友@robertriachi
使用 Multimodal Live API,开发人员可以创建实时多模式应用程序,从摄像头或屏幕接收音频和视频输入。 API支持集成各种工具来完成任务,并且可以处理自然的对话模式。
例如,谈话中断。这与 OpenAI 的 Realtime API 非常相似。
在对话过程中自然生成图像,就像人类在聊天时随机绘制图表一样自然
对图像的后续编辑
处理实时音频输入,同时执行数据可视化等复杂任务
Project Astra:通用助手的黎明
今年5月,谷歌发布了通用AI助手研究原型Project Astra,这是一个多模态AI代理项目,旨在为用户提供一个能够理解并响应复杂动态现实世界的“AI助手”。
此次,谷歌对搭载Gemini 2.0的最新版Project Astra做出了一系列改进:
对话更流畅:Project Astra 现在能够使用多种混合语言进行交流,并且可以更准确地理解口音和不熟悉的单词。
新工具的使用:通过Gemini 2.0,Project Astra可以使用Google搜索、Google Lens和Google地图,使其成为您日常生活中更强大的助手。
更强大的内存:增强了 Project Astra 的内存功能并确保您可以控制其内存。它现在可以进行长达 10 分钟的对话,并记住您过去与其进行的更多对话,为您提供更加个性化的服务。
更低的延迟:借助新的流媒体功能和本机音频理解技术,代理可以以接近人类对话的延迟理解语言。
他们正在努力将这些功能引入 Google 产品,例如 Gemini 应用程序和其他形式的产品(例如眼镜)。与此同时,他们还开始在原型眼镜上测试 Project Astra。
在官方的演示视频中,老外使用安装了最新 Beta 版 Project Astra 的 Pixel 手机进行测试。
收到包含公寓信息的电子邮件后,它可以告诉您公寓门的密码并记住它。
只要用相机拍下衣服上的标签和洗衣机上复杂的按钮,它就会告诉你衣服是否可以机洗、漂白、烘干,以及如何使用洗衣机。
你还可以把你朋友读过的书发给它,让它分析你朋友的阅读品味,推荐相关书籍。
我遇到一辆公共汽车,就问是否可以到唐人街附近。 Project Astra不仅可以搜索公交车路线,还可以解答沿途著名地标。
另外,我还戴上了原型眼镜来测试Project Astra,效果相当酷。
只需一个问题,它就能预测天气预报、告诉你是否可以骑自行车进公园、搜索沿途超市等等。
水手计划:“贾维斯”的浏览器版本
Project Mariner 是基于 Gemini 2.0 构建的早期研究原型。通过Chrome浏览器插件,它可以理解屏幕上的所有内容——无论是文本、代码、图像还是表单。
其厉害之处在于,在WebVoyager基准测试中,Project Mariner被设置为独立代理,在完成网页任务方面取得了83.5%的准确率,目前来说是一个相当不错的成绩。
虽然现在可能仍然有点慢并且准确率不是 100%,但该技术正在迅速改进。
为了确保安全,谷歌采取了许多保护措施。
例如,它只能在您当前打开的网页选项卡中进行操作。当你想做一些重要的事情(比如网上购物)时,你必须先询问你是否同意。这就像有一个助手来帮助你处理事情,但你仍然可以做出重要的决定。
Jules:经验丰富的编程助理
Jules 是一位精通编程的智能助手,直接集成到 GitHub 工作流程中。假设你有一个编程问题需要解决,它会理解问题,制定解决方案,然后在你的指导和监督下编写代码。
这就好像你有一个经验丰富的编程伙伴,可以帮助你分析问题、规划解决方案、编写代码,但最终的决定权还是在你手里。您可以随时检查其工作情况,以确保一切都如您所愿。
游戏等领域代理
谷歌DeepMind一直喜欢用游戏来锻炼AI能力,就像前几天推出的Genie 2一样。只要给它一张图片,它就可以创建一个可玩的3D世界。
现在,他们开发了基于Gemini 2.0的游戏代理。
特别有趣。它可以了解你正在玩什么游戏,了解游戏屏幕上正在发生什么,然后与你实时聊天,并给你如何玩的建议。就像有一位资深玩家朋友在你身边指导你一样。
他们还与Supercell等大型游戏公司合作,在《部落冲突》等策略游戏和《卡通卡通农场》等模拟经营游戏中测试AI。 AI需要了解不同类型游戏的规则和挑战,这并不是一件容易的事。
更神奇的是,这款代理还可以利用Google搜索来帮助你找到网络游戏攻略和技巧。就像一个玩伴,了解游戏,知道去哪里寻找答案。
除了探索虚拟世界中智能体的能力外,谷歌还尝试将Gemini 2.0的空间推理能力应用到机器人领域,帮助智能体在现实世界中提供帮助,但目前还处于早期阶段。
本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://mjgaz.cn/fenxiang/273212.html