Gemini 1.0发布：谷歌AI首次超越人类多模态处理能力

admin AI新闻 2026-06-05 34

在北京时间12月6日的夜晚时分, Google朝着近期略微显得有些沉寂的AI模型战场投入了一颗新的重磅炸弹, 那号称多模态任务处理能力在首次的时候就已经超越人类的AI模型, Gemini 1.0正式被发布了。

昨晚正式发布前, 外媒中有许多关于Google这款全新AI模型的消息流出, Google最早于今年五月的IO大会期间透露了Gemini的存在, 但是和之前外界预期不一样, Google称Gemini的发布没有因为任何内部原因而延期, 表明其AI模型的研发进程从2012年就已开始, 直至近来2023年发布PaLM2与Bard之后, 便开始为Gemini的正式发布做准备。

先看DeepMind, 它本就是AI领域顶尖研究机构, 早在OpenAI踏入聚光灯下之前, DeepMind就凭借AI围棋棋手AlphaGo赢得了全世界对AI时代的关注, 再说如今, 名为「双子座」的新一代AI大模型正式对外发布, 这颇有抢回AI模型领域主导地位的感觉, 而双子座在神话里对应着「快速思维」能力, 同时它还有着包罗万象、善于沟通等寓意。

多模态能力

在实际表现方面, Gemini宣称自己是有史以来首款原生就支持多模态能力的AI模型。进而也就是说, 在Gemini出现以前的多部模态AI模型。当去处理同时涵盖了视频, 文字, 音频, 照片这两类以上的输入信息时其逻辑是分别针对于不同模态对应的组件展开训练。之后再把其理解出来的语义进行拼接。以此来模拟人类在处理多模态场景问题时的反应。

纵然这种架构已然足够令人惊艳, 然而在应对复杂逻辑问题之际, 难免会显得稍微有点笨拙, 缘由在于在这般架构当中, AI 模型的算力并未达成最高效的运用。Google 的解决办法乃是把 Gemini 设计成原生多模态, 自起始之时就在不同模态之上展开预训练。借助额外的多模态数据对其予以微调, 进而提升其有效性。

因为这种训练架构上存在颠覆情况, 所以Gemini在首先进入的输入阶段, 就能够针对人类的各类内容, 迅速地进行理解以及推理, 在处理复杂问题这个方面, 其优势格外显著: 在发布Gemini之际, Google宣称Gemini Ultra在行业标准MMLU（多任务语言理解）基准测试里, 取得了90%的成绩。

这不仅是, AI 模型有史以来的，首次超越人类专家的测试结果, 还超过了, 此前 GPT - 4 同类测试里, 86.5% 的结果。同时, 在九项独立基准测试中, 分别击败了, 包括 LLAMA - 2、GPT - 4 在内的, 一众竞争对手。

Gemini 1.0发布：谷歌AI首次超越人类多模态处理能力-第1张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

Google预备了好些演示场景, 用来展现Gemini的多模态理解能力, 视频里有位测试者正以简笔画视频的形式, 给Gemini输入信息, 演示里Gemini能够依据简笔画的每一处变化, 即时对最新的画面情形做出解读与描述, 还能按照输入视频里毛线颜色的比例, 给测试者推荐适宜的编织玩具, 并且跟Gemini玩猜硬币游戏, 猜错硬币在哪个手掌下之后, 马上反应出这是测试者的把戏等场景。

Gemini 1.0发布：谷歌AI首次超越人类多模态处理能力-第2张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

在处理信息输入时, Gemini能同时应对多种形态, 这种情况可不是轻轻松松就可以做到的, 这和目前市面上其他的生成式AI模型相比较起来, 存在着很大的区别, 这种区别可不是一星半点的, 在处理数学、计算机等复杂学科的时候, Gemini本身所具备的这种优势能够体现得更加明显, Google也着重强调了Gemini在数学领域所拥有的复杂理解能力, 在其中一个演示里, 就呈现出了通过视频输入一道数学题, 然后把这道题交由Gemini来辅助解决的场景, 这种场景可不是随处可见的。

需求看似简单, 实则包含对指令语义的准确理解, 还有手写图像识别, 同时要处理复杂逻辑的数学问题, 这是典型的多模态大模型应用场景。

可拓展性

到2023年下半年, 大模型, 不同体积的, 呈并行发展之势, 这已然成为行业主流, 特别是模型, 完全运行在本地的, 端侧大模型, 更是在生成式AI行业应用里, 成为炙手可热的前景, 包括vivo、小米、OPPO等手机品牌, 都已推出, 面向普通智能手机用户的, 端侧大模型与云端大模型的结合应用。

Gemini也没落下这样一个特征, 在Gemini 1.0里, Google总共发布了三个版本, Gemini Ultra是所有版本中最聪慧的, 不过它同时需要更大的计算量, Pro是其中最均衡、适用于最多场景的那个版本, Nano则是体积最小且最高效的版本, 它还是主打部署在Android手机等设备上的端侧大模型。

Gemini 1.0发布：谷歌AI首次超越人类多模态处理能力-第3张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

Google没有直接给记者介绍Gemini Nano模型的体积, 不过按照DeepMind的说法, Gemini Nano具备完全在端侧离线运行的本事, 当前Google针对Pixel系统自带的录音App做了Gemini的适配, 哪怕没有网络连接开云app官方入口网站开云手机入口app下载，也能够自动依据录制的对话、采访、演示等各类内容生成AI摘要。

Gemini 1.0发布：谷歌AI首次超越人类多模态处理能力-第4张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

Gemini Nano的能力被整合进了Android系统里, 除系统自带App外, 第三方应用开发者可通过应用适配方式, 调用手机自带的Gemini模型能力, 比如手机自带输入法能依据适配Gemini的聊天App中对方发给你的文字信息, 自动为你生成恰当的快捷回复。

Gemini 1.0发布：谷歌AI首次超越人类多模态处理能力-第5张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

Google从事研发工作的人员同时讲了未来存在会把Gemini放置到别的Android智能手机上的打算, 然而这一部分的适配工作牵扯到手机硬件在算力方面的适配情况, 所以当前暂时来讲只有Pixel 8 Pro才是Gemini的适配机型。

对于不少人所关心的那个问题, 即Gemini能不能够完全超越GPT 4.0呢, 记者在现场也向内询问了Google DeepMind的研发团队, 尽管Google并没有正面去回应这一提问, 然而却再次着重表明了Gemini Ultra在MMLU当中所获取的评分相较于GPT - 4而言是更高的, 并且它还是当前唯一超越人类专家测试结果的AI模型。

新硬件开云正版app下载，新架构

每次提及 Google 在生成式 AI 领域的那种硬件技术时呵, 常常都少不了去介绍 TPU（也就是张量处理单元）的相关内容, 这可是 Google 专门为开发神经网络机器学习情况所打造的专用硬件, 自 2015 年发布 TPU v1 开始, 一直到现在为止已然迭代了五个大版本。就目前现阶段来看, Google 所展示的 Gemini 1.0 , 是基于 Google 数据中心那里的 TPU v4 和 TPU v5e 大规模阵列训练才得以产生的。

这些TPU阵列, 被用于训练Gemini, 它们在Gmail、YouTube、Google Play等Google生态应用里, 有着近十年应用历史, 从2018年起开放给第三方客户使用, 不少人工智能初创公司选其作为训练大模型的硬件基石, Google还提到在TPU上, Gemini运行速度明显优于早期体积较小的模型。

如今, AI模型参数依旧呈指数级增长 , 顶级的AI大模型已然拥有数千亿乃至万亿级参数 , 即便配备最顶级的GPU配置 , 且毫不吝啬地堆砌GPU数量 , 要训练出如GPT - 4这般的大模型 , 也得耗费数月以上时间。由此可说 , 高性价比的高算力平台 , 是目前行业内最为迫切的需求。所以, 适用于下一代人工智能训练的硬件架构, 实际上也已然快要出现了, 在发布Gemini 1.0之际, 谷歌同时对外展示了最新的TPU v5p系列。

Gemini 1.0发布：谷歌AI首次超越人类多模态处理能力-第6张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

Google为数据中心所配备的TPU v5p, 在Google Blog上有相关介绍。

Gemini训练的「底座」, 也就是目前应用主力的TPU v4与v5e, 相比之下, v5p可拓展性进一步增强, 为应对复杂模型的推理训练与调整需求, 设计了新的硬件架构, 能根据性能需求灵活部署, 每个Pod计算单元中的芯片数量加倍, 由共计8960颗芯片互联构成。v5p的浮点运算能力相比v4提升了两倍, 训练速度相比v4能提升2.8倍以上。

和TPU v5p一块儿推出的, 还有被称作「AI Hypercomputer」的超级计算机架构, 按照Google的说法, 这是一个经过优化的技术系统, 它能够跟Google Cloud计算中心的硬件协同工作, 支撑现代AI模型开发的工作负载。

Gemini 1.0发布：谷歌AI首次超越人类多模态处理能力-第7张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

AlphaCode 2：全新代码生成工具

AlphaCode是一款AI代码生成系统, 它由Google于两年前发布, 那时处于生成式AI还未引发巨大浪潮、代码辅助类AI机器人仍主导主流视野的时代, 而如今Google在Gemini的基础之上发布了AlphaCode 2。

Gemini 1.0发布：谷歌AI首次超越人类多模态处理能力-第8张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

目前世界上最为流行的编程语言（像是 Python、Java、C++ 以及 Go）的代码, 初代 Gemini 能够理解、解释并生成。基于此的 AlphaCode 2, 对于那些不仅要具备编码能力, 还得拥有复杂数学及理论计算机科学知识的竞赛性编程问题, 同样擅长解决。

在与最初的AlphaCode处于同一个平台上展开评估之际, AlphaCode 2展现出了极大幅度的改进, 它所解决的问题数量差不多是AlphaCode的两倍之多, 其性能相较于AlphaCode高出了将近50%, 当然啦, 这些目前暂时都仅仅只是演示方面的内容, 虽说第一代AlphaCode实际上从来都未曾发布过, 然而DeepMind实际上已经透露出了这款产品未来投向市场的可能性。

发布时间线

接下来要说的是Gemini的开放时间, Gemini存在三种不同模型尺寸, 其在具体的开放使用时间方面不太一样, 且在使用场景上也有差异: 其中Gemini Pro会率先落地, 在12月13日的时候, 用户能够以Bard with Gemini Pro这样的形式去体验。Google的CEO皮查伊更是宣称Gemini会是Bard的一回全面升级, 多模态能力会给予Bard输入输出图像以及音频视频内容的能力。

经升级的新版 Bard, 能在170多个国家或地区给出基于Gemini Pro的英文服务, 当下Gemini Pro版本还无法支持更多语言, 对此Google称更多语言支持正处于开发进程中。与此同时, 在目前开放的版本里, 用户暂时仅能凭借文字指令来体验Gemini, Google另外宣称会在“未来几个月内”准予用户运用音频与图像交互能力。

从即日起, Gemini Nano除了会登陆在Pixel 8 Pro手机上之外, 还将对所有Android 14开发者开放, 开发者能够在手机系统里, 以AICore的形式调用Gemini的能力, 试着在自己的App中运用AI功能。

Gemini 1.0发布：谷歌AI首次超越人类多模态处理能力-第9张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9