谷歌Gemini拆台Sora，一眼看穿AI视频破绽

admin AI新闻 2026-06-04 39

OpenAI发布的一款AI模型, 与谷歌在同一天发布的另一款AI模型, 正处于“互相伤害”的状态。

首先, OpenAI推出的“世界模拟器”Sora彻底抢走了谷歌最新一代多模态大模型Gemini 1.5 Pro应有的注意锋芒, 致使谷歌施展的这一重大举措所引发的反响显得平淡无奇。于是, 谷歌被人们戏谑地称作“AI界的汪峰”。

即将进行的是, 谷歌Gemini 1.5 Pro, 会很快来给Sora“拆台”的。

一位身为谷歌董事之人, 把一条由 Sora 创制而成的视频, 发送给 Gemini 1.5 Pro , 要它作出一番点评, Gemini 1.5 Pro 敏锐精准地指出了视频里头存在着的不合乎逻辑的地方, ——。

这一段视频, 是于日本一条有雪的街上所拍摄的, 彼时樱花正盛开。存在一些并非完全契合的地方, 这显示出这段视频或许是经由人工智能生成的。

首先喽, 雪花纷纷洒洒飘扬着落下, 然而樱花仍依旧盛放着。樱花一般是在春天绽放的, 那时候天气暖和且不存在雪。

其次, 雪下落的方式是非常均匀的, 然而这可不是下雪在现实平常生活里一般的那种下落途径。

第三，视频中的人们没有穿任何冬季衣物开云app官方最新下载地址，尽管下着大雪。

从总体上来进行表述, 这个视频于视觉方面具备吸引人的特质, 然而存在的不一致情形显示出这并非真实的场景情况。

能够最具实力去改变大模型格局, 进而给OpenAI带来压力的玩家想来该是谷歌。此次那与Sora相互拆台的Gemini 1.5 Pro, 其实力到底怎样呢?

1.初次的一波评测已然出炉, Gemini 1.5 Pro的表现究竟怎样呢?

谷歌Gemini 1.5 Pro是个多模态模型, 它能为不同模态做高度复杂理解、推理之举, 并且能于更长代码块里开展更具相关性问题解决工作。

只是, Gemini 1.5 Pro 当下还没有向公众敞开, 只有少数用户参与内测, AI工具库网站Therundown.ai的创始人Rowan Cheung就是其中一个。

二月十九日, 罗文·张, 于X之上, 发布了关于Gemini 1.5 Pro的六项能力评测。

谷歌Gemini拆台Sora，一眼看穿AI视频破绽-第1张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

1.分析和理解长视频

张栢文上传了前一天晚上NBA扣篮大赛全过程的视频, 还问了哪一个扣篮得到的分数是最高的。

Gemini 1.5, 依靠其出众的长上下文视频理解本领, 能够于视频里寻觅到得分最高的堪称完美的50分扣篮以及其细节！

2.理解和比较《星际穿越》《星际探索》的完整电影剧本

Gemini 1.5 , 它具备理解这两部电影完整剧本的能力, 还能够对这两部电影的完整剧本进行比较, 之后, 它又能把这两部电影的完整剧本予以对比, 如此所为, 是要去帮助 Rowan Cheung 做出决定, 决定到底应该去看哪一部电影。

3.将语言翻译成只有不到 2000 人使用的语言

Gemini 1.5 具有在推理阶段遵循完整语言手册的能力, 可做到把英语转化成 Saterlandic, 那是德国的一种语言, 使用人数不到2000人。

4.观察, 懂得, 分辨, OpenAI Sora视频里的内容是不是由AI制造的。

著名的 Sora 猫视频由 Gemini 1.5 突出显示, 其强调了可能由 AI 生成的关键因素, 为何如此呢。

Rowan Cheung 直呼“对它的回答深度感到惊讶”。

5.在一篇长论文中找到、理解并解释一个小图表

Gemini 1.5具备从DeepMind的Gemini 1.5 Pro论文里提取出“表8”这一能力, 且对该表的含义作出了解释。

6.理解整部《星际穿越》电影剧本，并突出关键时刻

Gemini 1.5 具备寻拣出, 《星际穿越》剧本里的, 三句最为鼓舞人心的, 引语的能力。

2.背后的两大技术“杀招”

Gemini 1.5 Pro具备两大极具威力的独特之处, 一种是堪称最为强大的MoE大模型；另外一点是, 其所能支持的上下文长度达到最高值时竟然可达10000K token , 是不是很强啊！

1.高效的 MoE 架构

Gemini 1.5 Pro是基于谷歌在Transformer架构以及MoE（即混合专家）架构方面的前沿研究构建而成, 此构建有着很高的权威性；传统的Transformer是以大型神经网络模式来运行的, 而MoE模型则是被划分成较小的“专家”神经网络范畴。

MoE属于一种混合模型, 它是靠多个子模型构成的, 那些子模型也就是专家, 每个这样子模型都是一个局部的模型, 它专门用来处理输入空间里的一个子集, MoE的核心的思想是运用一个门控网络, 以此来决定每个数据该被哪个模型去做训练, 进而减轻不同类型样本之间所产生的干扰。

在基于MoE架构的情况下, 将Gemini 1.5 Pro与Gemini 1.0 Ultra相比较, 虽然Gemini 1.5 Pro的训练计算需求大幅降低, 不过服务效率更高, 在超半数评测指标也就是16/31上表现更为出色, 尤其是在10/13的文本处理以及6/13的多项视觉处理任务方面。

谷歌Gemini拆台Sora，一眼看穿AI视频破绽-第2张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

Gemini 1.5 Pro与Gemini 1.0系列比较

一开始, 被叫做“模型圈大火成员”的MoE架构, 在一段时间里让所有知悉它的人都很关注, 就比如说被封为“欧版OpenAI样态”的法国大模型公司之Mistral AI, 将它那叫做8x7B样版的模型弄成了MoE架构。随后, 微软这家公司发布了崭新状态版本的Phi-2一样的小模型。目前, 猎豹移动公司的董事长兼CEO傅盛不久前对「甲子光年」进行了表明, 该公司接下来会在模型里把MoE架构引进进来。

那个被称作“老大哥”的谷歌, 在MoE路线方向上, 其实早就开展了布局行动, 所取得的成果具备可例举为Sparsely - Gated MoE的, 有被叫做GShard - Transformer的, 还有名为Switch - Transformer的，另有M4这类的。

谷歌最新的模型架构有创新, 这种创新让Gemini 1.5 Pro能更快学习复杂任务, 它还能保持相应质量, 并且在训练的时候更高效，在服务方面同样更高效。

2.支持超长的上下文窗口

去年下半年，各家大模型公司便开始卷上下文窗口的长度。

用于处理信息的基本构建块是 Token, 那 AI 模型的“上下文窗口”由 Token 组成, Token 可以是单词的部分或子部分, 也可以是图像的部分或子部分, 还可以是视频的部分或子部分, 甚至可以是音频的部分或子部分更或者是代码的部分或子部分。模型的上下文窗口倘若越大, 那么它在给定提示里能够吸收和处理的信息就会越多, 如此进而能让模型输出更加一致、相关性强且有用的内容。

经过一系列机器学习方面的创新, 谷歌提升了Gemini 1.5 Pro的上下文窗口容量, 并且达成了在生产环境中运行高达100万个Token的成果, 这一数量远远超过了32k的Gemini 1.0、128k的GPT-4 Turbo以及200k的Claudet！

谷歌Gemini拆台Sora，一眼看穿AI视频破绽-第3张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

这表明, Gemini 1.5 Pro具有能够一次性处置诸多信息的能力, 这些多样的信息涵盖了时长为1小时的视频, 或是时长为11小时的音频, 又或是含有超过30000行代码的代码库, 甚至是包含超过700000个单词的内容。

谷歌另外透露, 其内部开展的研究, 已然成功进行了测试, 测试所涉及的 Token 数量高达 1000 万个。

在给定的提示里头, Gemini 1.5 Pro能够毫无缝隙地展开分析、进行分类以及做出总结, 针对大量的内容。举例来说, 当给出了阿波罗11号登月任务的402页记录之时, 它能够针对对话、事件以及文档里的细节展开推理。

在现实世界的数据里, 这样的上下文长度, 可让Gemini 1.5 Pro, 轻松处理近乎一天的音频记录, 也就是大约22小时, 能处理超过《战争与和平》1440页, 或者587287词那样书籍的十倍内容, 还能处理Flax整个代码库, 即41070行代码, 又或者能处理以每秒一帧速度播放的三小时视频。

再者, 鉴于此模型从本质上就具备对多模态的支持能力, 并且能够把不同模态的数据融合于同一个输入序列当中, 所以它能够同时对音频及视觉数据以及文本跟代码输入这类多重不同类型的数据实施处理。

在被称作“大海捞针”的 NIAH 实验评估里头, 搞实验的人员特意把含有特定事实或者陈述的小文本片段放置于长文本块里, 在长达一百万个 Token 的数据块当中, Gemini 1.5 Pro 能够以 99%的概率找出嵌入的文本。

谷歌Gemini拆台Sora，一眼看穿AI视频破绽-第4张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

Gemini 1.5 Pro得出了近乎完美的“针”召回率（>99.7%）, 这发生在全部模态里, 也就是文本、视频以及音频中, 就算是在“干草堆”达到100万个标记的情况下。它在文本模态里扩展到1000万个标记（大概700万字）也好, 在音频模态里达到200万个标记（长达22小时）也罢, 甚至在视频模态里达到280万个标记（长达3小时）之时依然维持着这种召回性能。x轴扮演着上下文窗口的角色, y轴体现的是在给定上下文长度中所放置的“针”的深度百分比。结果用颜色编码表示：绿色表示成功检索世界杯直播观看世界杯直播，红色表示失败。

3.谷歌不走 OpenAI 的老路

Sora 的技术文档之中, OpenAI 并未将模型的技术细节予以透露, 仅仅是表述了一大核心理念, 那便是 Scale。

OpenAI把Scale列为企业核心价值观当中的一条: “我们秉持这样的信念, 规模, 在我们的模型、系统、自身、过程以及抱负里, 有着神奇魔力。要是存在疑问, 那就去扩张规模。”。

谷歌Gemini拆台Sora，一眼看穿AI视频破绽-第5张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

基于此理念, OpenAI于2020年提炼出了模型训练的诀窍——Scaling Law, 依据Scaling Law, 模型性能会在大算力、大参数量、大数据的根基上如摩尔定律那般持续地提升, 不但适用于语言类模型, 而且适用于具有多模态性的模型。

然而, 就当前的情形而言, 谷歌好像并不认可Scaling Law这个说法。

在最近的访谈期间, 哈萨比斯发言称: “你应当促使现有的技术向前发展, 瞧瞧它们能够抵达怎样的程度, 然而单纯去扩充现有的技术, 你极难获取全新的能力。像规划、工具运用或者代理行为这些方面, 它们不会以神奇的方式出现。”。

他又进一步透露说, 打从AlphaGo时代起始, 谷歌早就于Agent、强化学习以及规划这几方面展开探索并前行了许久, 而这无疑堪称谷歌实实在在的强项所在。“我们当下正再次审慎看待诸多的想法, 思考着要把AlphaGo的能力构建于这些大型模型之上, 我觉得内省能力与规划能力将会对诸如幻觉等问题的解决起到助力作用。”。

能够进行推测, 谷歌正尝试去搭建一个系统, 进而引导模型以更具逻辑性的方式去思考, 并非只是一味地追寻 OpenAI 的那种暴力美学路径。

毕竟, 从科研的角度来讲, 暴力美学的那个“黑盒”, 并不够透明, 而且还很难去进行复制, 从实际应用方面来说, 暴力美学所取得的成果, 同样是不安全的。

哈萨比斯始终倡导搭建模拟沙箱, 于把Agent系统置于网上以前对其加以测试, 还呼吁行业理应着手切实考量Agent系统的现身。依他之见, Agent系统会是一个全然有别的系统。

有这样一种方法, 它被称作“模拟沙箱”, 国内有一家大模型初创公司, 名为面壁智能, 此方法在其“小钢炮”MiniCPM模型里也存在应用情况。在发布MiniCPM之前, 面壁智能开展了大量工作, 进行了上千次的模型沙盒实验, 经过对这些实验的研究探索, 得出了最优的配制。凭借这个最优的超参数配制, 所有尺寸的模型能够实现一个目标, 即保证在训练任意大小的模型时, 都能够取得最好的效果。

能够这么讲, 就其模拟沙盒的办法而言, 没准儿能够把大模型的训练进程由如同那“炼丹”一般, 转变成为一种类似“实验科学”一样的情况。

不论单纯语言模型或者多模态, 围绕LLM开展的技术跟商业竞争皆尚处早期阶段, 一切定论恐怕都为时尚早。OpenAI可谓伟大, 然而又不应遭人神化。

谢赛宁, 身为Diffusion Transformer架构论文的作者之一, 她觉得, 在涉及复杂AI系统的较量当中, 人才方面排首位, 数据方面排第二, 算力方面位于第三, 并且她表明谷歌是当前截至已知的、最具备能与OpenAI相互较量能耐, 得以相互抗衡的资深参与者, 为此她十分期待谷歌后续将会展现出的表现如何。

标签： AI模型技术竞争谷歌Gemini OpenAISora 多模态模型

本文地址： http://www.mcluo.com/post/1044.html