谷歌的宣传视频,竟然作假了?
昨天,在谷歌发布的Gemini的宣传视频当中, 有一段时长为6分钟的一镜到底的互动视频, 所有人都被它惊艳到了。

在一天的时间范围之内, 出现了高达720万那样数量的播放量。网友们发出惊叹之声, Gemini看上去仿佛恰似一个能够在任何时候, 对于所有事情, 无论是大事还是小事, 都可以朝你进行详尽解释的朋友。

视频里看上去, 仿佛Gemini能够在当下立刻察觉到人类的举动, 而且紧接着直接给出语音方面的回应。
然而开云app在线入口,有越来越多的人质疑demo的真实性。
彭博社的Parmy Olsen,第一个质疑视频造假。

随后,谷歌官博也放出了解释——
是的,视频的确有后期制作和剪辑的成分。
按照官方所公布的一份技术文档来看, Gemini的所有这些交互, 并非能够实时被感知到, 而是借助提示词询问出来的, 例如:

视频中显示,似乎Gemini能直接看懂人类在玩石头剪子布,
可不嘛, 实际的情形是, 朝着Gemini上传一张手呈剪刀状的照片, 询问它瞧见了啥。随后借助人声将它的回应念了出来。
有关于石头剪子布的视频, 是将三张照片逐一传递给Gemini, 使其依据这三张照片连贯起来进行推理, Gemini直接给出回应称, 这是在玩石头剪子布。
所以, 事实上并非Gemini看懂了一段视频, 它仅仅看懂了三张图片, 进而做出了推理而已。

人类向Gemini传递了一张呈现「剪刀」模样的照片 , Gemini回应称: 「这看上去仿若伸出了两根指头的手势 , 通常来讲这个手势意味着数字2」。而后人类又传送了3张展示「石头剪刀布」手势的照片 , 询问Gemini这三张照片组合到一块所表达的含义是什么。Gemini这才说出这是「石头剪子布」游戏。
同样, 在识别行星的那个演示当中, 视频所营造出来的那种感觉, 就好像是直接去问Gemini说, 这个顺序是正确的吗, 然而它给出的回答却是不正确的, 正确的顺序应该是太阳, 然后是地球, 最后是土星。

但事实上, 是谷歌给Gemini一句prompt, 这句prompt是「这个顺序正确吗? 请考虑它们与太阳的距离, 并且解释理由」, 之后, Gemini才回答了那样一句话。

有不少网友同样觉得, 谷歌这般刻意地进行误导性呈现, 反倒致使用户会去猜疑, 究竟模型的实际能力究竟有多厉害。

毕竟, 产品是不可能一直停留在宣传视频之处的, 终究都是要交到用户手上进而去体验的。
这个视频存在的最大误导性之处在于, 它好像致使用户产生一种错觉, 以为Gemini可以在实时状态下读取视频所包含的信息, 而且还能够凭借自身的理解, 直接对用户的问题进行推测, 进而直接给出回复。
而实际的情形是, 谷歌的员工, 是借助读取图片, 以及具备良好的提示词工程, 才使得Gemini生成这些回复的。
虽说从技术原理的角度来讲, 存在着能够读取图片的情况, 并且存在着能够看懂视频的情形, 但是这二者之间, 并不存在技术层面的鸿沟。
然而呢, 从产品达成落地的那个角度去看, 将读取图片近似等同于能够实时看懂视频, 而且还过度地着重实时性进而压缩了交互过程当中的延迟, 这样的情况差不多已然能够被理解成是虚假宣传了。
而是否需要良好的提示词工程,更是评价模型能力的关键问题。
谷歌所做的这些「后期加工」呀, 这仅仅能够表明, 他们可是极其渴望让Gemini有一种比行业内其他竞争对手看上去要好出许多许多的感觉!
终究, 谷歌起了个大早却赶了个晚集, 在大模型方面着实太需要流量了。
在YouTube描述范围内, 谷歌也认可了那个视频被处理为延迟状态, 如此一来便能够让模型显得响应速度相较于实际情形更快。
Olson说道, 谷歌所开展的营销极为巧妙 , 因而实际上我们确实务必在AI炒作当中更为谨慎 , 维持清醒的头脑以及判断力。

谷歌,令人失望了
昨天, Gemini的演示一经呈现, 瞬间便以意想不到的态势让众人感到惊艳, 这本该算作是多模态理解领域里那一场令人心潮澎湃的展示。
现今被揭发伪造,明显会致使用户对谷歌的诚信丧失信心, 谷歌这么行事, 着实是所得不偿所失。
其实本来,Gemini确实输出了视频中显示的回应。

可是, 视频的剪辑成效, 偏偏将会促使使用者针对Gemini的交互速率、精准度以及基础模式形成错误的认知。
进行石头剪子布模拟展示的示例, 与实际当中Gemini针对三张图片所开展的识别, 属于全然不一样的交互方式。
前者呈现出一种直观的反应态势, 用以表明Gemini能够即时性地捕捉住某一个抽象的想法;然而后者呢, 乃是历经精心设计且包含大量暗示内容的互动形式, 虽说从实际情况来讲确实展现出了Gemini的能力, 不过同时也存在着不少的局限性。
假设视频从起始之处便清晰表明, 就是那种指出“这属于研究人员去测试Gemini所呈现的一种具备风格化的演示”, 或许能够使得公众当中那些怀揣期待的人期望程度有所减低, 进而也就不会像当下此刻这么的失望。
并且, 那个视频的名称是「Hands-on with Gemini」, 这意味着视频里所呈现的便是与Gemini的原本模样进行互动。可是事实上, Gemini的参与力度是存在夸大成分的。
这视频里没明白讲出,视频之中所现的模型, 究竟属于Gemini的哪一个版本呢。
这段话的意思是, 这段视频,存在着真真假假的情况, 虽然它当中具有一些真实的内容, 然而它完全没有对现实进行呈现。
网友深表理解
那位宣称Perplexity AI的首席执行官的人, 针对网友所关注谷歌Gemini造假之视频, 进行所作所为是做出了客观方面的分析。
当前有两种激进派的人,是这样看待Gemini的发布:
想法极端之一: 「DeepMind进行了评估以及演示的伪造行为, Gemini的表现是糟糕的」。
极端看法2: OpenAI不行了, 谷歌又回来了, Bard将会靠着计算芯片的利润空间免费运行Gemini, 于此它能打败GPT。
实际的情形是, Gemini具备很酷的特质, 它身为首个能够切实与GPT - 4展开媲美的模型, 这属于谷歌切实达成的成就当中的一项, 特别是它仅仅只是一个密集型模型(原生模型)。
这次, 不得不说谷歌的市场营销手段实在是太过火了, 你要知道, DeepMind向来都热衷于进行高调的公关活动。
而谷歌视频演示的多模态能力开云app官方最新下载地址,实际上在一年内就能实现。

一位网友, 对此, 表达了深入程度的赞同, 有太多的人, 渴望给谷歌的头上, 扣上一顶「伪造」视频的黑色帽子。

有人表示, 对炒作行为完全理解, 毕竟, 谷歌针对微软OpenAI的反击, 晚了一步。

打败GPT-4,靠的是「作弊」
另外, 谷歌所发布的这个表格, 呈现出Gemini Ultra于多数标准基准测试里战胜了GPT - 4。

可是这种比较并不公平。
那86.4%分数的GPT-4, 是依据行业评估标准的, 也就是「5-shot」。
然而, Gemini Ultra百分之九十的得分, 是基于谷歌研究人员所开发的, 一种基于「32个样本的思维链」的方法。
对于同一个问题, Gemini Ultra会生成32个答案, 还会生成这些答案的推理, 之后, 模型会选择最常见的答案作为最终答案。
或许就是这种新方法,让Gemini能够更好地「推理」。
然而, 就运用行业标准5-shot MMLU的情形而言, GPT-4所取得的86.4%的结果, 要比Gemini Ultra的83.7%更高, 是这样的情况。
HuggingFace的技术主管Philipp Schmid, 特意从Gemini的技术报告里扒取了数据, 重新制作了一张新图, 情况是如果采用5-shot, Gemini的得分实际上是83.7%, 而不是90.0%。

而且, Gemini Ultra相比GPT-4仅存在几个百分点的优势, 然而GPT-4, 它是OpenAI差不多在一年前推出的产品。
有外媒The Information, 发布了一篇文章, 文章题目是《Gemini可能并不像谷歌说的那么好》, 该文表示, 谷歌的员工肯定是压力太大了, 原因在于, 他们采取了一些额外的措施, 使得Gemini看起来比竞争对手更出色。

倘若现实真的如同谷歌所宣称的那般, Gemini Ultra会于明年一月进行发布, 那么它有可能在不长的时间内就无法保持当前最先进的状态了。
要知道世界杯直播平台,OpenAI的GPT-5,应该已经在路上了。

似乎存在这么一个情况, 有内部知晓相关信息的人士对Sam Altman进行了提及, 询问他究竟还要将宝贝捂在手中到何时, 并且还质问为何不赶紧把宝贝拿出来?
网友试用体验
Gemini应我的请求, 绘画出一幅呈现如此情景的图, 情景为一个人驾驶着电动卡车, 处于树林之中进行露营 , 其生成的模样如下。

还是需要稍加修改,有待进步。

一位网友进行了基于Gemini Pro的Bard测试, 这位网友发出了该测试情况, 在测试中, 对于诸多事实类问题, 其结果存在错误。
他询问了两遍, 关于Bard给出172023年的获奖状况, Bard给出了两个不一样的错误获奖名单。

另一个网友又问了一个和翻译有关的问题,结果也不太对。

似乎它对语言中单词字数非常不敏感,经常会数错。

对于谷歌着重大力宣传的代码能力而言, 好像Bard的实际表现也并非足够出色, 莫非致使这种情况的原因是在Stackoverflow上不存在与之相对应的答案吗?

另外, 也存在其他人, 去效仿谷歌的举动, 致使GPT从MP4里提取视频帧, 随后对视频作出解释。
一开始, GPT自行从视频里提取帧, 紧接着, 网友上传6张与之对应的图片, 接着, 让GPT给出具体的解释。




Gemini时代来临了
身为负责并领导谷歌DeepMind的人, 即Demis Hassabis, 同样也是处于兴奋到难以抑制的状态,并且还表达声称「Gemini所处的时代已经到来了」。

于最新的Wired的采访里, Hassabis直接表明, 谷歌在今日所宣布的人工智能模型Gemini, 为人工智能开拓出了一条未曾被实践过的道路, 极有可能会带来意义重大的全新突破。
身为神经科学家以及计算机科学家, 多年之际, 历来我都渴盼着去试着打造一种新型代的人工智能模型, 而这些模型的灵感源自我们全部感官互动以及领会世界的方式。
「Gemini是向这种『多模态』模型迈出的一大步」。

他接着讲道, “现今为止, 绝大多数模型是借助训练单个的模块, 随后把它们拼接起来, 以此达成多模态能力”。
某些任务而言, 就此来讲还行, 然而于这多模态空间当中, 深度复杂推理之事没法去做。
这似乎是在暗指OpenAI的技术。
我们都清楚, GPT的多模态能力, 是借由GPT - 4、DALL·E 3、Whisper多个模型组合达成的。
在今年 5 月, 于那次谷歌开发者大会 I/O 之上, 劈柴首次进行官宣表明, 谷歌正在开展训练工作, 针对一个全新的且更为强大的 PaLM 继任者, 它被命名为 Gemini。

Gemini的取名有着深层寓意, 其是为了纪念谷歌大脑与DeepMind两个团队实验室的融合, 且向美国宇航局Gemini表达敬意。
7个月的时间,关于Gemini的各种爆料也是层出不穷。
当前, 谷歌凭借令人惊叹的速度, 成功研发出Gemini, 着实于年底之前展开了一次极具分量的反击。
Hassabis称, 新模型具备处理不同形式数据的能力, 其中涵盖文本之外的数据, 而这属于该项目自起始便愿景的关键部分。
很多人工智能研究者觉得, 能够运用不一样格式的数据是自然智能的一项关键能力, 然而这恰恰是机器所欠缺的。
GPT等AI大模型, 因从强大的互联网数据里学习, 所以获得该灵活且强大的泛化能力, 并拥有了这种能力。
但是, 哪怕GPT与类似的聊天机器人能够运用同样的技巧, 去讨论或者回答有关物理世界的问题, 然而这种表面上的理解很快就会瓦解。

很多人工智能方面的专家觉得, 要是想让机器智能获得重大进展, 那就得在物理现实里给AI系统赋予身体, 也就是所谓的「具身」。
Hassabis宣称, 谷歌DeepMind一直在开展研究, 探究怎样把Gemini跟机器人技术相融合, 从而能够与世界作物理层面的互动。
对于达成真正的多模态而言, 你所需涵盖的是触觉以及触觉反馈, 把这些基础型模型运用于机器人技术存在诸多希望, 我们正予以大力探索。
目前,谷歌已经朝着这个方向迈出了一小步。
5月, 那家公司宣告了一款称呼为Gato的AI模型, 它具备学习去执行各类任务的能力, 其中涵盖玩Atari游戏, 给图像添加字幕这样的事, 还有运用机械臂去堆叠积木这种现象。
今年7月, 谷歌有个RT - 的机器人模型, 它借助语言模型, 以此来助力机器人去理解动作, 进而执行动作。

想要让 AI 智能体变得更可靠, 那么, 为其供给动力的算法, 就得更为智能才行。
前段时间, OpenAI被曝出有个开发项目, itled是「Q*」, 网友们纷纷作出猜测, 有可能运用了「强化学习」而这是AlphaGo的核心技术。
然而, Hassabis表明, 谷歌当下正依据相似的思路开展研究。
像今日所推出的模型那般, AlphaGo的进步有望助力改进未来模型的规划以及推理, 我们正致力于开展一些有意思的创新工作, 旨在把它引入Gemini的未来版本之中。
「明年,你将会看Gemini超强进化」。
看来,正如网友所说,我们离GPT-5降临的那一天也不远了。

这会儿, 谷歌存在Gemini, 微软具备GPT, Meta拥有LLaMA, Anthropic存有Claude, 这般情形是否就表明苹果iPhone时代已然走向终结境地了呢?

参考资料:
https://twitter.com/parmy/status/1732811357068615969
https://techcrunch.com/2023/12/07/googles-best-gemini-demo-was-faked/
https://developers.googleblog.com/2023/12/how-its-made-gemini-multimodal-prompting.html
#鲲鹏计划#
还木有评论哦,快来抢沙发吧~