谷歌Gemini宣传视频被指造假,并非实时对话

admin AI新闻 14

谷歌的宣传视频,竟然作假了?

昨天,在谷歌发布的Gemini的宣传视频当中, 有一段时长为6分钟的一镜到底的互动视频, 所有人都被它惊艳到了。

谷歌Gemini宣传视频被指造假,并非实时对话-第1张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

在一天的时间范围之内, 出现了高达720万那样数量的播放量。网友们发出惊叹之声, Gemini看上去仿佛恰似一个能够在任何时候, 对于所有事情, 无论是大事还是小事, 都可以朝你进行详尽解释的朋友。

谷歌Gemini宣传视频被指造假,并非实时对话-第2张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

视频里看上去, 仿佛Gemini能够在当下立刻察觉到人类的举动, 而且紧接着直接给出语音方面的回应。

然而开云app在线入口,有越来越多的人质疑demo的真实性。

彭博社的Parmy Olsen,第一个质疑视频造假。

谷歌Gemini宣传视频被指造假,并非实时对话-第3张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

随后,谷歌官博也放出了解释——

是的,视频的确有后期制作和剪辑的成分。

按照官方所公布的一份技术文档来看, Gemini的所有这些交互, 并非能够实时被感知到, 而是借助提示词询问出来的, 例如:

谷歌Gemini宣传视频被指造假,并非实时对话-第4张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

视频中显示,似乎Gemini能直接看懂人类在玩石头剪子布,

可不嘛, 实际的情形是, 朝着Gemini上传一张手呈剪刀状的照片, 询问它瞧见了啥。随后借助人声将它的回应念了出来。

有关于石头剪子布的视频, 是将三张照片逐一传递给Gemini, 使其依据这三张照片连贯起来进行推理, Gemini直接给出回应称, 这是在玩石头剪子布。

所以, 事实上并非Gemini看懂了一段视频, 它仅仅看懂了三张图片, 进而做出了推理而已。

谷歌Gemini宣传视频被指造假,并非实时对话-第5张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

人类向Gemini传递了一张呈现「剪刀」模样的照片 , Gemini回应称: 「这看上去仿若伸出了两根指头的手势 , 通常来讲这个手势意味着数字2」。而后人类又传送了3张展示「石头剪刀布」手势的照片 , 询问Gemini这三张照片组合到一块所表达的含义是什么。Gemini这才说出这是「石头剪子布」游戏。

同样, 在识别行星的那个演示当中, 视频所营造出来的那种感觉, 就好像是直接去问Gemini说, 这个顺序是正确的吗, 然而它给出的回答却是不正确的, 正确的顺序应该是太阳, 然后是地球, 最后是土星。

谷歌Gemini宣传视频被指造假,并非实时对话-第6张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

但事实上, 是谷歌给Gemini一句prompt, 这句prompt是「这个顺序正确吗? 请考虑它们与太阳的距离, 并且解释理由」, 之后, Gemini才回答了那样一句话。

谷歌Gemini宣传视频被指造假,并非实时对话-第7张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

有不少网友同样觉得, 谷歌这般刻意地进行误导性呈现, 反倒致使用户会去猜疑, 究竟模型的实际能力究竟有多厉害。

谷歌Gemini宣传视频被指造假,并非实时对话-第8张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

毕竟, 产品是不可能一直停留在宣传视频之处的, 终究都是要交到用户手上进而去体验的。

这个视频存在的最大误导性之处在于, 它好像致使用户产生一种错觉, 以为Gemini可以在实时状态下读取视频所包含的信息, 而且还能够凭借自身的理解, 直接对用户的问题进行推测, 进而直接给出回复。

而实际的情形是, 谷歌的员工, 是借助读取图片, 以及具备良好的提示词工程, 才使得Gemini生成这些回复的。

虽说从技术原理的角度来讲, 存在着能够读取图片的情况, 并且存在着能够看懂视频的情形, 但是这二者之间, 并不存在技术层面的鸿沟。

然而呢, 从产品达成落地的那个角度去看, 将读取图片近似等同于能够实时看懂视频, 而且还过度地着重实时性进而压缩了交互过程当中的延迟, 这样的情况差不多已然能够被理解成是虚假宣传了。

而是否需要良好的提示词工程,更是评价模型能力的关键问题。

谷歌所做的这些「后期加工」呀, 这仅仅能够表明, 他们可是极其渴望让Gemini有一种比行业内其他竞争对手看上去要好出许多许多的感觉!

终究, 谷歌起了个大早却赶了个晚集, 在大模型方面着实太需要流量了。

在YouTube描述范围内, 谷歌也认可了那个视频被处理为延迟状态, 如此一来便能够让模型显得响应速度相较于实际情形更快。

Olson说道, 谷歌所开展的营销极为巧妙 , 因而实际上我们确实务必在AI炒作当中更为谨慎 , 维持清醒的头脑以及判断力。

谷歌Gemini宣传视频被指造假,并非实时对话-第9张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

谷歌,令人失望了

昨天, Gemini的演示一经呈现, 瞬间便以意想不到的态势让众人感到惊艳, 这本该算作是多模态理解领域里那一场令人心潮澎湃的展示。

现今被揭发伪造,明显会致使用户对谷歌的诚信丧失信心, 谷歌这么行事, 着实是所得不偿所失。

其实本来,Gemini确实输出了视频中显示的回应。

谷歌Gemini宣传视频被指造假,并非实时对话-第10张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

可是, 视频的剪辑成效, 偏偏将会促使使用者针对Gemini的交互速率、精准度以及基础模式形成错误的认知。

进行石头剪子布模拟展示的示例, 与实际当中Gemini针对三张图片所开展的识别, 属于全然不一样的交互方式。

前者呈现出一种直观的反应态势, 用以表明Gemini能够即时性地捕捉住某一个抽象的想法;然而后者呢, 乃是历经精心设计且包含大量暗示内容的互动形式, 虽说从实际情况来讲确实展现出了Gemini的能力, 不过同时也存在着不少的局限性。

假设视频从起始之处便清晰表明, 就是那种指出“这属于研究人员去测试Gemini所呈现的一种具备风格化的演示”, 或许能够使得公众当中那些怀揣期待的人期望程度有所减低, 进而也就不会像当下此刻这么的失望。

并且, 那个视频的名称是「Hands-on with Gemini」, 这意味着视频里所呈现的便是与Gemini的原本模样进行互动。可是事实上, Gemini的参与力度是存在夸大成分的。

这视频里没明白讲出,视频之中所现的模型, 究竟属于Gemini的哪一个版本呢。

这段话的意思是, 这段视频,存在着真真假假的情况, 虽然它当中具有一些真实的内容, 然而它完全没有对现实进行呈现。

网友深表理解

那位宣称Perplexity AI的首席执行官的人, 针对网友所关注谷歌Gemini造假之视频, 进行所作所为是做出了客观方面的分析。

当前有两种激进派的人,是这样看待Gemini的发布:

想法极端之一: 「DeepMind进行了评估以及演示的伪造行为, Gemini的表现是糟糕的」。

极端看法2: OpenAI不行了, 谷歌又回来了, Bard将会靠着计算芯片的利润空间免费运行Gemini, 于此它能打败GPT。

实际的情形是, Gemini具备很酷的特质, 它身为首个能够切实与GPT - 4展开媲美的模型, 这属于谷歌切实达成的成就当中的一项, 特别是它仅仅只是一个密集型模型(原生模型)。

这次, 不得不说谷歌的市场营销手段实在是太过火了, 你要知道, DeepMind向来都热衷于进行高调的公关活动。

而谷歌视频演示的多模态能力开云app官方最新下载地址,实际上在一年内就能实现。

谷歌Gemini宣传视频被指造假,并非实时对话-第11张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

一位网友, 对此, 表达了深入程度的赞同, 有太多的人, 渴望给谷歌的头上, 扣上一顶「伪造」视频的黑色帽子。

谷歌Gemini宣传视频被指造假,并非实时对话-第12张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

有人表示, 对炒作行为完全理解, 毕竟, 谷歌针对微软OpenAI的反击, 晚了一步。

谷歌Gemini宣传视频被指造假,并非实时对话-第13张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

打败GPT-4,靠的是「作弊」

另外, 谷歌所发布的这个表格, 呈现出Gemini Ultra于多数标准基准测试里战胜了GPT - 4。

谷歌Gemini宣传视频被指造假,并非实时对话-第14张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

可是这种比较并不公平。

那86.4%分数的GPT-4, 是依据行业评估标准的, 也就是「5-shot」。

然而, Gemini Ultra百分之九十的得分, 是基于谷歌研究人员所开发的, 一种基于「32个样本的思维链」的方法。

对于同一个问题, Gemini Ultra会生成32个答案, 还会生成这些答案的推理, 之后, 模型会选择最常见的答案作为最终答案。

或许就是这种新方法,让Gemini能够更好地「推理」。

然而, 就运用行业标准5-shot MMLU的情形而言, GPT-4所取得的86.4%的结果, 要比Gemini Ultra的83.7%更高, 是这样的情况。

HuggingFace的技术主管Philipp Schmid, 特意从Gemini的技术报告里扒取了数据, 重新制作了一张新图, 情况是如果采用5-shot, Gemini的得分实际上是83.7%, 而不是90.0%。

谷歌Gemini宣传视频被指造假,并非实时对话-第15张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

而且, Gemini Ultra相比GPT-4仅存在几个百分点的优势, 然而GPT-4, 它是OpenAI差不多在一年前推出的产品。

有外媒The Information, 发布了一篇文章, 文章题目是《Gemini可能并不像谷歌说的那么好》, 该文表示, 谷歌的员工肯定是压力太大了, 原因在于, 他们采取了一些额外的措施, 使得Gemini看起来比竞争对手更出色。

谷歌Gemini宣传视频被指造假,并非实时对话-第16张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

倘若现实真的如同谷歌所宣称的那般, Gemini Ultra会于明年一月进行发布, 那么它有可能在不长的时间内就无法保持当前最先进的状态了。

要知道世界杯直播平台,OpenAI的GPT-5,应该已经在路上了。

谷歌Gemini宣传视频被指造假,并非实时对话-第17张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

似乎存在这么一个情况, 有内部知晓相关信息的人士对Sam Altman进行了提及, 询问他究竟还要将宝贝捂在手中到何时, 并且还质问为何不赶紧把宝贝拿出来?

网友试用体验

Gemini应我的请求, 绘画出一幅呈现如此情景的图, 情景为一个人驾驶着电动卡车, 处于树林之中进行露营 , 其生成的模样如下。

谷歌Gemini宣传视频被指造假,并非实时对话-第18张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

还是需要稍加修改,有待进步。

谷歌Gemini宣传视频被指造假,并非实时对话-第19张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

一位网友进行了基于Gemini Pro的Bard测试, 这位网友发出了该测试情况, 在测试中, 对于诸多事实类问题, 其结果存在错误。

他询问了两遍, 关于Bard给出172023年的获奖状况, Bard给出了两个不一样的错误获奖名单。

谷歌Gemini宣传视频被指造假,并非实时对话-第20张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

另一个网友又问了一个和翻译有关的问题,结果也不太对。

谷歌Gemini宣传视频被指造假,并非实时对话-第21张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

似乎它对语言中单词字数非常不敏感,经常会数错。

谷歌Gemini宣传视频被指造假,并非实时对话-第22张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

对于谷歌着重大力宣传的代码能力而言, 好像Bard的实际表现也并非足够出色, 莫非致使这种情况的原因是在Stackoverflow上不存在与之相对应的答案吗?

谷歌Gemini宣传视频被指造假,并非实时对话-第23张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

另外, 也存在其他人, 去效仿谷歌的举动, 致使GPT从MP4里提取视频帧, 随后对视频作出解释。

一开始, GPT自行从视频里提取帧, 紧接着, 网友上传6张与之对应的图片, 接着, 让GPT给出具体的解释。

谷歌Gemini宣传视频被指造假,并非实时对话-第24张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

谷歌Gemini宣传视频被指造假,并非实时对话-第25张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

谷歌Gemini宣传视频被指造假,并非实时对话-第26张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

谷歌Gemini宣传视频被指造假,并非实时对话-第27张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

Gemini时代来临了

身为负责并领导谷歌DeepMind的人, 即Demis Hassabis, 同样也是处于兴奋到难以抑制的状态,并且还表达声称「Gemini所处的时代已经到来了」。

谷歌Gemini宣传视频被指造假,并非实时对话-第28张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

于最新的Wired的采访里, Hassabis直接表明, 谷歌在今日所宣布的人工智能模型Gemini, 为人工智能开拓出了一条未曾被实践过的道路, 极有可能会带来意义重大的全新突破。

身为神经科学家以及计算机科学家, 多年之际, 历来我都渴盼着去试着打造一种新型代的人工智能模型, 而这些模型的灵感源自我们全部感官互动以及领会世界的方式。

「Gemini是向这种『多模态』模型迈出的一大步」。

谷歌Gemini宣传视频被指造假,并非实时对话-第29张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

他接着讲道, “现今为止, 绝大多数模型是借助训练单个的模块, 随后把它们拼接起来, 以此达成多模态能力”。

某些任务而言, 就此来讲还行, 然而于这多模态空间当中, 深度复杂推理之事没法去做。

这似乎是在暗指OpenAI的技术。

我们都清楚, GPT的多模态能力, 是借由GPT - 4、DALL·E 3、Whisper多个模型组合达成的。

在今年 5 月, 于那次谷歌开发者大会 I/O 之上, 劈柴首次进行官宣表明, 谷歌正在开展训练工作, 针对一个全新的且更为强大的 PaLM 继任者, 它被命名为 Gemini。

谷歌Gemini宣传视频被指造假,并非实时对话-第30张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

Gemini的取名有着深层寓意, 其是为了纪念谷歌大脑与DeepMind两个团队实验室的融合, 且向美国宇航局Gemini表达敬意。

7个月的时间,关于Gemini的各种爆料也是层出不穷。

当前, 谷歌凭借令人惊叹的速度, 成功研发出Gemini, 着实于年底之前展开了一次极具分量的反击。

Hassabis称, 新模型具备处理不同形式数据的能力, 其中涵盖文本之外的数据, 而这属于该项目自起始便愿景的关键部分。

很多人工智能研究者觉得, 能够运用不一样格式的数据是自然智能的一项关键能力, 然而这恰恰是机器所欠缺的。

GPT等AI大模型, 因从强大的互联网数据里学习, 所以获得该灵活且强大的泛化能力, 并拥有了这种能力。

但是, 哪怕GPT与类似的聊天机器人能够运用同样的技巧, 去讨论或者回答有关物理世界的问题, 然而这种表面上的理解很快就会瓦解。

谷歌Gemini宣传视频被指造假,并非实时对话-第31张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

很多人工智能方面的专家觉得, 要是想让机器智能获得重大进展, 那就得在物理现实里给AI系统赋予身体, 也就是所谓的「具身」。

Hassabis宣称, 谷歌DeepMind一直在开展研究, 探究怎样把Gemini跟机器人技术相融合, 从而能够与世界作物理层面的互动。

对于达成真正的多模态而言, 你所需涵盖的是触觉以及触觉反馈, 把这些基础型模型运用于机器人技术存在诸多希望, 我们正予以大力探索。

目前,谷歌已经朝着这个方向迈出了一小步。

5月, 那家公司宣告了一款称呼为Gato的AI模型, 它具备学习去执行各类任务的能力, 其中涵盖玩Atari游戏, 给图像添加字幕这样的事, 还有运用机械臂去堆叠积木这种现象。

今年7月, 谷歌有个RT - 的机器人模型, 它借助语言模型, 以此来助力机器人去理解动作, 进而执行动作。

谷歌Gemini宣传视频被指造假,并非实时对话-第32张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

想要让 AI 智能体变得更可靠, 那么, 为其供给动力的算法, 就得更为智能才行。

前段时间, OpenAI被曝出有个开发项目, itled是「Q*」, 网友们纷纷作出猜测, 有可能运用了「强化学习」而这是AlphaGo的核心技术。

然而, Hassabis表明, 谷歌当下正依据相似的思路开展研究。

像今日所推出的模型那般, AlphaGo的进步有望助力改进未来模型的规划以及推理, 我们正致力于开展一些有意思的创新工作, 旨在把它引入Gemini的未来版本之中。

「明年,你将会看Gemini超强进化」。

看来,正如网友所说,我们离GPT-5降临的那一天也不远了。

谷歌Gemini宣传视频被指造假,并非实时对话-第33张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

这会儿, 谷歌存在Gemini, 微软具备GPT, Meta拥有LLaMA, Anthropic存有Claude, 这般情形是否就表明苹果iPhone时代已然走向终结境地了呢?

谷歌Gemini宣传视频被指造假,并非实时对话-第34张图片-世界杯直播-世界杯直播观看-官方最新链接-V3.6.9

参考资料:

https://twitter.com/parmy/status/1732811357068615969

https://techcrunch.com/2023/12/07/googles-best-gemini-demo-was-faked/

https://developers.googleblog.com/2023/12/how-its-made-gemini-multimodal-prompting.html

#鲲鹏计划#

标签: AI 谷歌 Gemini 宣传视频 造假

发布评论 0条评论)

还木有评论哦,快来抢沙发吧~