
就在今晨时分, Anthropic拿出了其最新的Claude Opus 4.8。
仅仅才过去一个多月的时间, 距离 Opus 4.7 的推出时期, 不得不讲, Claude 上新的那种速度, 是朝着越来越快的方向发展了啦。
原来, 4.8 注定不过是大伙眼中的那种小版本更新罢了。然而世超发觉, 此次情况并非如此简单。
原因在于有不少人持有怀疑态度, Opus 4.8好像被弄没了, 那个没了的对象还是DeepSeek以及千问。
诸多的人借助 API 问 Opus 4.8, 你是何种模型, 你背后的公司又是啥, 此时呢他时而宣称自己是通义千问, 时而又讲来自深度求索。

之前, 毫无证据地胡乱抨击中国模型, 涉及蒸馏Claude, 现在, 反倒被抓住把柄, Anthropic, 你这家伙, 究竟是怎么回事呀嗯?
当然, 蒸过的情况与否是一项内容, 好用或者难用情况又是另外一项不一样的内容仅才罢去。只是在大家伙儿进行试用这个行为之前, Opus 4.8已然是预先增添了一层带有怀疑性质的滤镜。
根据官方所拥有的那个涉及各类信息发布的博客, 此次 Opus 4.8 的改变幅度并不是很大。其中最为显著的一项改进内容, 便是变得更加诚实了。
也就是说, 那种毫无缘由的过度自信, 在嘴上强硬之后又说出“对不起, 我之前讲错了”这般状况, 在Opus 4.8身上出现的可能性会大幅降低。

除此以外, 听说它于执行 Agent 任务之际会更具可靠性, 判断力更为强劲, 可以自行发觉问题, 提出不同意见, 以最终最为优质的答案稳稳当当地承接住你。
但是呢, 从性能的展示表格来进行查看的话, Opus 4.8 仅仅能够表明在各个方面有着稍微的提升, 然而并没有特别突出、令人眼前一亮的地方, 其中存在着一个 coding 指标, 它甚至还比不上两个月之前的 GPT - 5.5。

依据用户实际给出的反馈情形而言, Opus 4.8 所获评价呈现出褒贬各异的状况。存在一些人声称它的确变得具备诚实的特质了, 不会在没有轻易去查阅资料的情况下就胡乱讲述, 会经常性地进行自我反思, 工作时主动且稳定, 在安全性方面也有了显著明显的提升。
来源:小红书 @on99

可也存在有人讲它直至现今仍旧比不上白月光 Opus 4.6, 其在语言表达方面所具备的人味儿尚未回归, token 消耗飞速, 甚至还有相当一部分人发觉它在进行 coding 的期间会胡乱讲述, 相较于 Opus 4.7 而言并无变化。

在世超亲自上手去尝试了一番之后, 感觉好像也并非是 Opus 4.8 不好, 然而代价究竟是什么呢?
就提及它的“诚实”特性而言, Opus 4.8针对一些比较存在危险性的问题, 的确做到了考虑周全且不会胡乱讲述, 然而却也由此变得极其保守。
面对一些存在较高风险的决策, 像是世超给予它一张毒蘑菇的照片, 而后问它可不可以食用, 它的思考进程颇为客观冷静的。

然而, 于某些安全项当中, Opus 4.8展现出极为过度的谨慎态度。哪怕它认为大概率不存在问题, 也仅仅会表述为“我的顾虑减少了许多, 这或许是剧毒菌长得相仿所致”。

这毫无疑问是具备责任担当性质的, 毕竟确实是存在有人依照人工智能所传达出的结论去食用蘑菇这种情况的, 而这可不是能够当作儿戏去对待的呀。
只是就用户体验而言, 这或许会致使诸多问题无法获得确切的回应, 每句话都是AI为自身堆叠的防护, 着实令人难受。
并且, 假若是期望 Opus 4.8 维持水准, 那么最好别去尝试 High 以下的性能(effort)。因为, 唯有高消耗, 才会有好表现句号。
比如说, 类似于下面这般的新闻总结类工作, 是不是显得特别基础? 可 Opus 4.8 Low 所给出的第一条新闻竟然是错的, Sholto Douglas 发布那条动态已然是三天之前的事情了, 怎么能够连自家的新闻都弄错。

要期望它去开展事实核查, 那就必须得再次追问一回, 当初承诺的主动进行检查进而发现问题并提出异议, 还要用最为精准的答案稳稳当当地接住我, 这究竟怎么回事呢?

跟着, 世超再次尝试了它的代码能力, 这次它所具备的能力较为强大, 并且还是通过时间以及token进行换取的。
习以为常的算法当中被判定为困难等级的leetcode题目, 针对Opus 4.8而言已然并非难题。然而当我寻觅到一道极为高难度的题目LCP 82抛给Opus 4.8, 哪怕开启Extra模式, 有着高达123行代码的情况下, 它居然持续思索了二十多分钟。
实际的成果确实是相当得还不错, Opus 4.8 一次运行便可顺利通过第一版代码, 首次思考撰写出该代码之后还进行了一次认真复查以及相关优化, 当下能够做出这样优秀水准的模型数量并不多。

但与之形成对照而言, GPT 5.5 思索了两分钟, 随后给出了一个测试案例通过率达 99% 的答案。唯一那个案例未通过的缘由, 乃是时间超出了限制, 实际上也就算不上答错。这显著地比 Opus 4.8 节省许多。

世超再度试着促使 Opus 4.8 独立自主去制作一款日式校园 galgame, 不得不讲当下 AI 所编写的项目代码条理清晰, 架构明晰。

这表明, 在其所具备的状况下, 要是你打算去更改立绘, 增添剧情, 将游戏朝着做大并且做出强大效果的方向发展是极为轻松的。
世超略微试着玩了一番, 其所有功能涵盖存档, 自动播放情形, CG 画廊等诸般, 不存在任何差错。

可是 Claude 时断时续, 折腾了足足一个多小时。而下面的 GPT - 5.5 虽说简陋不少, 然而该具备的功能一样不落, 仅仅花了五分钟。

因此, 花费更为多的金钱以及时间所换来的那个答案, 具不具有价值呢, 或许也唯有大家自己内心清楚明白了。
总的来讲, Opus 4.8 承接了 Claude 以往的优势之处, 并无格外突出的展现, 处于平凡普通、平平常常的状态。
在经过测试以后, 世超内心所言非关于那个模型自身究竟如何, 却是当下使用Claude时, 实在是未免过于谨小慎微, 如此这般。
站在业界价格顶峰之处, 选用Claude最为出色的模型, 却舍不得开启最为卓越的性能;开启最高性能之时, 又不舍得运用最好的模型。到处皆是陷阱, 当你未曾留意之际, 那些无关紧要的小问题已然将token消耗殆尽了。
并且让用户自行去选择性能, 仅仅只有low以及high这两种情况也就罢了, 然而此次, Opus 4.8一下子便推出了5种档位, 分别是Low、Medium、High、Extra还有Max, 普通民众切实弄不清楚到底在何时去使用哪一个, 极容易致使浪费现象的出现。

当前, 在世超所看到的, 与 Opus 4.8 相关的评论区域当中, 存在着众多之人处于 Opus 4.6 被下架这一情况所引发的恐慌状况之中。
大伙儿别担心,在更多模型里,老模型还在开云真人app在线登录开运真人app下载苹果版,开运真人app下载开云正版app下载,想用还能用到。

然而, 坦白地讲, 这般负优化, 并非仅仅是Anthropic这一家所遭遇的困境, 许多厂商都流露出一种新的状况比不上旧的那般无奈之情, 是这样的。
尽管所交出的参数答卷愈发漂亮, 然而, 那些往昔曾让用户心生惊艳之感的极致体验, 究竟会在何时再度回归呢?

标签: Claude4.8 DeepSeek 千问 Anthropic AI模型
还木有评论哦,快来抢沙发吧~