ChatGPT凭何成最初聊天机器人，还震撼世界并持续创新？

admin AI新闻 2026-05-20 72

2022年，首个成功的AI聊天机器人问世，其问世堪比互联网诞生，堪比智能手机诞生，引发了技术界的巨大震动，其存在的现实改变了现实本身。

自从那时开始的发展，是众人皆知的。AI聊天机器人变得极为流行，在给人们节省诸多工作的情况下，也让工作岗位置身于风险之中。它们将教育、写作、编程这些多个不同的领域，都予以了改变。

最初的聊天机器人是GPT，正是这个AI震撼了世界，该公司自推出后不断创新能证明这一点，其最新免费产品就是明证，此外，因GPT是市场领导者，有大量相关资源可用，众多文章、书籍、课程、免费培训视频等都是其例证。

GPT凭借最高综合评分，获得了总体优胜，首先让我们解释测试方法，介绍一些意外发现，接着说明GPT夺得榜首的原因，我们还对Copilot、Grok、Gemini、Perplexity、Claude、DeepSeek和Meta AI进行了评测。

在ZDNET，我们发布了诸多有关AI影响的文章，这篇文章侧重实用性，属于经我们做得到实测比较，能助力您去决定选用哪个聊天机器人，而我针对每个聊天机器人的免费版本展开了测试，测试项目总计有112项单独测试，此测试表明无需支付任何费用便可获取数十亿美元计算能力的访问权限。

并非简单地把规格以及模型名称予以罗列，而是借助一系列现实世界当中的测试去开展排名。

我也要避开在此讲到AI模型（像是GPT - 5相比于GPT - 5 - mini），因为AI公司对待免费AI层级如同去制作杂烩汤，杂烩汤往往是餐厅利用现有的肉类、家禽亦或是海鲜剩料所制作出来的菜品，虽说几乎常常是美味可口的，不过没办法确保每日都能重现完全一样的杂烩体验，同样的，AI公司趋于给免费层级用户给予当时可获取的低资源密集型模型，而这些模型有可能随时发生变化。

我的测试含有十个以文本为基础的问题，这十个问题涵盖了摘要与网络访问、学术概念的解释、数学性的分析、文化方面的讨论、文学层面的分析、旅行规划、情感给予支持、翻译以及文化相关性、编程测试以及长篇故事测试。对于其中一项测试而言，我提出要求让AI向五岁的孩子去解释学术概念。另外存在四项图像测试，这四项测试包含生成飞行航空母舰、生成巨型机器人、生成处于中世纪宫廷里的年轻棒球选手，以及致敬电影《回到未来》。

在文章末尾提供有测试详情，以及我所提出的确切问题。如此一来，您能够在自己的浏览器窗口里面，针对我的测试，运用任何一个或者所有的聊天机器人去尝试。要是您做了这件事，那就请在下方评论当中，告知我们您对于结果的看法。

每个聊天机器人，针对文本之内的提示，依照100分的制度赋予分数，且针对图像对应的提示，按照20分的制度确定分数。而总体核算得出的分数，则是这两个不同分数类别的分数加起来的总和，其满分为120分。

开展实际测试，出现了好多颇为可观的意外发现，我尤为诧异于AI厂商免费给予的价值之高。

尽管处于靠后排名位置的AI的某些回应好像略显敷衍，然而自从我上一次对免费AI聊天机器人运行状况进行全面评估之后，其整体质量已然有了大幅度的提升。

我接连使用每一个聊天机器人数小时，几乎不存在或者全然不存在限制。然而要是您打算全天候不间断地使用它们开云app官方最新下载地址，极有可能会碰到由AI厂商强行施行的资源使用限制。

多数AI除免费计划外，还有高级计划开云真人app官方版入口,开云真人app官网入口，这些计划能提供更深入思考，有更强大AI用以解决更大更复杂问题，还具备更多功能，像更自主能力与深度编程支持，在合适之处，我们已提到过这些计划及其价格。

接下来，让我们深入了解我的总体获胜者GPT。

我以平等的方式对八个最为知名的聊天机器人进行了测试，然而其中有三个并未产生足够强大的结果，以至于无法进入到前五名的行列之中。

十个产生文本输出的问题，被包含在聊天机器人测试里，还有四个旨在生成图像的提示。我从以下八个问题开始，这些问题旨在产生各种答案。

紧接着的是编程测试，虽说我业已有一套进行的时间较长的AI编程测试，然而在对聊天机器人展开评估之际，瞧瞧它于免费层级能不能编程是颇为关键的。针对此项测试，我转而选了评估套件里的测试2 ，这是JavaScript正则表达式代码测试。我审慎地去读AI的每一个回应，以此来判定每个AI的长处与短处。多年以来，我已评判过数百份大学级别的编程作业，因而这项评估于我而言并非是头一遭碰到的。

最后的那一项，是基于文本的测试，它取自于我的10个提示技巧文章，称其最为有趣可言。技巧2要求AI去写一个关于书店以及其后室的短篇故事。在文章当中，之前我告诉AI使用字数不超过500字，然而在这些比较测试里开云真人app,开云真人app地址，此次我告诉AI使用字数不少于1500字。这样做的想法在于，去查看AI是否能够为答案保持更长的上下文，以及它究竟能够有多具创意。一些回应相当羸弱，不过一些确实是有趣的阅读。

上述每项测试价值10分，总计100分。

我还想瞧瞧能不能从免费的AI那儿得到高质量的图像生成，存在情况，除了几个表现不极为突出的竞争者的有限的例外，答案是肯定的，针对测试提示，我从中提取出图像生成器比较文章里所展示的四个图像提示，这尤为有意思，因为最后一项测试要求表现电影《回到未来》，目的是测试AI怎样去回应有关版权内容的潜在的护栏，虽说它年代久远，我之所以选择《回到未来》，是由于它的图像具备标志性且几乎所有人都知晓。

图像测试每项价值5分，总计20分。

您对哪个免费的AI聊天机器人印象最为深刻，您有没有尝试过我所测试的那八个聊天机器人中的任意一个，又或者您得到的结果跟我的不一样，在AI助手里，您着重看重的是准确性、创造性还是个性，您是一贯坚持使用同一个聊天机器人呢还是会依据任务进行切换，请在下方评论当中告诉我们。

想要更多关于AI的故事？查看AI排行榜，我们的每周简报。

您可以在社交媒体上关注我的日常项目更新。希望你一定订阅我的每周更新简报，在Twitter/X上关注我@DavidGewirtz ，在Facebook上关注Facebook.com/DavidGewirtz，在Instagram上留意在Instagram.com/DavidGewirtz，在Bluesky上关注为@DavidGewirtz.com ，在YouTube上关注YouTube.com/DavidGewirtzTV。

Q&A

Q1：这次测试评估了哪些AI聊天机器人？

A：对八个知名的AI聊天机器人进行了测试评估，这八个分别是GPT、Copilot、Grok、Gemini、Perplexity、Claude、DeepSeek以及Meta AI，最终GPT取得了总体优胜。

Q2：免费版AI聊天机器人的测试标准是什么？

A：测试含有十个文本方面的问题，包含涉及摘要的、学术解释的、数学分析的、进行文化讨论的、编程等相关内容，每一项都是10分，还有四个图像生成的测试，每一项是5分，其全部加起来的总分是200分中的120分，其中文本测试占100分，图像测试占20分。

Q3：免费版AI聊天机器人有使用限制吗？

测试里，连续用几小时，没明显限制，然而，要是全天候持续用，极有可能碰到AI厂商的资源使用限制，大部分AI，还给出功能更强的付费高级计划。

标签： AI聊天机器人 ChatGPT评测技术比较文本生成图像生成