埃隆·马斯克的“令人恐惧的聪明”聊天机器人有多聪明?

埃隆·马斯克的“令人恐惧的聪明”聊天机器人有多聪明?

Fazil Dzhyndzholiia

xAI推出了一种新的语言模型Grok 3,该公司的创始人埃隆·马斯克称其为“地球上最聪明的人工智能”。聊天机器人的创造者声称,新版本在多个方面显著超越了之前的版本:它处理了更大规模的训练数据,并具有新的自我纠正机制。Grok 3的演示版本 今天上线,首批评测已经出现。

新特点

Grok 3的主要优势是能够访问增强的计算资源。聊天机器人使用Colossus超级计算机进行训练:在初始阶段,其创造者使用了100,000个 NVIDIA H100 GPU,后来将这个数字翻倍。未来,计算能力预计将增加五倍。

Grok 3包含内置的自我纠正机制。人工智能分析自己的回答,将其与参考答案进行比较,然后进行调整。有趣的是,聊天机器人会因准确的回答而获得“奖励”,而因所谓的“幻觉”——不正确或虚构的信息而受到“惩罚”。

根据xAI代表的说法,Grok 3在数学、自然科学和编程方面比其他模型更聪明。使用盲测来评估回答质量,这意味着用户不知道哪个聊天机器人在回复。

在Grok 3的发布会上,xAI还展示了Deep Search——一种“下一代”搜索代理,能够快速在线查找和分析信息。虽然竞争模型中也存在类似功能,但xAI声称Deep Search更为准确。

此外,Grok 3很快将获得语音接口,允许用户与其互动,就像与真实的人交谈一样。其声音据说比竞争模型更自然、更富表现力。

{poll4570}

实际表现如何

X社交网络上的用户可以通过每月50美元订阅X Premium+来访问新的聊天机器人。虽然目前对Grok 3的早期评测不多,但一些评测引人注目。

例如,一位名为Penny2x的用户 分享 他们使用新AI版本创建了一个完全功能的游戏:

Grok 3刚刚发布。你不会相信,我已经创建了一个游戏。

(我今天早上获得了提前访问权限)。

这个游戏是100%由GROK创建的,我只是告诉它我想要什么,并把代码放在正确的位置。

我只需不断要求调整,它就会不断生成一个我可以放在桌面上并运行的单个文件。

这个游戏将永远改变。 我最近一直在与其他主要人工智能构建者的人工智能进行大量开发,试图决定我最喜欢哪个,而grok是一个参与者。我没有官方基准,也还没有设置API,所以这不是我正常的工作流程,但它的能力感觉与Sonet、4o或其他任何东西一样强大。

在接下来的几天里,我会将其设置为我在NVIM中的工作流程的一部分,并投入实际工作。

这真是不可思议。我们生活在未来。现在每个人都是开发者。

更有趣的是OpenAI联合创始人Andrej Karpathy对Grok 3的看法。他也 测试了 这个新的语言模型。根据Karpathy的说法,在某些领域,这个聊天机器人与顶级竞争对手相媲美:

...Grok 3显然拥有一流的思维模型(“思考”按钮),在我关于《卡坦岛》的问题上表现出色:

“创建一个展示六边形网格的桌游网页,就像在《卡坦岛》游戏中一样。每个六边形网格从1到N编号,其中N是六边形瓦片的总数。使其通用,以便可以使用滑块更改“环”的数量。例如,在卡坦岛中,半径是3个六边形。请制作一个单一的HTML页面。”

很少有模型能可靠地做到这一点。顶级的OpenAI思维模型(例如,o1-pro,每月200美元)也能做到,但DeepSeek-R1、Gemini 2.0 Flash Thinking和Claude都做不到。

Andrej Karpathy也欣赏Grok 3的决心:

我喜欢这个模型在被要求时会尝试解决黎曼假设,类似于DeepSeek-R1,但与许多其他立刻放弃的模型(o1-pro、Claude、Gemini 2.0 Flash Thinking)不同,它们只是说这是一个伟大的未解决问题。我最终不得不停止它,因为我觉得有点对不起它,但它表现出了勇气,谁知道,也许有一天...

然而,也有一些缺点。深度搜索代理提出了一些担忧:

…该模型似乎默认不喜欢将X作为来源引用,尽管你可以明确要求它。几次我发现它幻想出不存在的URL。几次它说了一些我认为不正确的事实,并且没有提供引用(它可能根本不存在)。

总之,Andrej Karpathy指出,根据初步印象,Grok 3已接近OpenAI顶级模型的水平,如o1-pro(每月200美元),甚至稍微超越DeepSeek-R1和Gemini 2.0 Flash Thinking。考虑到xAI团队大约一年前从零开始开发这个人工智能,进展令人印象深刻。然而,在确定这个聊天机器人是否真正值得“最聪明”这个称号之前,还需要更全面的测试。

偏见问题

众所周知,埃隆·马斯克积极参与美国政治生活,并公开表达他的观点。 一些互联网用户担心Grok 3可能也会推动某些叙述。

这些担忧并非毫无根据:马斯克分享了一张截图,显示聊天机器人批评某新闻媒体,同时称赞X为最可靠的信息来源。尽管Grok 3被定位为一个审查最少的产品,但许多人认为人工智能在判断上应该保持中立。

***

无论如何,另一个有前景的语言模型的推出标志着人工智能竞赛中的一个重要里程碑。竞争越激烈,进步就越快。

你对Grok 3有什么看法?在评论中分享你的想法。

{poll4569}
    关于作者
    评论0