xAI推出了一种新的语言模型Grok 3,该公司的创始人埃隆·马斯克称其为“地球上最聪明的人工智能”。聊天机器人的创造者声称,新版本在多个方面显著超越了之前的版本:它处理了更大规模的训练数据,并具有新的自我纠正机制。Grok 3的演示版本 今天上线,首批评测已经出现。
Grok 3的主要优势是能够访问增强的计算资源。聊天机器人使用Colossus超级计算机进行训练:在初始阶段,其创造者使用了100,000个 NVIDIA H100 GPU,后来将这个数字翻倍。未来,计算能力预计将增加五倍。
Grok 3包含内置的自我纠正机制。人工智能分析自己的回答,将其与参考答案进行比较,然后进行调整。有趣的是,聊天机器人会因准确的回答而获得“奖励”,而因所谓的“幻觉”——不正确或虚构的信息而受到“惩罚”。
根据xAI代表的说法,Grok 3在数学、自然科学和编程方面比其他模型更聪明。使用盲测来评估回答质量,这意味着用户不知道哪个聊天机器人在回复。
在Grok 3的发布会上,xAI还展示了Deep Search——一种“下一代”搜索代理,能够快速在线查找和分析信息。虽然竞争模型中也存在类似功能,但xAI声称Deep Search更为准确。
此外,Grok 3很快将获得语音接口,允许用户与其互动,就像与真实的人交谈一样。其声音据说比竞争模型更自然、更富表现力。
X社交网络上的用户可以通过每月50美元订阅X Premium+来访问新的聊天机器人。虽然目前对Grok 3的早期评测不多,但一些评测引人注目。
例如,一位名为Penny2x的用户 分享 他们使用新AI版本创建了一个完全功能的游戏:
Andrej Karpathy也欣赏Grok 3的决心:
我喜欢这个模型在被要求时会尝试解决黎曼假设,类似于DeepSeek-R1,但与许多其他立刻放弃的模型(o1-pro、Claude、Gemini 2.0 Flash Thinking)不同,它们只是说这是一个伟大的未解决问题。我最终不得不停止它,因为我觉得有点对不起它,但它表现出了勇气,谁知道,也许有一天...
然而,也有一些缺点。深度搜索代理提出了一些担忧:
…该模型似乎默认不喜欢将X作为来源引用,尽管你可以明确要求它。几次我发现它幻想出不存在的URL。几次它说了一些我认为不正确的事实,并且没有提供引用(它可能根本不存在)。
总之,Andrej Karpathy指出,根据初步印象,Grok 3已接近OpenAI顶级模型的水平,如o1-pro(每月200美元),甚至稍微超越DeepSeek-R1和Gemini 2.0 Flash Thinking。考虑到xAI团队大约一年前从零开始开发这个人工智能,进展令人印象深刻。然而,在确定这个聊天机器人是否真正值得“最聪明”这个称号之前,还需要更全面的测试。
众所周知,埃隆·马斯克积极参与美国政治生活,并公开表达他的观点。 一些互联网用户担心Grok 3可能也会推动某些叙述。
这些担忧并非毫无根据:马斯克分享了一张截图,显示聊天机器人批评某新闻媒体,同时称赞X为最可靠的信息来源。尽管Grok 3被定位为一个审查最少的产品,但许多人认为人工智能在判断上应该保持中立。
***
无论如何,另一个有前景的语言模型的推出标志着人工智能竞赛中的一个重要里程碑。竞争越激烈,进步就越快。
你对Grok 3有什么看法?在评论中分享你的想法。