DeepSeek团队悄然推出了其免费AI助手R1的重大升级。尽管开发者谦虚地称其为“次要”,但测试显示其解决难题的能力有了巨大的飞跃。
关键的改进是增强了逻辑和科学推理。更新后的R1-0528模型现在几乎能在10次中正确解决9次数学奥林匹克问题——自一月以来的巨大进步。最令人印象深刻的是它在臭名昭著的“人类最后的考试”测试中的进展,R1的得分翻了一番,达到了17.7%。(这个测试仍然让大多数AI感到困惑。)
在六个独立测试(科学、编程、高级数学)中,升级后的R1的结果与OpenAI的付费ChatGPT-o3非常接近。除了一个编码基准外,其他地方的差距都很小。开发者还声称R1现在生成的错误更少。虽然ChatGPT-o3的类似能力每月需花费20美元,但DeepSeek R1仍然完全免费。
这些进步并不是来自更大的模型,而是来自更聪明的“微调”——提升其推理和分析能力。用户们立刻注意到:DeepSeek的移动应用在美国、英国、日本、韩国和中国的应用商店中迅速回升至顶尖位置。
这个免费的中文助手在缩小与市场领导者的差距方面取得了重大进展。虽然OpenAI在多模态(图像、语音)方面仍占优势,但DeepSeek R1正成为任何需要深入分析和复杂问题解决的人的首选——无需订阅。