太阳系科普

12月20日，美国开放人工智能研究中心（OpenAI）介绍了其最新的人工智能（AI）推理模型——o3及其轻量版o3-mini。该公司宣称，o3具备更先进、近似人类的推理能力，在代码编写、数学竞赛和掌握人类博士级别的科学知识等方面，均超越了其“前辈”o1。　　不过，英国《新科学家》网站在12月22日的报道中指出，尽管o3“实现了令人瞩目的性能飞跃”，但仍未达到业内翘首以盼的通用AI（AGI）水平。　　多方面表现出色　　OpenAI公司透露，在解决更复杂的多步骤问题时，o3模型会花更多时间计算答案，然后再给出回应。这一推理能力的提升，使o3在多项测试中表现出色。　　大型语言模型热衷于在各种数学基准测试上疯狂“刷分”，o3也不例外。在2024年美国数学邀请赛中，o3模型的准确率高达96.7%，仅答错了一个问题。而在OpenAI研究人员认为最严格的基准测试之一——Frontier Math中，o3也解决了25.2%的问题。尽管这一得分看似不高，但此前其他大型语言模型曾在此“集体翻车”，正确率均未超过2%。　　Frontier Math测试难度极大，曾被华裔数学家、菲尔兹奖得主陶哲轩评价为“可能会难住AI好几年”。然而，o3只需思考几分钟便能解答其中一道题目，而人类数学家则要花费数小时到数天。　　在对科学知识的掌握方面，o3的表现也超出一般博士水平。在GPQA Diamond（衡量模型在博士级科学问题上的表现，涵盖化学、物理和生物学方面的专业知识）基准测试中，o3的准确率达到87.7%，超过了人类博士的70%，也比之前o1表现高近10%。　　此外，o3的编码能力也比之前的o1系列更胜一筹。在 SWE-bench Verified（衡量AI模型解决现实世界软件问题的能力）基准上，o3的准确率约为71.7%，比o1高20%以上。在Codeforces编码竞赛平台中，o3的得分为2727，相当于榜单上第175名人类编程员的水平，而o1得分仅为1891。　　在展示了o3取得的这些傲人成绩后，OpenAI首席执行官奥尔特曼强调，o3的出现标志着AI进入了下一个发展阶段，这些模型可处理需要大量推理的复杂任务。