实测OpenAI最强模型o1:会做大学数理化,但弱智吧依然难解
实测OpenAI最强模型o1:会做大学数理化,但弱智吧依然难解
OpenAI 传说中的 " 草莓 " 终于正式上线!
不仅可以胜任更复杂的推理任务,在数学、代码和其他科学领域也能解决更难的问题。
OpenAI 这次 " 无预警发布 " 震撼了科技圈,o1 更是被 CEO 奥特曼称它为了一种新范式的开始。
发布之后,各路大神和网友都纷纷用各种问题测试 OpenAI o1 的表现:
还有人进行了花式考验,结果被 o1 强大的推理能力秀到了。
Q:你的回复中有几个字?
A1:这句话有七个字
A2:一共五个字
量子位也进行了一番实测,下面就一起来了解。
推理能力大进化,但还是难敌弱智吧
该说不说,o1 虽然在推理能力上取得了很大进步,但面对充满心机的弱智吧问题,还是掉进了人类挖的陷阱。
当然了,对于正经问题,o1 的表现还是很强的,首先看看逻辑推理能力。
思考这道题时,preview 和 mini 分别用时 21 秒和 14 秒,不过从文本上看 mini 思考得反而更多。
其中还出现了一些西里尔字母乱入,不过对整体影响不大。
最终,二者也都给出了正确的答案——丙。
值得注意的是,mini(右)的解答当中还出现了修正的过程。
接下来看下 o1 在大学数理化题目上的表现。
首先是这道考研数学真题,涉及的知识点是曲面积分、高斯定理等内容:
还是分别看下 preview 和 mini 的思考,可以看到 mini 的思考过程大概是 preview 的简略版,当然速度也快了不少。
不过 preview 给的思考过程当中再次出现乱入,这次是泰语。
实际解答过程也是 preview 比 mini 更加详细,不过不知道为什么 preview 用了英文回答。
最后的计算结果化简方式也有所不同,但数值上是相等的,而且也做对了。
对比 4o 这边,先偷懒后作弊(调用了代码解释器),结果最后答案还是错的。
第二道数学题关于概率。
这道题 preview 依然是用英语进行了作答,步骤比 mini 更加详细,当然都是对的。
而 4o 的答案前面的过程倒是基本都对,但是最后一步的求解出现了问题,只给出了 1 这一个解,并且不是本题答案。
物理方面,这里选择了一道大学物理中的光学题:
preview(左)和 mini 都给出了正确解答,内容也基本一致。
化学的题目是一道物化题,主要涉及电化学等内容。
这里把 AgCl/Ag 的标准电极电势作为已知条件一同输入给模型。
Preview(左)和 mini 大致的解题思路还是差不多,在计算步骤上有指对运算先后的差别,当然最后的结果还是对的。
最后一项测试就不再做考试题了,而是看看模型编写代码的能力如何。
这里选择的题目难度非常高,真人的通过率只有 14%。
以下是 preview(左)和 mini 的解题思路:
从代码上看,两者核心逻辑相似,但在具体操作上略有区别。
两套代码均通过了测试,内存消耗也比较接近,而 mini 给出的代码运行时间更短(38 毫秒)。
o1 的编程能力除了用来解题,也可以快速构建出实用的应用程序。
知名 AI 配音工具 ElevenLabs 设计部门负责人 Ammaar Reshi,就利用 o1 搭配 Cursor Composer,用了不到 10 分钟的时间制作了一款 iOS 天气应用。
小数比较还是不会?
测试发现,对于大模型难以答对的名场面——小数比大小,preview(左)和 mini 都答不对。
甚至 preview 在思考过程中明明已经提到过 9.8 比 9.11 大。
但同时 preview 在思考过程中表示,9.8 和 9.11 有可能指的是日期,所以做不对也许另一原因。
针对这个问题,大神谢赛宁也晒出了他的测试结果,发现 o1 在思考过程中将 9.8 当成了重力常数,而 9.11 是一个 " 意义不明的数字 "。
所以 o1 可能不是不会,而是把这个问题想复杂了。
为了进一步探究,我们把问题改得具体些,强调一下 9.8 和 9.11 都是数字,这下没有了歧义之后就能一次做对了。
可以看出,提示词的影响还是不小的。
由于 o1 在内部采用了一些类思维链过程,因此 prompt 的设计和普通版本也有所区别,OpenAI 官方发布了一则提示:
提示词应简单且直接
避免在提示词中使用思维链
使用分隔符让 promot 更清晰
控制 RAG 内容的长度
回到我们的测试,面对其他几个大模型败北名场面,o1 也有不小的进步。
比如在数字母的任务上就有所进化,即使是一串乱打的字母也能数对。
还有面对经典的" 反转诅咒 "(即知道 A 是 B 却不知道 B 是 A)问题,也终于一次性答对了 Mary Lee Pfeiffer(汤姆 · 克鲁斯的母亲)的儿子是谁。
One More Thing
关于这次发布的 o1,除了各个方面的成绩之外,还有一些其他的发现。
比如前特斯拉自动驾驶负责人、两度进入 OpenAI 又两度离职的大神 Andrej Karpathy 发现,o1-mini 在被要求证明黎曼猜想的时候出现了拒绝回答的情况,表示大模型 " 犯懒 " 依然是一个大问题。
还有网友说觉得 mini 的表现比 preview 好,想问下有没有人知道原因或者有啥看法。
这条消息也把奥特曼吸引了过来,回复了一句 "Yes I have one"。
根据 OpenAI 内部员工 Kevin Lu 发布的一则推文来看,mini 的性价比确实比 preview 更高。
根据这张图显示,preview 版本论性能比不上尚未公布的满血 o1,论经济性又比不上 mini。
顺便提一句,preview 版本存在消息数量限制,并且数量是按周进行重置的,几轮测试下来已经快要用尽了。
参考链接:
[ 1 ] https://x.com/rowancheung/status/1834300353619075494
[ 2 ] https://x.com/karpathy/status/1834374965942255835
[ 3 ] https://x.com/sama/status/1834381401380294685
[ 4 ] https://x.com/_kevinlu/status/1834278160038592633
-
- 梦幻开局!国足1-0领先,沙特队被红牌罚下1人
-
2024-09-13 19:00:36
-
- 独家视频丨习近平在陕西宝鸡市和甘肃天水市考察调研
-
2024-09-13 18:58:20
-
- 正面对决!华为三折叠屏和iPhone16同一天开售
-
2024-09-13 18:56:05
-
- 马斯克:如果哈里斯获胜,美国人永远无法到达火星
-
2024-09-13 18:53:49
-
- 中国和菲律宾举行南海问题双边磋商机制团长会晤
-
2024-09-13 18:51:33
-
- “2024中国企业500强”发布,榜单企业营收总规模迈上新台阶
-
2024-09-13 18:49:18
-
- 俄罗斯将加强战略核力量在内的海军建设
-
2024-09-13 18:47:02
-
- 外媒放出三星S25Ultra,直屏元素浓重
-
2024-09-13 18:44:47
-
- 哪吒汽车与拉美第二大金融集团签约
-
2024-09-13 18:42:32
-
- Stellantis集团投资超过4.06亿美元改建密歇根州三家工厂
-
2024-09-13 18:40:16
-
- 月嫂半夜给熟睡的婴儿喂安眠药,被发现后竟起诉雇主
-
2024-09-12 22:48:36
-
- 70亿下落不明,首富是怎么被搞“死”的?
-
2024-09-12 22:46:19
-
- 谁是“卷王”?互联网大厂人效大比拼,拼多多上半年人均创收千万
-
2024-09-12 22:44:03
-
- 恩里克·诺布雷加:全球人权保障和治理面临哪些挑战?
-
2024-09-12 22:41:46
-
- 1岁男童突发意外,脸上缝了100多针,监控曝光!
-
2024-09-12 22:39:30
-
- 海银财富被立案调查,700亿元“资金池”爆雷,实控人是河南资本大佬
-
2024-09-12 22:37:14
-
- 餐饮业大洗牌,如何破局?
-
2024-09-12 22:34:58
-
- ChatGPT两周后将进入“草莓”时代?消息曝出前三小时,OpenAI又有首席研究
-
2024-09-12 22:32:42
-
- 蜡瓶糖在“小孩圈”里有多火?网红零食安全隐患大
-
2024-09-12 22:30:27
-
- 注意换乘影响!10月2日起,广州地铁21号线终点改为天河公园站
-
2024-09-12 22:28:11