爱尚秀 > 社会 > 正文

实测OpenAI最强模型o1：会做大学数理化，但弱智吧依然难解

2024-09-15 05:01 来源：爱尚秀点击：

实测OpenAI最强模型o1：会做大学数理化，但弱智吧依然难解

OpenAI 传说中的 " 草莓 " 终于正式上线！

不仅可以胜任更复杂的推理任务，在数学、代码和其他科学领域也能解决更难的问题。

OpenAI 这次 " 无预警发布 " 震撼了科技圈，o1 更是被 CEO 奥特曼称它为了一种新范式的开始。

发布之后，各路大神和网友都纷纷用各种问题测试 OpenAI o1 的表现：

还有人进行了花式考验，结果被 o1 强大的推理能力秀到了。

Q：你的回复中有几个字？

A1：这句话有七个字

A2：一共五个字

量子位也进行了一番实测，下面就一起来了解。

推理能力大进化，但还是难敌弱智吧

该说不说，o1 虽然在推理能力上取得了很大进步，但面对充满心机的弱智吧问题，还是掉进了人类挖的陷阱。

当然了，对于正经问题，o1 的表现还是很强的，首先看看逻辑推理能力。

思考这道题时，preview 和 mini 分别用时 21 秒和 14 秒，不过从文本上看 mini 思考得反而更多。

其中还出现了一些西里尔字母乱入，不过对整体影响不大。

最终，二者也都给出了正确的答案——丙。

值得注意的是，mini（右）的解答当中还出现了修正的过程。

接下来看下 o1 在大学数理化题目上的表现。

首先是这道考研数学真题，涉及的知识点是曲面积分、高斯定理等内容：

还是分别看下 preview 和 mini 的思考，可以看到 mini 的思考过程大概是 preview 的简略版，当然速度也快了不少。

不过 preview 给的思考过程当中再次出现乱入，这次是泰语。

实际解答过程也是 preview 比 mini 更加详细，不过不知道为什么 preview 用了英文回答。

最后的计算结果化简方式也有所不同，但数值上是相等的，而且也做对了。

对比 4o 这边，先偷懒后作弊（调用了代码解释器），结果最后答案还是错的。

第二道数学题关于概率。

这道题 preview 依然是用英语进行了作答，步骤比 mini 更加详细，当然都是对的。

而 4o 的答案前面的过程倒是基本都对，但是最后一步的求解出现了问题，只给出了 1 这一个解，并且不是本题答案。

物理方面，这里选择了一道大学物理中的光学题：

preview（左）和 mini 都给出了正确解答，内容也基本一致。

化学的题目是一道物化题，主要涉及电化学等内容。

这里把 AgCl/Ag 的标准电极电势作为已知条件一同输入给模型。

Preview（左）和 mini 大致的解题思路还是差不多，在计算步骤上有指对运算先后的差别，当然最后的结果还是对的。

最后一项测试就不再做考试题了，而是看看模型编写代码的能力如何。

这里选择的题目难度非常高，真人的通过率只有 14%。

以下是 preview（左）和 mini 的解题思路：

从代码上看，两者核心逻辑相似，但在具体操作上略有区别。

两套代码均通过了测试，内存消耗也比较接近，而 mini 给出的代码运行时间更短（38 毫秒）。

o1 的编程能力除了用来解题，也可以快速构建出实用的应用程序。

知名 AI 配音工具 ElevenLabs 设计部门负责人 Ammaar Reshi，就利用 o1 搭配 Cursor Composer，用了不到 10 分钟的时间制作了一款 iOS 天气应用。

小数比较还是不会？

测试发现，对于大模型难以答对的名场面——小数比大小，preview（左）和 mini 都答不对。

甚至 preview 在思考过程中明明已经提到过 9.8 比 9.11 大。

但同时 preview 在思考过程中表示，9.8 和 9.11 有可能指的是日期，所以做不对也许另一原因。

针对这个问题，大神谢赛宁也晒出了他的测试结果，发现 o1 在思考过程中将 9.8 当成了重力常数，而 9.11 是一个 " 意义不明的数字 "。

所以 o1 可能不是不会，而是把这个问题想复杂了。

为了进一步探究，我们把问题改得具体些，强调一下 9.8 和 9.11 都是数字，这下没有了歧义之后就能一次做对了。

可以看出，提示词的影响还是不小的。

由于 o1 在内部采用了一些类思维链过程，因此 prompt 的设计和普通版本也有所区别，OpenAI 官方发布了一则提示：

提示词应简单且直接

避免在提示词中使用思维链

使用分隔符让 promot 更清晰

控制 RAG 内容的长度

回到我们的测试，面对其他几个大模型败北名场面，o1 也有不小的进步。

比如在数字母的任务上就有所进化，即使是一串乱打的字母也能数对。

还有面对经典的" 反转诅咒 "（即知道 A 是 B 却不知道 B 是 A）问题，也终于一次性答对了 Mary Lee Pfeiffer（汤姆 · 克鲁斯的母亲）的儿子是谁。

One More Thing

关于这次发布的 o1，除了各个方面的成绩之外，还有一些其他的发现。

比如前特斯拉自动驾驶负责人、两度进入 OpenAI 又两度离职的大神 Andrej Karpathy 发现，o1-mini 在被要求证明黎曼猜想的时候出现了拒绝回答的情况，表示大模型 " 犯懒 " 依然是一个大问题。

还有网友说觉得 mini 的表现比 preview 好，想问下有没有人知道原因或者有啥看法。

这条消息也把奥特曼吸引了过来，回复了一句 "Yes I have one"。

根据 OpenAI 内部员工 Kevin Lu 发布的一则推文来看，mini 的性价比确实比 preview 更高。

根据这张图显示，preview 版本论性能比不上尚未公布的满血 o1，论经济性又比不上 mini。

顺便提一句，preview 版本存在消息数量限制，并且数量是按周进行重置的，几轮测试下来已经快要用尽了。

参考链接：

[ 1 ] https://x.com/rowancheung/status/1834300353619075494

[ 2 ] https://x.com/karpathy/status/1834374965942255835

[ 3 ] https://x.com/sama/status/1834381401380294685

[ 4 ] https://x.com/_kevinlu/status/1834278160038592633

相关标签：

上一篇：梦幻开局！国足1-0领先，沙特队被红牌罚下1人
下一篇：被三城反超，杭州求变

梦幻开局！国足1-0领先，沙特队被红牌罚下1人

2024-09-13 19:00:36
独家视频丨习近平在陕西宝鸡市和甘肃天水市考察调研

2024-09-13 18:58:20
正面对决！华为三折叠屏和iPhone16同一天开售

2024-09-13 18:56:05
马斯克：如果哈里斯获胜，美国人永远无法到达火星

2024-09-13 18:53:49
中国和菲律宾举行南海问题双边磋商机制团长会晤

2024-09-13 18:51:33
“2024中国企业500强”发布，榜单企业营收总规模迈上新台阶

2024-09-13 18:49:18
俄罗斯将加强战略核力量在内的海军建设

2024-09-13 18:47:02
外媒放出三星S25Ultra，直屏元素浓重

2024-09-13 18:44:47
哪吒汽车与拉美第二大金融集团签约

2024-09-13 18:42:32
Stellantis集团投资超过4.06亿美元改建密歇根州三家工厂

2024-09-13 18:40:16
月嫂半夜给熟睡的婴儿喂安眠药，被发现后竟起诉雇主

2024-09-12 22:48:36
70亿下落不明，首富是怎么被搞“死”的？

2024-09-12 22:46:19
谁是“卷王”？互联网大厂人效大比拼，拼多多上半年人均创收千万

2024-09-12 22:44:03
恩里克·诺布雷加：全球人权保障和治理面临哪些挑战？

2024-09-12 22:41:46
1岁男童突发意外，脸上缝了100多针，监控曝光！

2024-09-12 22:39:30
海银财富被立案调查，700亿元“资金池”爆雷，实控人是河南资本大佬

2024-09-12 22:37:14
餐饮业大洗牌，如何破局？

2024-09-12 22:34:58
ChatGPT两周后将进入“草莓”时代？消息曝出前三小时，OpenAI又有首席研究

2024-09-12 22:32:42
蜡瓶糖在“小孩圈”里有多火？网红零食安全隐患大

2024-09-12 22:30:27
注意换乘影响！10月2日起，广州地铁21号线终点改为天河公园站

2024-09-12 22:28:11

热门图文

世界综合国力排名（联合国五常综合实力大排名）

世界综合国力排名（联合国五常综合实力大排名）

2023年十大高产玉米品种（排名第一的玉米品种名字）

2023年十大高产玉米品种（排名第一的玉米品种名字）

热门排行

相关文章