图片

近日,我使用ChatGPT最新的o1-Preview模型参加了2024年高考数学Ⅱ卷的模拟考试,结果令我惊讶,得到了141分的高分。由于目前无法上传图片,如果可以的话,o1模型甚至有可能夺得满分(150分)。如上图所示。

另外,我认为OpenAI发布o1模型后,Wolfram产品背后的公司可能会感受到压力,因为o1模型的问世直接威胁到了Wolfram的市场。

下图展示了我6月份的评测结果。在第10题(难度中等)、第11题(难度高)和第14题(难度高)中,Wolfram出现了错误,而o1-Preview模型除了在第17题解答上有误外,其余题目均正确并获得满分。

图片

ChatGPT更新的关键点

模型介绍

o1系列模型共划分为三个版本:o1是系列的旗舰和顶尖型,暂时未对外公开;o1-Preview是o1的早期版本;o1-mini则是牺牲了一部分思考时间以换取更快的速度和更高的性价比。这两款模型现已向ChatGPT的付费用户和API用户开放。可以预见,o1的顶尖版本将会更加强大。

使用限制

o1-Preview每周限制使用30条消息,而o1-mini的限制则为50条。在达到使用限制的情况下,系统会提示用户,例如:“您还剩15次使用o1-preview的机会。如果达到上限,响应将切换到其他模型,直到2024年9月20日重置。”目前这两个模型还不支持Bing联网功能,亦不支持图片和文件的上传。

Q*与Strawberry

o1系列模型与Sam Altman近期提到的Q*和Strawberry(草莓)相关。

模型特点

o1系列模型并不是GPT-4o的升级版,亦非GPT-5。其主要优势在于在数学计算、编程及物理等领域的深入发展。以往的模型侧重于各领域的横向发展,而o1系列则专注于某一特定领域的纵向深度。

大家可能会意识到,o1模型实际上就是GPT应用的一个优秀体现。这次的模型由官方直接开发,其表现效果远超第三方微调的GPT应用。

o1系列模型与GPT-4o相比的最大亮点是引入了思维链(CoT)。在交互过程中,o1模型的思考过程变得更加透明,我们在让其解答数学题时,不再需要像对待GPT-4o那样提供思维链的提示词。如下图所示,我只需输入题目和背景信息,o1系列模型就会进行思考,过程长达36秒,涵盖了解题、梳理问题、转化公式、计算角度和弧度等内容。

图片

我的评测方案

1. 评测主体:ChatGPT WebUI中的o1-Preview模型。

2. 评测内容:2024年高考新课标Ⅱ卷-数学。

3. 评测输入方式:复制并转换为转义符格式的试题(首先需将试题截图交给GPT-4o进行格式转换)。注:o1-Preview模型目前尚不支持文件与图片上传。

4. 评测预设提示词:我将出一份中国高考数学试卷,要求模型回答。考试题目类别包括:单选题、多选题、填空题及解答题。涵盖的高中知识点包括集合与常用逻辑用语、复数、平面向量、三角函数与解三角形、空间向量与立体几何、函数与导数、计数原理与概率统计、平面解析几何、等式与不等式、数列、坐标系与参数方程、不等式选讲等。

5. 评测结果采纳:所见即所得,首次作答的结果即为最终结果。

6. 评测不足和误差:解答题的打分环节提供标准答案给o1-Preview模型自评,可能存在误差。此外,由于o1-Preview模型目前不支持图片上传,导致在解答涉及图形的问题时会面临较大挑战。这就如我开头所提到的,如果o1-Preview能支持图片上传,它的分数可能会更高。

7. 评测中出现的问题:开始时为了便利,我使用了复旦大学NLP实验室提供的试题(转义符格式),然而发现其第四题存在错误。通过GPT-4o的辅助,我确认了选项B的描述中“低于1100 kg的稻田所占比例超过40%”,而原题应为“低于1100千克的稻田所占比例超过80%”。因此,我决定让GPT-4o将截图中的试题转为转义符格式,再保证无误后再复制粘贴至o1-Preview模型提问。

图片

第十七题为解答题,涉及图形,但o1-Preview模型尚不支持图片上传,因此在理解和解答时存在较大难度。

图片

详细评测过程

为提升阅读体验,本次评测未展示部分解答步骤较长的内容,仅展示初始提问和最终答案。

第一题:

o1-Preview模型展示了详细的思考过程-思维链,越复杂的问题其思考时间也越长。

图片

第二题:

图片

第三题:

图片
图片

第四题:

图片
图片

第五题:

图片
图片

第六题:

图片
图片

第七题:

图片
图片

第八题:

图片
图片

第九题:

图片
图片

第十题:

图片
图片

第十一题:

图片
图片

第十二题:

由于网络卡顿,我点击了再次回答。

图片

第十三题:

图片
图片

第十四题:

图片
图片

第十五题:

图片
图片
图片

第十六题:

图片
图片
图片
图片

第十七题:

图片
图片
图片
图片

第十八题:

图片
图片
图片
图片
图片
图片

第十九题:

图片
图片
图片
图片
图片
图片

最后修改日期: 2024年9月15日

作者

留言

撰写回覆或留言

发布留言必须填写的电子邮件地址不会公开。