近日,我使用ChatGPT最新的o1-Preview模型参加了2024年高考数学Ⅱ卷的模拟考试,结果令我惊讶,得到了141分的高分。由于目前无法上传图片,如果可以的话,o1模型甚至有可能夺得满分(150分)。如上图所示。
另外,我认为OpenAI发布o1模型后,Wolfram产品背后的公司可能会感受到压力,因为o1模型的问世直接威胁到了Wolfram的市场。
下图展示了我6月份的评测结果。在第10题(难度中等)、第11题(难度高)和第14题(难度高)中,Wolfram出现了错误,而o1-Preview模型除了在第17题解答上有误外,其余题目均正确并获得满分。
ChatGPT更新的关键点
模型介绍
o1系列模型共划分为三个版本:o1是系列的旗舰和顶尖型,暂时未对外公开;o1-Preview是o1的早期版本;o1-mini则是牺牲了一部分思考时间以换取更快的速度和更高的性价比。这两款模型现已向ChatGPT的付费用户和API用户开放。可以预见,o1的顶尖版本将会更加强大。
使用限制
o1-Preview每周限制使用30条消息,而o1-mini的限制则为50条。在达到使用限制的情况下,系统会提示用户,例如:“您还剩15次使用o1-preview的机会。如果达到上限,响应将切换到其他模型,直到2024年9月20日重置。”目前这两个模型还不支持Bing联网功能,亦不支持图片和文件的上传。
Q*与Strawberry
o1系列模型与Sam Altman近期提到的Q*和Strawberry(草莓)相关。
模型特点
o1系列模型并不是GPT-4o的升级版,亦非GPT-5。其主要优势在于在数学计算、编程及物理等领域的深入发展。以往的模型侧重于各领域的横向发展,而o1系列则专注于某一特定领域的纵向深度。
大家可能会意识到,o1模型实际上就是GPT应用的一个优秀体现。这次的模型由官方直接开发,其表现效果远超第三方微调的GPT应用。
o1系列模型与GPT-4o相比的最大亮点是引入了思维链(CoT)。在交互过程中,o1模型的思考过程变得更加透明,我们在让其解答数学题时,不再需要像对待GPT-4o那样提供思维链的提示词。如下图所示,我只需输入题目和背景信息,o1系列模型就会进行思考,过程长达36秒,涵盖了解题、梳理问题、转化公式、计算角度和弧度等内容。
我的评测方案
1. 评测主体:ChatGPT WebUI中的o1-Preview模型。
2. 评测内容:2024年高考新课标Ⅱ卷-数学。
3. 评测输入方式:复制并转换为转义符格式的试题(首先需将试题截图交给GPT-4o进行格式转换)。注:o1-Preview模型目前尚不支持文件与图片上传。
4. 评测预设提示词:我将出一份中国高考数学试卷,要求模型回答。考试题目类别包括:单选题、多选题、填空题及解答题。涵盖的高中知识点包括集合与常用逻辑用语、复数、平面向量、三角函数与解三角形、空间向量与立体几何、函数与导数、计数原理与概率统计、平面解析几何、等式与不等式、数列、坐标系与参数方程、不等式选讲等。
5. 评测结果采纳:所见即所得,首次作答的结果即为最终结果。
6. 评测不足和误差:解答题的打分环节提供标准答案给o1-Preview模型自评,可能存在误差。此外,由于o1-Preview模型目前不支持图片上传,导致在解答涉及图形的问题时会面临较大挑战。这就如我开头所提到的,如果o1-Preview能支持图片上传,它的分数可能会更高。
7. 评测中出现的问题:开始时为了便利,我使用了复旦大学NLP实验室提供的试题(转义符格式),然而发现其第四题存在错误。通过GPT-4o的辅助,我确认了选项B的描述中“低于1100 kg的稻田所占比例超过40%”,而原题应为“低于1100千克的稻田所占比例超过80%”。因此,我决定让GPT-4o将截图中的试题转为转义符格式,再保证无误后再复制粘贴至o1-Preview模型提问。
第十七题为解答题,涉及图形,但o1-Preview模型尚不支持图片上传,因此在理解和解答时存在较大难度。
详细评测过程
为提升阅读体验,本次评测未展示部分解答步骤较长的内容,仅展示初始提问和最终答案。
第一题:
o1-Preview模型展示了详细的思考过程-思维链,越复杂的问题其思考时间也越长。
第二题:
第三题:
第四题:
第五题:
第六题:
第七题:
第八题:
第九题:
第十题:
第十一题:
第十二题:
由于网络卡顿,我点击了再次回答。
留言