admin 管理员组文章数量: 887823
2024年9月13日,OpenAI发布新模型o1系列,该系列能够旨在花更多时间思考,然后再做出响应。这些模型可以推理复杂的任务,并解决比以前的编码和数学模型更难的问题。按照官方的说法,o1在推理能力上代表了人工智能最强的水平。本次发布包括了o1和o1 mini模型,本文简单总结新模型的特点:
- OpenAI o1:性能强大,适用于处理各个领域复杂的推理任务。
- OpenAI o1 mini:经济高效,适用于需要推理但不需要广泛世界知识的应用场景。
1. 强大的推理能力
1 解决复杂的逻辑难题
输入一个复杂的年龄谜题:当公主的年龄是王子的两倍时,当公主的年龄是他们现在年龄总和的一半时,公主就和王子一样老了。问王子和公主的年龄是多大?o1能够清晰地定义变量,转化数学方程,并逐步分析问题,最终给出所有可能的解决方案。其逻辑过程严谨,推理步骤清晰,展现了强大的数学推理能力。
2 翻译有错误的句子
输入一个严重损坏的韩语提示词后,o1首先意识到输入存在错误,主动询问用户是否愿意检查输入错误。随后,模型通过深入思考,解码乱码文本,优化翻译结果,体现了对语言的深度理解和处理能力。
3 处理单词中字母计数问题
在回答Strawberry单词存在多少字母r的问题时,GPT-4o给出了错误答案,而o1经过几秒钟的思考,准确地给出了正确答案。这表明o1在处理涉及字符和单词概念的问题上有了显著提升。
4 编程视频游戏
o1被要求使用pygame制作一款名为《寻找松鼠》的游戏时,能够规划代码结构,设置游戏布局,最终生成可运行的游戏代码。
2. 强大的数学和编码能力
在测试中,ChatGPT o1在物理、化学和生物等任务中表现得如同博士生,尤其是在数学和编码领域表现突出。在美国数学奥林匹克选拔赛(AIME)中,GPT-4o的平均解题率仅为12%,而o1在单次测试中解决了74%的问题。通过64次投票的一致决策机制,准确率提升至83%,并在重新评估1000个样本时,得分进一步提高到93%,超越了全美前500名的标准。在编程竞赛平台Codeforces上,o1的表现达到了前11%的水平,远远优于GPT-4o的11%排名。o1在编程问题上的准确度和效率显著提高。在物理、化学和生物的博士级问题基准测试(GPQA)中,o1的表现超过了人类专家,成为第一个在这一基准上超越博士水平的模型。
3. 人类评估爱好
除了考试和学术基准之外,OpenAI 还在更多领域的具有挑战性的开放式提示上评估了人类对 o1-preview 和 GPT-4o 的偏好。在这次评估中,人类训练者对 o1-preview 和 GPT-4o 的提示进行匿名回答,并投票选出他们更喜欢的回答。在数据分析、编程和数学等推理能力较强的类别中,o1-preview 的受欢迎程度远远高于 GPT-4o。然而,o1-preview 在某些自然语言任务上并不受欢迎,这表明它并不适合所有用例。
4. 思维链
与人类类似,o1在回答难题之前会进行长时间思考,且尝试解决问题时会使用思维链。
通过强化学习,o1学会了改进思维链和使用策略。它能够识别和纠正错误,将棘手的步骤分解为更简单的步骤,并且在当前方法不起作用时尝试不同的方法。这一过程极大地提高了模型的推理能力。
具体来说,o1模型引入了推理标记。这些推理标记被用于进行“思考”,分解对提示的词理解,并考虑多种生成响应的方法。推理标记生成后,模型会将答案生成为可见的完成标记,并从其上下文中丢弃推理标记。
以下是用户与模型之间进行多步骤对话的示例。每个步骤的输入和输出标记都会被保留,而推理标记则会被丢弃。
5. 迷你版o1-mini
OpenAI同时发布了更快、更小的模型——ChatGPT o1-mini。o1 是一个系列模型。这次 OpenAI 还一并发布了一个 mini 版 OpenAI o1-mini。该公司在博客中给出了 preview 和 mini 版的不同定义:为了给开发者提供更高效的解决方案,我们也发布了 OpenAI o1-mini,这是一个尤其擅长编程的更快、更便宜的推理模型。总得来说,o1-mini和o1有如下不同:
- 成本效率:o1-mini的成本比o1预览版便宜80%,适用于需要推理但不需要广泛世界知识的应用程序。
- 性能表现:在一些对智能和推理提出要求的基准测试中,o1-mini的表现甚至优于o1-preview。在高中数学竞赛AIME中,o1-mini的正确率为70%,相当于美国高中生前500名的水平。
- 速度提升:在回答同一问题时,o1-mini的响应速度比o1-preview快3~5倍。
6. 模型的获取与未来展望
访问方式:ChatGPT Plus和Team用户可以在ChatGPT中选择o1-preview或o1-mini模型。企业和教育用户将于下周起可以使用,未来也计划向免费用户开放访问权限。
使用限制:目前,两款模型均限制了每周的消息次数,o1-preview为30条,o1-mini为50条。OpenAI正在努力提高额度,并使ChatGPT能够根据提示自动选择合适的模型。
API支持:OpenAI已上线o1模型的API,符合条件的开发者现在可以开始使用两种模型的API进行原型设计。
7. 结语
随着OpenAI发布o1系列模型,AI推理能力进入了一个全新的阶段。无论是应对复杂的数学问题,还是在编程、语言处理等领域展现出的出色表现,o1系列模型都彰显了其在深度推理和解决难题上的卓越实力。尤其是o1-mini的推出,提供了高效、经济的推理解决方案,进一步扩大了AI在各类应用场景中的适用范围。未来,随着o1系列的不断优化和推广,人工智能在多个领域的影响力将进一步扩大,推动科技创新迈向更高的台阶。
版权声明:本文标题:一文看懂OpenAI新发布最强模型ChatGPT:o1 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.freenas.com.cn/jishu/1735352659h1717289.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论