8wDlpd.png
8wDFp9.png
8wDEOx.png
8wDMfH.png
8wDKte.png
AI前沿
OpenAI o1 来啦,推理能力远超 GPT-4o 前沿报告
AI助手 5天前 39
前几天还在说 OpenAI 可能会提前发布新模型,这不,OpenAI o1 就这么毫无预警地上线了。

根据 OpenAI 的说法,新的 OpenAI o1 系列模型可以完善自己的思维过程, 尝试不同的策略,并认识到自己的错误。“这些模型在解决物理、化学和生物学问题时的表现已到达博士水平。”

 

 

最强人工智能一夜之间又换人了!

OpenAI o1 数学、编码能力更强,

推理能力远超 GPT-4o

o1 实际上是一个模型系列,包括 o1-preview 和 o1-mini,且目前只有 ChatGPT Plus 和 Team 用户可以通过 ChatGPT 访问两个模型。ChatGPT Enterprise(企业版)和 ChatGPT Edu(教育版)用户将从下周开始使用两个模型。o1-mini 则计划向 ChatGPT 所有免费用户提供访问权限,其相比 o1-preview 更快、更便宜,在编码方面更为出色。

根据 OpenAI 的说法,o1 在具有挑战性的推理基准上比 GPT-4o 有了很大的改进,模型在数学和编码方面表现出色。在国际数学奥林匹克竞赛(IMO)的资格考试中,GPT-4o 仅正确解决了 13%的问题,而推理模型的得分是 83%。其编码能力也在 Codeforces 竞赛中进行了评估,达到了第 89 百分位。

 

 

OpenAI 称,o1 与其他生成式 AI 模型本质上的不同在于其响应查询之前还会进行“思考”,这也不可避免地会让 o1 响应时间更长。

OpenAI 研究科学家 Noam Brown 在社交媒体 X 上表示,“o1 接受了新的优化算法、包含推理数 据的训练数据集以及专门为推理任务量身定制的科学文献的强化学习训练,这教会系统在通过思想链做出反应之前思考,且思考的时间越长,效果就越好。而当 o1 推出正确答案时会得到奖励,反之则会受到惩罚。”

 

 

而根据 OpenAI 提供的数据,o1 在一系列不同的人类考试和 ML 基准测试中的结果都证明,o1 在绝大多数推理繁重的任务上显著优于 GPT-4o。

根据 OpenAI 的说法,o1 对于复杂的推理性能是人工智能领域的一个重大进步,将人工智能能力上升到了新水平。而这也是 OpenAI 选择重开系列,将新模型命名为 OpenAI o1 的原因。强大的推理能力意味着 o1 系列模型更多的表现舞台会出现在学术界。

 

 

不过,o1 也并非没有不足之处。

前面提到的响应速度就是其中之一。由于推理时间的加长,o1 的响应速度明显要慢于其他模型,有时可能需要 10 秒以上才能回答一些问题,而这其中还有很多问题甚至根本不需要推理。

 

 

值得注意的是,o1 存在速率限制。目前 o1-preview 每周限制 30 条消息,o1-mini 每周限制 50 条信息。同时,o1 非常价格昂贵。在 API 中,o1-preview 的价格为每 100 万个输入 tokens 15 美元,每 100 万个输出 tokens 60 美元。与 GPT-4o 相比,o1 输入成本提高了 3 倍,输出成本提高了 4 倍。o1-mini 则比 o1-preview 便宜 80%。

此外,o1 可能还可能更容易出现“幻觉”。OpenAI 测试人员反馈称 o1 比 GPT-4o 更容易产生幻觉,模型会自信地编造东西,很少承认自己得不出问题答案。

Noam Brown 也称看到了很多 o1 的失败案例,但好在“OpenAI 知道如何改进这些问题。”

 

 

作为早期模型,无法浏览网页、上传文件和图像也是 o1 暂时无法取代 GPT-4o 的原因,但 o1 目前确实具有图像分析功能,只不过功能暂时被禁用,需要等待额外的测试。目前看来,OpenAI 还是有意让 o1 成为更全面的下一代模型的,“我们期望添加浏览、文件和图像上传以及其他功能,以使它们对每个人都更有用。”o1 取代 GPT-4o 只是时间问题。

OpenAI o1 背后团队有多位华人,

Ilya Sutskever 也是基础贡献者

在官方公告中,OpenAI 也列出了 o1 项目贡献者名单,其中,有多位华人成员在 OpenAI o1 模型的研发过程中发挥了重要作用,涵盖了从研究到安全等多个领域。

其中既有参与了 o1 模型的安全相关工作的 OpenAI 安全系统团队负责人 Lilian Weng,也有曾任 Google Brain 研究科学家、思维链提出者的 OpenAI 研究员 Jason Wei,还有 GPT-4o 、GPT-4o mini 核心贡献者 Hongyu Ren 以及 ChatGPT、GPT-4、GPT-4o mini 作者之一的 Shengjia Zhao等。

 

 

此外,在 o1 基础贡献者的名单中还出现了 Ilya Sutskever。作为 OpenAI 前首席科学家,Ilya Sutskever 虽然早已离开 OpenAI,但其对 OpenAI 研究带来的影响还是持续至今。不久前,Ilya Sutskever 的初创公司 Safe Superintelligence 才拿下 10 亿美元种子轮融资,完成了从初创公司到独角兽的升级。

 

 

而微软对 o1 亦有贡献,在 OpenAI 的表述中,Microsoft Azure 通过基础设施设计和管理支持 o1 模型训练,Microsoft Bing 团队和 Microsoft 安全团队也在安全部署方面与 OpenAI 进行了合作。

以下是完整团队名单:

 

可以看到,OpenAI 相比以往更加重视模型的安全性,公司团队在 o1 项目上提出了一种新的安全培训方法,即利用模型推理能力使其遵守安全和对齐准则。

OpenAI 测试 o1 模型在用户试图绕过安全规则时是否能继续遵循安全规则时发现,o1-preview 在最难的越狱测试中的得分为 84(评分范围为 0-100),作为对比,GPT-4o 得分仅为 22。

早些时候,OpenAI 才与美国人工智能安全研究所签署人工智能安全研究、测试和评估协议,与美国政府在模型安全评估能力、安全风险减轻方面进行合作研究。这或许也是 OpenAI 急着推出 o1 模型的原因之一,作为 AI 领域最大的独角兽,必须在 AI 安全性上做出表态与动作。

当然,也有部分声音认为 OpenAI 推出 o1 是因为感受到了市场的压力。在模型性能上,谷歌 DeepMind 已经有“无需额外调整,只需为模型提供更多的计算时间和指导就可以显著提高模型性能”的研究,在模型安全上,Ilya Sutskever 新公司已经成为 OpenAI 潜在的强大竞争对手,因此,OpenAI 这回还是选择了自己的常用做法,通过提前发布模型抢占市场优势。

不过,在 o1 率先推出后,其竞争对手不久后也会陆续出现,且大概率模型价格会越来越便宜,不完美的 o1 模型需要在性能和价格上再作出进步,给用户更多选择的理由。

 

广告图片
发新帖 热门主题
站长推荐 | 12元/月香港免备案主机

AI飞升社区 aifeisheng.com

本站为AI驱动,部分内容由AI大模型生成,不代表本站观点.

XiunoBBSWin95