找到"

Gpt 免费 试用

"相关图片 954条
陶哲轩:「我最近稍微试用了 OpenAI 的新迭代版本 GPT,即 GPT-o1,它在运行大语言模型之前执行一个初步的推理步骤。相比之前的版本,GPT-o1 确实是一款功能更强大的工具,但在处理高级的数学研究任务时仍然表现欠佳。以下是一些具体的实验(基于我获准访问的原型版本模型)。在 网页链接 中,我重复了 网页链接 中的实验,我要求 GPT 回答一个表述模糊的数学问题,该问题可以通过从文献中找到合适的定理(克莱默定理)来解决。之前,GPT 能提到一些相关概念,但细节却是无稽之谈。而这一次,GPT 识别出了克莱默定理,并给出了一个完全令人满意的答案。在 网页链接 中,我给新模型提出了一个具有挑战性的复分析问题(我之前曾要求 GPT-4 协助撰写该问题的证明,见 网页链接 )。这次的结果比之前的模型更好,但仍稍显令人失望:新模型在提供大量提示和推动的情况下可以逐步推导出正确的(且结构良好的)解答,但没有独立生成关键的概念性思路,并且犯了一些非小的错误。这个体验大致相当于在指导一个普通的研究生,虽然不算完全不合格,但也表现不佳。然而,这确实比之前的模型有所提升,后者的能力更接近于一个实际上不合格的研究生。我认为再经过一两个版本的改进(以及与其他工具的整合,如计算机代数软件和证明助手),就可能达到“合格研究生”的水平,届时这个工具可能会在研究级别的任务中发挥显著作用。作为第三个实验,我要求(见 网页链接 )新模型开始将一个结果形式化到 Lean 中(具体来说,是通过另一种形式的素数定理来推导出一个形式),并将其分解为子引理,模型将形式化这些引理的陈述,但不包括证明。在这方面,结果是令人鼓舞的,因为模型理解了任务并合理地完成了问题的初步分解,但由于缺乏 Lean 及其数学库的最新信息,生成的代码中包含了几个错误。然而,我可以想象,如果这个模型的能力专门针对 Lean 和 Mathlib 进行了微调,并且集成到一个集成开发环境(IDE)中,它在形式化项目中的实用性将会非常高。」
陶哲轩:「我最近稍微试用了 OpenAI 的新迭代版本 GPT,即 GPT-o1,它在运行大语言模型之前执行一个初步的推理步骤。相比之前的版本,GPT-o1 确实是一款功能更强大的工具,但在处理高级的数学研究任务时仍然表现欠佳。以下是一些具体的实验(基于我获准访问的原型版本模型)。在 网页链接 中,我重复了 网页链接 中的实验,我要求 GPT 回答一个表述模糊的数学问题,该问题可以通过从文献中找到合适的定理(克莱默定理)来解决。之前,GPT 能提到一些相关概念,但细节却是无稽之谈。而这一次,GPT 识别出了克莱默定理,并给出了一个完全令人满意的答案。在 网页链接 中,我给新模型提出了一个具有挑战性的复分析问题(我之前曾要求 GPT-4 协助撰写该问题的证明,见 网页链接 )。这次的结果比之前的模型更好,但仍稍显令人失望:新模型在提供大量提示和推动的情况下可以逐步推导出正确的(且结构良好的)解答,但没有独立生成关键的概念性思路,并且犯了一些非小的错误。这个体验大致相当于在指导一个普通的研究生,虽然不算完全不合格,但也表现不佳。然而,这确实比之前的模型有所提升,后者的能力更接近于一个实际上不合格的研究生。我认为再经过一两个版本的改进(以及与其他工具的整合,如计算机代数软件和证明助手),就可能达到“合格研究生”的水平,届时这个工具可能会在研究级别的任务中发挥显著作用。作为第三个实验,我要求(见 网页链接 )新模型开始将一个结果形式化到 Lean 中(具体来说,是通过另一种形式的素数定理来推导出一个形式),并将其分解为子引理,模型将形式化这些引理的陈述,但不包括证明。在这方面,结果是令人鼓舞的,因为模型理解了任务并合理地完成了问题的初步分解,但由于缺乏 Lean 及其数学库的最新信息,生成的代码中包含了几个错误。然而,我可以想象,如果这个模型的能力专门针对 Lean 和 Mathlib 进行了微调,并且集成到一个集成开发环境(IDE)中,它在形式化项目中的实用性将会非常高。」