OpenAI发布Codex：强大AI智能体革新软件开发

227 0

摘要

OpenAI推出Codex AI智能体，作为ChatGPT的云端工具，可执行代码生成、错误修复、测试运行等开发任务。其基于优化版o3模型（codex-1），通过强化学习训练，支持GitHub集成与沙盒环境运行，确保安全性。Codex具备多任务并行处理能力，生成代码需1-30分钟，用户可通过AGENTS.md自定义指令。当前仅向ChatGPT Pro/Enterprise/Team用户开放预览，后续将限制访问频率。与旧版Codex CLI（本地运行）不同，新Codex侧重云端协作与自动化流程。测试显示其在SWE-bench基准中准确率75%，优于o3-high（70%）。OpenAI计划扩展其与CI/CD等系统的集成，但强调生成代码需人工验证，避免恶意软件风险。该工具或重塑开发流程，但人类监督仍是关键。

人工智能驱动的软件工程领域迎来重大进展。OpenAI近日发布了一款名为Codex的全新AI Agent，预示着软件创建和维护方式的潜在变革。这款备受期待的工具以研究预览版的形式集成于ChatGPT之中，其发布引发了技术社区的广泛关注，并有望从根本上改变软件开发的格局。

什么是OpenAI Codex？

OpenAI Codex是一款基于云端的软件工程智能体，旨在同时处理多项开发任务。它由codex-1驱动，这是OpenAI o3模型的一个针对软件工程任务进行优化的版本。Codex能够执行包括编写新功能、修复代码错误、解答关于代码库的疑问以及提出代码合并请求等任务。

OpenAI发布Codex：强大AI智能体革新软件开发 “智能体(Agent)”一词的使用，暗示了Codex具备超越简单代码补全工具的自主性和积极性。OpenAI对o3模型进行了专门优化，使其更擅长处理软件开发中特有的推理和输出质量要求，这预示着其在编码相关任务上的性能将得到显著提升。并行处理多项任务的能力，有望显著提高开发效率，解决传统开发流程中的瓶颈问题。

主要特性与功能

Codex具备一系列强大的功能，旨在覆盖软件开发周期的多个环节：

编写新功能： 基于用户提供的需求和提示，Codex能够自动生成实现新功能的代码。
解答代码库疑问： 开发者可以向Codex提问关于现有代码库的问题，从而快速理解代码逻辑和结构。
修复代码错误： Codex能够识别并修复代码中存在的bug，提高代码质量和稳定性。
提出合并请求： Codex可以自动生成代码更改的合并请求，简化代码审查流程。
运行测试： Codex能够对生成的代码执行自动化测试，确保代码的正确性和可靠性。
读写文件： 在其沙盒环境中，Codex可以读取和编辑文件，方便进行代码更改和管理。
执行命令： Codex可以执行包括测试工具、代码检查器和类型检查器等命令，以辅助开发过程。
提供可验证证据： Codex会通过终端日志和测试输出的引用来提供其操作的可验证证据，方便用户追踪其执行的每一步。
GitHub集成： Codex与GitHub无缝集成，可以直接访问用户的代码仓库并提交合并请求。
AGENTS.md文件引导： 用户可以通过在代码仓库中放置AGENTS.md文件来指导Codex的行为，提供项目特定的指令和规范。

根据任务的复杂性，Codex通常需要1到30分钟来完成任务。此外，用户还可以配置Codex的运行环境，使其尽可能贴近本地开发环境。这些广泛的功能表明，OpenAI的目标是构建一个能够覆盖软件开发生命周期各个阶段的全面AI助手。

强调可验证证据和GitHub集成，体现了对透明度和与现有开发者工作流程无缝衔接的重视。AGENTS.md文件的机制凸显了为AI Agent提供定制化和项目特定指导的重要性。不同的任务完成时间表明，Codex旨在处理从简单到中等复杂程度的各种开发任务。

Codex的工作原理

OpenAI Codex的核心是codex-1模型，它是o3模型的一个专门为软件工程训练的版本。该模型通过强化学习在真实世界的编码任务和各种开发环境中进行训练。

这使得Codex能够生成风格与人类开发者相似、符合代码审查偏好、精确遵循指令并能迭代运行测试直至通过的代码。每项任务都在云端一个独立的沙盒虚拟计算机中运行。通过连接GitHub，Codex的环境可以预先加载用户的代码仓库。值得注意的是，Codex在一个与外部互联网和API隔离的环境中运行。codex-1模型经过测试的最大上下文长度为192k tokens。

通过真实世界的编码任务进行训练并与人类偏好对齐，表明OpenAI旨在提高工具的实用性和开发者接受度。沙盒和与互联网隔离的环境，强调了在处理AI生成的代码时对安全性的高度重视，防止了未经授权的访问或恶意代码的生成。上下文长度则提供了关于模型处理信息能力的具体技术细节。

可用性与访问

目前，OpenAI Codex正以研究预览版的形式向ChatGPT Pro、Enterprise和Team用户逐步开放。对Plus和Edu用户的支持也将在不久后推出。用户可以通过ChatGPT网页应用侧边栏的“code”或“ask”按钮来访问Codex。

OpenAI最初提供了“慷慨的访问权限”，但将在未来几周内实施速率限制。这种分阶段的发布策略表明，OpenAI优先考虑那些更有可能在研究预览阶段提供有价值反馈的用户。集成到ChatGPT界面中，使得现有用户能够轻松发现和使用这一强大的工具。未来引入速率限制，则表明OpenAI计划管理资源使用，并可能在未来引入定价机制。

潜在用例与应用

Codex可以处理多种软件开发任务，包括：编写新功能、修复错误、解答代码库疑问、生成拉取请求和运行测试。OpenAI内部已经使用Codex来卸载重复性任务、搭建新功能框架和起草文档。思科、Temporal、Superhuman和Kodiak等公司也已成为早期用户。

此外，最初的Codex曾被用于驱动GitHub Copilot、Pygma和Replit等应用程序。这些用例突显了Codex在常见软件开发场景中的实用性。OpenAI内部的使用验证了该工具的有效性。外部公司的参与表明了早期采用和潜在的实际影响。与之前Codex驱动的应用程序的联系，则提供了历史背景，并展示了OpenAI在编码AI领域的演进。

初步反应与专家意见

OpenAI产品负责人Alexander Embiricos提到了Codex的安全工作和与互联网隔离的环境。OpenAI社区对Codex的初步印象积极，认为其对软件开发者具有巨大潜力。OpenAI的直播发布会由Greg Brockman和其他团队成员主持。

Alexander Embiricos还表示，未来的开发将涉及Codex Agent自主工作。思科对探索Codex如何帮助其工程团队感到兴奋。有人将Codex与“氛围编码”相提并论，并讨论了其对现有工具的潜在影响。在SWE-bench性能基准测试中，codex-1的表现优于o3-high。Reddit用户也分享了他们的看法，既有兴奋也有疑虑。

这些专家意见和初步反应为Codex的发布提供了一个平衡的视角。OpenAI及其合作伙伴的兴奋之情突显了其被认为具有的潜力，而社区的反馈则引入了更为细致的观点，包括与现有工具的比较以及对局限性或炒作的担忧。基准测试数据则为Codex的性能提供了可量化的证据。

与OpenAI先前编码工具的比较

需要明确的是，此次发布的Codex与先前推出的Codex CLI工具有所不同。最初的OpenAI Codex模型曾为GitHub Copilot提供支持，该模型基于GPT-3，后已弃用。Codex CLI则是一个轻量级的开源编码Agent，可在终端中运行。新的Codex是集成在ChatGPT中的云端Agent，而Codex CLI则在本地运行。此外，OpenAI还发布了一个针对Codex CLI优化的轻量级模型版本（o4-mini）。

明确不同版本的“Codex”工具对于避免混淆至关重要。理解从最初模型到当前云端智能体的演变，有助于认识OpenAI在该领域的进展。强调云端Codex与本地Codex CLI之间的区别，有助于开发者根据自身需求选择合适的工具。

安全与保障措施

Codex在一个沙盒化的、与互联网隔离的环境中运行，无法访问外部网络。OpenAI强调，所有由AI Agent生成的代码都必须经过用户的手动审查和验证。

Codex被设计为能够可靠地拒绝开发“恶意软件”的请求。它通过引用终端日志和测试输出来提供可验证的操作证据。对于ChatGPT Enterprise用户，OpenAI不会使用其Codex内容来训练模型。对于其他计划的用户，模型训练取决于Codex中的“允许在您的内容上训练”设置，并且仅使用用户是GitHub管理员的仓库中的内容。

OpenAI显然将安全和负责任的使用放在首位，实施了这些措施。沙盒环境和缺乏互联网访问降低了运行AI生成代码相关的风险。需要人工审查强调了Codex旨在作为助手，而不是取代人类监督。拒绝恶意请求是一项关键的安全功能。通过可验证的证据实现透明性，允许用户审计AI的操作。关于数据训练的详细信息则提供了关于用户隐私的重要信息。

未来展望与发展方向

OpenAI的愿景是让开发者能够将更多的工作委托给像Codex这样的智能Codex Agent。他们计划使Codex智能体更具交互性和灵活性，允许在任务执行过程中进行指导和策略协作。

OpenAI还旨在将集成点扩展到ChatGPT和CLI之外，包括问题跟踪系统和CI/CD系统。他们的目标是实现一个统一的工作流程，结合实时协作（如Codex CLI）和异步委托。此外，OpenAI还在持续探索广泛使用智能体对开发者工作流程、技能发展和公平性的影响。

OpenAI设想了一个人工智能Agent在软件开发中发挥更重要作用的未来，增强人类能力并可能改变工作流程。计划的增强功能表明，他们正朝着更复杂和集成的AI助手方向发展。关注理解更广泛的影响，表明了对负责任地部署这项技术的态度。

结论

OpenAI Codex的发布标志着AI驱动软件开发领域的一个重要里程碑。作为一款强大的新型AI智能体，Codex具备编写新功能、修复错误、解答代码疑问和提出合并请求等多种能力，并且以研究预览版的形式集成于ChatGPT中。

其基于优化的o3模型和强化学习的训练方式，使其能够生成高质量的代码并安全地在沙盒环境中运行。尽管目前仅向部分用户开放，但Codex的潜力在于显著提高开发者的生产力和效率。研究预览阶段对于收集用户反馈和进一步完善工具至关重要。展望未来，Codex有望重塑软件开发的面貌，但人类的监督和专业知识仍将至关重要。

关键表格

特性	OpenAI Codex (云端)	Codex CLI (本地)
运行环境	云端，沙盒环境	本地终端
集成方式	ChatGPT侧边栏	终端命令
模型	codex-1 (基于o3)	o4-mini (默认)
主要用例	编写功能、修复错误、代码问答、生成拉取请求、运行测试等	本地代码编辑、重构、代码解释、快速原型设计等
可用性	ChatGPT Pro, Enterprise, Team用户 (研究预览版)	开源，GitHub下载

基准测试	模型	准确率 (%)
SWE-bench Verified	codex-1	75
SWE-bench Verified	o3-high	70
OpenAI内部任务	codex-1	75
OpenAI内部任务	o3-high	70
OpenAI内部任务	o4-mini-high	67
OpenAI内部任务	o1-high	11