关于OpenAI的一些思考

原文:Reflections on OpenAI

三周前,我离开了OpenAI。我是在2024年5月加入这家公司的。

我想分享一些我的思考,因为外界对OpenAI的所作所为众说纷纭、云里雾里,但很少有关于在那里工作的真实文化感受的第一手描述。

Nabeel Qureshi写过一篇很棒的文章,叫做《对Palantir的反思》,文中他深入思考了是什么让Palantir与众不同。我也想趁着记忆犹新,为OpenAI做同样的事情。你在这里不会看到任何商业机密,更多的是关于这个史上最引人入胜的组织之一,在当前这个极其有趣的时刻,我对其的一些反思。

首先要说明的是:我决定离开并没有任何个人恩怨——事实上,我对此内心非常纠结。从一个创业公司的创始人转变为一个3000人组织的员工,这个过程是艰难的。现在,我渴望一个新的开始。

工作的质量很有可能会吸引我再次回去。很难想象还有什么比构建AGI(通用人工智能)更具影响力的事了,而LLM(大语言模型)无疑是这十年来的技术创新之最。我很幸运能亲眼见证一些发展,并参与了Codex的发布。

当然,这些只是我个人的观察,并不代表公司的观点。OpenAI是一个很大的地方,这只是我管中窥豹,所见有限。

文化

关于OpenAI,首先要知道的是它发展得有多快。我刚加入时,公司只有1000多人。一年后,已经超过3000人,而我的司龄已经能排进前30%。几乎所有的领导层,他们现在的工作都和两三年前大相径庭。¹

当然,当你扩张得这么快时,一切都会出问题:公司层面的沟通方式、汇报结构、产品交付流程、人员管理和组织方式、招聘流程等等。不同团队的文化差异很大:有些团队总是在全力冲刺,有些团队则是在照看大型的训练任务,还有些则以一种更为稳健的节奏前进。不存在单一的OpenAI体验,研究、应用和GTM(市场推广)团队的运作时间维度也截然不同。

OpenAI一个不寻常之处在于,所有事情——我是说所有事情——都在Slack上进行。没有电子邮件。我在那里的全部时间里,可能总共就收了大约10封邮件。如果你不善于组织信息,你会觉得这极其分散注意力。但如果你用心管理你的频道和通知,还是能让工作变得相当高效的。

OpenAI的文化非常自下而上,尤其是在研究领域。我刚来的时候,开始询问下一季度的路线图。我得到的回答是:“这东西不存在”(不过现在有了)。好的想法可以来自任何地方,而且事先往往很难判断哪个想法会最有成果。与其说有一个宏大的“总体规划”,不如说进展是迭代式的,是随着新研究成果的出现而逐步揭示的。

得益于这种自下而上的文化,OpenAI也非常任人唯贤。从历史上看,公司领导的晋升主要基于他们提出好点子并执行的能力。许多能力极强的领导并不擅长在全体会议上演讲或玩弄政治手腕。在OpenAI,这些事没有在其他公司那么重要。最好的想法往往能最终胜出。²

这里有强烈的行动偏好(你可以直接动手去做)。不同但相关的团队最终想到一块儿去,这种情况并不少见。我最初参与了一个与ChatGPT Connectors类似(但对内)的项目。在我们决定推动发布之前,公司内部大概有三到四个不同的Codex原型在流传。这些项目通常是由少数几个人在没有请求许可的情况下发起的。一旦它们显示出潜力,团队就会迅速围绕它们形成。

Andrey(Codex的负责人)过去常常告诉我,你应该把研究员看作是他们自己的“迷你CEO”。这里有一种强烈的倾向,就是去做你自己的事情,看看结果如何。这有一个必然结果——大多数研究都是通过用一个有趣的技术难题来“钓”一个研究员来完成的。如果某件事被认为是无聊的或“已解决”的,那它很可能就不会有人去做了。

优秀的研究经理影响力极大,同时也极其稀缺。最优秀的研究经理能够将许多不同的研究项目联系起来,并促成一个更大模型的训练。优秀的PM(产品经理)也是如此(在此向ae致敬)。

我合作过的ChatGPT的EM(工程经理)们(Akshay, Rizzo, Sulman)是我见过的最沉着冷静的人。感觉他们到了这个地步,已经是见惯了各种大风大浪³。他们大多数人管理风格比较放手,但会招聘优秀的人才,并努力确保他们能获得成功所需的支持。

OpenAI的转向非常迅速。这是我们在Segment时非常看重的一点——当你获得新信息时,做正确的事远比因为已有计划而固守陈规要好。令人瞩目的是,像OpenAI这样规模的公司仍然保持着这种精神——Google显然没有。公司决策迅速,一旦决定了方向,就会全力以赴。

公司受到外界极大的审视。我来自B2B企业背景,这对我来说有点冲击。我经常在媒体上看到尚未在内部宣布的新闻。我告诉别人我在OpenAI工作,对方往往会带着一种先入为主的看法。一些Twitter用户还运行着自动机器人,检查是否有新功能即将发布。

因此,OpenAI是一个非常保密的地方。我不能向任何人详细透露我的工作内容。有少数几个Slack工作区设置了各种权限。收入和烧钱的数字更是被严密守护。

OpenAI也比你想象的要严肃得多,部分原因是感觉赌注实在太高了。一方面,目标是构建AGI——这意味着有很多事情要做对。另一方面,你在努力打造一个被数亿用户用于从医疗建议到心理治疗等各种事务的产品。再者,公司正在世界最大的舞台上竞争。我们会密切关注Meta、Google和Anthropic的动态——我敢肯定他们也一样。所有世界主要国家的政府都在密切关注这个领域。

尽管OpenAI在媒体上经常被口诛笔伐,但我遇到的每个人实际上都在努力做正确的事。鉴于其面向消费者的特性,它是几大实验室中最引人注目的一个,因此也招致了很多诽谤。

话虽如此,你可能不应该把OpenAI看作一个单一的整体。我把OpenAI看作一个像“洛斯阿拉莫斯”那样起步的组织。它最初是一群科学家和工匠,探索科学的前沿。这个团体碰巧意外地催生了历史上最具病毒式传播效应的消费级应用。然后它又发展出向政府和企业销售的雄心。因此,不同司龄、不同部门的人有着非常不同的目标和观点。你在那里待得越久,就越可能从“研究实验室”或“为善的非营利组织”的视角看待事物。

我最欣赏的一点是,公司在分享AI成果方面真正做到了“言行一致”。最前沿的模型并不会被保留给某个需要签订年度协议的企业级客户。世界上任何人都可以登录ChatGPT获得答案,即使没有登录账号。还有一个你可以注册使用的API——而且大多数模型(即使是SOTA或专有模型)也往往会很快进入API,供创业公司使用。你可以想象一个与我们今天所处的截然不同的体制。OpenAI在这方面值得大加赞赏,这至今仍是公司DNA的核心。

如果你经常阅读Zvi或Lesswrong的文章,你可能会觉得安全问题没那么受重视,但实际上它比你想象的要重要得多。有大量的人在致力于开发安全系统。鉴于OpenAI的性质,我看到更多关注的是实际风险(仇恨言论、滥用、操纵政治偏见、制造生物武器、自残、提示注入),而不是理论风险(智能爆炸、权力寻求)。这并不是说没有人在研究后者,肯定有人专注于理论风险。但从我的角度来看,那不是重点。大部分已完成的工作没有被公开发表,OpenAI真的应该多做一些工作来公布它们。

与其他在各种招聘会上随意分发周边纪念品(swag)的公司不同,OpenAI不怎么送东西(即使对新员工也是如此)。取而代之的是,会不定期有“空投(drops)”,你可以订购库存商品。第一次“空投”时,因为需求太大,直接把Shopify商店搞垮了。当时内部还流传着一个帖子,教大家如何POST正确的json payload来绕过这个问题。

与GPU成本相比,几乎所有东西都是可以忽略不计的零头。给你一个概念:作为Codex产品一部分开发的一个小众功能,其GPU成本足迹与我们整个Segment的基础设施相当(虽然规模不及ChatGPT,但也承载了相当一部分互联网流量)。

OpenAI可能是我见过最雄心勃勃到令人畏惧的组织。你可能认为拥有世界上最顶级的消费应用之一就足够了,但它还渴望在几十个领域竞争:API产品、深度研究、硬件、编程代理、图像生成,以及一些尚未公布的领域。这里是孕育想法并付诸实施的沃土。

公司非常关注Twitter。如果你发了一条关于OpenAI的推文火了,很有可能有人会读到并予以考虑。我的一个朋友开玩笑说:“这家公司是靠Twitter上的‘感觉’(vibes)来运作的”。作为一家消费品公司,这或许不无道理。当然,围绕使用情况、用户增长和留存率仍有大量的分析——但“感觉”也同等重要。

OpenAI的团队比其他地方流动性更强。在发布Codex时,我们需要一些经验丰富的ChatGPT工程师的帮助才能按时发布。我们和一些ChatGPT的EM开会提出了请求。第二天,我们就有两位牛人准备好投入进来帮忙。没有“等季度规划”或“重新调配人力”这种事。一切都进行得非常快。

领导层非常亲力亲为,并且深度参与。在OpenAI这样的公司,这可能显而易见,但每位高管似乎都非常投入。你会看到gdb、sama、kw、mark、dane等人经常在Slack上发言。这里没有甩手掌柜式的领导。

代码

OpenAI使用一个巨大的monorepo(单一代码库),其中大部分是Python(尽管有越来越多的Rust服务和少数用于网络代理等功能的Golang服务)。这导致了很多看起来很奇怪的代码,因为写Python的方式太多了。你会遇到来自有10年Google经验的资深人士为规模化设计的库,也会看到新晋博士写的随手丢弃的Jupyter notebook。几乎所有东西都围绕FastAPI创建API和Pydantic进行验证。但并没有在全公司范围内强制执行统一的风格指南。

OpenAI的一切都运行在Azure上。有趣的是,我认为值得信赖的服务只有三个:Azure Kubernetes Service、CosmosDB(Azure的文档存储)和BlobStore。这里没有真正等同于AWS的Dynamo、Spanner、Bigtable、Bigquery、Kinesis或Aurora的服务。大家很少会从自动伸缩单元的角度去思考问题。IAM的实现也比AWS提供的要有限得多。并且有一种强烈的倾向于内部自研。

在人员方面(至少在工程领域),存在一条非常显著的Meta → OpenAI人才输送链。在很多方面,OpenAI都像早期的Meta:一个爆款消费应用,初期的基础设施,以及对快速行动的渴望。我看到的大部分从Meta和Instagram引进的基础设施人才都非常强。

把这些因素放在一起,你会看到很多核心的基础设施部分感觉像是Meta的翻版。有一个内部重新实现的TAO。一个在边缘整合身份验证的努力。我相信还有很多我不知道的其他项目。

Chat(聊天)的概念根深蒂固。自从ChatGPT一飞冲天后,很多代码库都是围绕聊天消息和对话的概念构建的。这些基本元素已经如此根深蒂固,你若忽视它们,很可能会自讨苦吃。我们在Codex中确实偏离了这些(更多地借鉴了responses API的经验),但我们也利用了大量前人的成果。

代码为王(Code wins)。决策通常由打算做这项工作的团队做出,而不是由某个中央架构或规划委员会。结果就是强烈的行动偏好,以及代码库中经常出现许多重复的部分。我至少见过六七个用于队列管理或agent循环之类的库。

在一些领域,快速扩张的工程团队和工具的缺乏造成了问题。sa-server(后端单体服务)有点像个垃圾场。CI在主干分支上崩溃的频率比你想象的要高得多。即使是并行运行并只考虑一部分依赖的测试用例,在GPU上也可能需要大约30分钟才能跑完。这些问题并非无法解决,但它很好地提醒我们,这类问题无处不在,而且当你扩张得超快时,它们可能会变得更糟。值得称赞的是,内部团队正投入大量精力来改善这种情况。

我学到的其他东西

一个大型消费品牌是什么样的。直到我们开始做Codex,我才真正理解这一点。所有事情都以“pro subs”(专业版订阅用户)来衡量。即使对于像Codex这样的产品,我们也主要从个人使用的角度来考虑用户入门流程,而不是团队。这有点颠覆了我这个主要来自B2B/企业背景的人的思维方式。你只要打开一个开关,第一天流量就来了。

大型模型是如何训练的(从宏观层面)。这有一个从“实验”到“工程”的光谱。大多数想法都始于小规模实验。如果结果看起来有希望,它们就会被整合到一个更大的训练任务中。实验既包括调整核心算法,也包括调整数据组合并仔细研究结果。在规模大的一端,进行一次大型训练几乎就像一个巨大的分布式系统工程。会出现奇怪的边缘情况和你没预料到的事情。你需要去调试它们。

如何做GPU算力规划(GPU-math)。作为Codex发布的一部分,我们必须预测负载容量需求。做这件事是我第一次真正花时间对任何GPU进行基准测试。要点是你应该从你需要的延迟要求(总延迟、token数量、首个token生成时间)出发,而不是自下而上地分析一个GPU能支持什么。每一次新的模型迭代都可能彻底改变负载模式。

如何在一个大型Python代码库中工作。Segment是微服务和Golang、Typescript的结合体。我们没有OpenAI那么广泛的代码。我学到了很多关于如何根据贡献代码的开发者数量来扩展代码库的知识。你必须为“默认就能用”、“保持主干分支干净”和“难以误用”之类的事情设置更多的护栏。

发布Codex

我在OpenAI最后三个月的一个重要部分就是发布Codex。这无疑是我职业生涯的亮点之一。

背景是,在2024年11月,OpenAI定下了一个在2025年发布一个编程agent的目标。到2025年2月,我们已经有了一些内部工具在使用模型,效果很好。我们感受到了发布一个专门针对编程的agent的压力。很明显,模型已经发展到了对编程非常有用的地步(看看市场上新涌现的各种vibe-coding工具就知道了)。

我提前结束了陪产假,回来参与Codex的发布。我回来一周后,我们经历了一次(有点混乱的)两个团队的合并,然后开始了一场疯狂的冲刺。从开始(写下第一行代码)到结束,整个产品只用了7周时间就打造出来了。

Codex的冲刺可能是我近十年来工作最拼命的一段时间。大多数晚上都工作到11点或午夜。每天早上5点半被新生儿吵醒。早上7点又去办公室。大部分周末都在工作。我们整个团队都拼尽了全力,因为每一周都至关重要。这让我想起了在YC的日子。

很难形容这种速度有多么不可思议。我没见过任何组织,无论大小,能在如此短的时间内从一个想法变成一个完全发布并免费提供的产品。范围也不小;我们构建了一个容器运行时,对代码库下载进行了优化,微调了一个定制模型来处理代码编辑,处理了各种git操作,引入了一个全新的交互界面,实现了互联网访问,最终做出了一个用起来普遍令人愉快的产品。⁴

不管你怎么说,OpenAI仍然拥有那种发布产品的精神。⁵

好消息是,对的人可以创造奇迹。我们是一个由约8名工程师、约4名研究员、2名设计师、2名GTM和1名PM组成的资深团队。如果没有这个团队,我想我们已经失败了。没有人需要太多指导,但我们确实需要大量的协调。如果你有机会和Codex团队的任何人共事,请记住他们每一个人都非常出色。

发布前一晚,我们五个人熬到凌晨4点,试图部署主单体服务(一个需要数小时的过程)。然后回到办公室,参加早上8点的发布公告和直播。我们打开了功能开关,开始看到流量涌入。我从未见过一个产品仅仅因为出现在左侧边栏就能获得如此迅速的增长,但这就是ChatGPT的力量。

在产品形态上,我们最终选择了一种完全异步的形式。与Cursor(当时是这样,现在也支持类似模式)或Claude Code等工具不同,我们的目标是让用户可以启动任务,然后让agent在自己的环境中运行。我们的赌注是,在终极形态中,用户应该像对待同事一样对待编程agent:他们向agent发送消息,agent花一些时间完成工作,然后带着一个PR(代码合并请求)回来。

这有点像一场赌博:我们如今正处在一个有点尴尬的阶段,模型很好,但还不够好。它们可以连续工作几分钟,但还不能工作几小时。用户对模型能力的信任程度差异很大。我们甚至还不清楚模型的真正能力是什么。

从长远来看,我确实相信大多数编程会变得更像Codex。与此同时,看到所有这些产品如何展开将会非常有趣。

Codex(也许不足为奇)非常擅长在一个大型代码库中工作,理解如何导航。我看到的与其他工具最大的区别是能够同时启动多个任务并比较它们的输出。

我最近看到有公开数据比较了不同LLM agent创建的PR数量。仅从公开数据看,Codex已经生成了630,000个PR。这相当于发布后的53天里,每个工程师创造了大约78,000个公开PR(你可以自己猜测私有PR的倍数)。我不确定我这辈子是否做过这么有影响力的事情。

临别感言

说实话,我最初对加入OpenAI是有些担心的。我不确定牺牲我的自由,有一个老板,成为一个更大机器中一个小得多的零件会是什么感觉。我一直对此事保持低调,以防它不适合我。

我确实想从这段经历中得到三样东西……

  1. 建立对模型如何训练以及能力走向的直觉
  2. 与优秀的人共事并向他们学习
  3. 发布一个伟大的产品

在回顾这一年时,我认为这是我做过的最好的决定之一。很难想象在其他任何地方能学到更多。

如果你是一个创始人,感觉你的创业公司真的停滞不前,你要么应该 1) 深刻地重新评估如何进行更多次尝试,要么 2) 去加入一家大的AI实验室。现在是创造的绝佳时机。但它也是一窥未来走向的绝佳时机。

在我看来,通往AGI的道路目前是三强争霸:OpenAI、Anthropic和Google。这些组织中的每一个都会根据其DNA(消费者导向 vs 企业导向 vs 坚如磐石的基础设施+数据)采取不同的路径。⁶ 在其中任何一家工作都将是一次大开眼界的经历。

感谢Leah,她在我熬夜的那些日子里给予了无比的支持,并承担了大部分育儿工作。感谢PW、GDB和Rizzo给了我一个机会。感谢SA团队的伙伴们教我入门:Andrew, Anup, Bill, Jeremy, Kwaz, Ming, Simon, Tony, 和 Val。感谢Codex核心团队给了我一生难忘的旅程:Albin, AE, Andrey, Bryan, Channing, DavidK, Gabe, Gladstone, Hanson, Joey, Josh, Katy, KevinT, Max, Sabrina, SQ, Tibo, TZ 和 Will。我永远不会忘记这次冲刺。


¹ 每次有领导离职,很容易让人解读出很多戏剧性的内情,但我认为其中约70%的原因都归结于这一事实。 ↩

² 我确实认为我们正处于一个轻微的阶段性变化中。公司正在从外部招聘大量高级领导。我总体上支持这样做,我认为公司能从注入新的外部DNA中受益匪浅。 ↩

³ 我感觉,扩展历史上增长最快的消费产品这个过程能锻炼出很多能力。 ↩

⁴ 当然,我们也站在巨人的肩膀上。CaaS团队、核心RL团队、人类数据团队和通用的应用基础设施团队使这一切成为可能。 ↩

⁵ 我们也保持了这种势头。 ↩

⁶ 几周前我们看到Meta有一些重磅招聘。xAI发布了在基准测试中表现良好的Grok 4。Mira和Ilya手下都有出色的人才。也许这会改变格局(人才是优秀的)。但他们还有一些追赶工作要做。 ↩

  • 转载请保留原文链接谢谢!
  • 本站所有资源文章出自互联网收集整理,本站不参与制作,如果侵犯了您的合法权益,请参照关于页面联系本站我们会及时删除。
  • 本站发布资源来源于互联网,可能存在水印或者引流等信息,请用户擦亮眼睛自行鉴别,做一个有主见和判断力的用户。
  • 本站资源仅供研究、学习交流之用,若使用商业用途,请购买正版授权,否则产生的一切后果将由下载用户自行承担。
  • 联系方式 (#替换成@):feedback#crazykids.tech

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注