产品中心 你的位置:澜筑建材有限公司 > 产品中心 >

刚刚,Codex 大更新,你在电脑的操作正在成为 AI 训戒包

发布日期:2026-06-20 16:06    点击次数:94

刚刚,Codex 大更新,你在电脑的操作正在成为 AI 训戒包

你坐在电脑前干活,操纵有个家伙一声不吭盯着你。你点哪它看哪,你填什么它记什么,等你作念完,它说一句:下次这活我来。

这即是 Codex 刚刚发布的重磅功能,叫 Record & Replay。

翻译过来即是录制加复现。

你把一套操作齐全演示一遍,Codex 在操纵不雅察学习,然后把整套过程打包成一个 skill(手段)。下回要干雷同的活,新开个对话,让它调这个 skill,再告诉它此次那儿不一样,剩下的它我方惩办。

图形界面,这个原来为了让东说念主类开脱敕令行而发明的伟大创造,当今有望成了 AI 领受电脑的现成基础行为。

「学徒」模式上线,Codex 启动复制你的职责流

固然,不是系数任务齐合乎这样玩。

Record & Replay 对准的是那种重复、看个东说念主偏好、说不明晰但作念一遍你就懂的活。适用场景有这样几个:报销、订泊车位、建一个建树正确的 issue、发视频、拉周期性报表。

这些活有个共同点。要么智力又固定又繁琐,要么里头藏着一堆独一你我方知说念的隐性法例。

比如文献该何如定名、某个字段默许填啥、到了某个支路口该往哪走。这种东西你要用翰墨一条条写明晰给 AI,资本极高。不如平直作念一遍,让它我方看。

操作过程也比念念象中省事,主要拆成了七步。

先在 Codex 讹诈里翻开 Plugins(插件),搜索并添加 Record & Replay 插件。

然后它来要录制权限,你准备好了就点喜悦。

剩下的即是你在 Mac 上普通把活干一遍。

这本领 Codex 全程不雅察,学这套操作重心哪些方位、动哪些窗口的现实。

录制会一直开着,直到你主动住手。是以记取,专心作念那一个任务就行,别录着录着启动干别的。

干完从菜单栏或悬浮层住手,或者平直跟 Codex 说一声还是录完。

录完之后 Codex 会复盘一遍刚捕捉到的过程,我方草拟一个 skill。这个 skill 里写得很明晰:什么时候该用这套过程、需要哪些输入、按什么智力走、作念完何如考证效果。

你若是以为它写得不够好,还能让它再打磨。

几条录制提出值得照作念:

演示尽量短而齐全;录之前先把宗旨和那些每次会变的输入告诉 Codex;用果真输入,但密码和敏锐数据千万别录进去;录完后补上那些伏击的隐性偏好,比如定名表率、字段默许值、有辩论点何如选;过程作念完就停,别拖到无关的驱散动作上。

至于,下次复现就通俗了。新开对话,让它调这个 skill,把此次的具体值喂给它,比如要传哪个文献、建哪个 issue、报表要哪段本领。

有个关节设定需要堤防:Codex 会把这个 skill 看成可复用的高下文(reusable context)。

什么兴味呢?这个 skill 不是一段写死的剧本,而是一份它每次齐能拿来参考、再聚首面前环境活泼实施的说明书。是以团结个 skill,此次传 A 文献、下次传 B 文献,它齐能套着用。

具体干活的时候,它会调遣面前环境里能用的器具,包括 Computer Use、浏览器操作和已装配的插件,把过程跑完。

Codex 到底何如「用电脑」

来看一次公开演示。

这回 Codex 要学的是上传 YouTube 视频的齐全过程。它的职责花式是盯着用户在 YouTube Studio 里操作,把点击、选文献、敲翰墨这一整串动作全捕捉下来。

诸如选视频文献、填标题和态状、传缩略图、加字幕、设诡秘选项等等,Codex 全记下来了,随后展示了零丁复现的智力。

更故兴味的是,它不仅仅机械地照着智力复读,还试图搞懂背后的逻辑和门说念。

比如什么时候该把视频设成 Private、什么时候设 Unlisted,何如管 .mp4 视频文献和 .srt 字幕文献这种成对的东西,元数据字段该何如填,字幕何如跟视频对上号。

它以致现场处理了一次报错:

缺 Python 环境的时候,它平直从已装配的 skill 位置读信息,我方适配往时了。而这一整段录下来,转译成一个随时能调用的 skill。

换句话说,Codex 一朝学会,表面上就能在没东说念主盯着的情况下反复实施。对那些天天要传一堆视频的现实职责流来说,这事如实有效。

要搞懂它凭什么能复现,得先看 Codex 到底何如操作电脑。

OpenAI 工程师 Jason 之前梳理过 Codex 用电脑的三条路,智力有叠加,各有各的土地。总原则是:能用插件或 MCP 就先用,视觉适度留给结构化器具够不着的边角。

第一种叫 Computer Use,隐蔽面最广。

它能在 macOS 和 Windows 上看见并操作图形界面,通过窗口、菜单、键盘、剪贴板来动那些授权过的讹诈。

代价是慢,因为它得看界面、判断点哪、等反馈、再证实景况,一步一趟头。但平允也显明,那些莫得 API 的讹诈它也能凑合,比如 Spotify、Xcode、系统迷惑、iOS 模拟器,以致能通过 iPhone 镜像去操作 iPhone。

在 macOS 上它还能后台跑,你能同期干别的。它信任鸿沟也最宽,凡触及钱、账户、支付、笔据的改换,提出你全程在场盯着。

这也讲明了为什么 Record & Replay 只可随着 Computer Use 通盘开启。它录下来的操作要复现,乳揉みま痴汉电车中文字幕靠的即是 Computer Use 这套看界面、动鼠标键盘的底层智力。

第二种是 Chrome 膨大。

它领受你还是登录好的 Chrome,合乎那种靠账号、cookie、已认证标签页的任务,比如 Gmail、Salesforce、里面神态盘。它能玩多标签,把团结个任务的好几个标签页串成一个齐全职责流来知晓。

代价是它带着你的身份在动,网站会把它的点击和提交齐当成你本东说念主,是以发送、发布、购买这种智力一般得先过你审核。

第三种是讹诈内浏览器。

它活在 Codex 对话里面,跟你分享团结个渲染页面,相配合乎迷惑调试 Web 讹诈。它最大的特质是终止,不碰你的浏览器建树、cookie、膨大和登录会话。

需要的时候这是放浪,不需要的时候反而是个干净的鸿沟。迷惑者能让它改代码、操作页面、截图、修完再跑一遍,造成一个精良的反馈轮回,还能平直点页面元素留想象见解。

另外还有个叫 Appshot 的机制,它不操作电脑,只隆重把 Codex 的堤防力指到你目下的东西上。在 Mac 上连按两下 CMD 键,它就持最前边阿谁窗口,把图像和翰墨相近对话。你对着一个报错、一封邮件、一个看不懂的表单平直提问就行。

用 Jason 的话说,Appshot 隆重指标的,浏览器、Chrome 膨大和 Computer Use 隆重入手。而 Record & Replay 录下来的 skill,恰是不错随时调遣上头即兴一种或几种花式来复现。

东说念主类操作软件的训戒,正在变成 AI 手段

从本年以来,Codex 的发布节拍仍在束缚加快,许多东说念主齐不知说念的是,Codex 讹诈、CLI 和 SDK 不是只可配 OpenAI 自家模子。

在 config.toml 里配一下 model_providers,你不错把 Codex 指向 Ollama、LM Studio 这类土产货开源模子,也能接 Mistral、Azure、Amazon Bedrock 这些第三方。传个 --oss 参数就能跑土产货 provider,不指定的话默许走 oss_provider。

▲ https://developers.openai.com/codex/config-advanced#oss-mode-local-providers

也即是说,Record & Replay 这种智力,载体自己是个对模子绽放的客户端。

它也有适用限制。Record & Replay 是从一次演示里快速造 skill 的捷径,但如果你念念把一个踏实的包发给系数团队、紧缚好几个 skill、加讹诈集成或 MCP 功绩器、管装配元数据,那就别停在录制层面,安分打包成零丁插件。

还有几个上手前最佳先知说念的放浪。

Record & Replay 目前只在 macOS 上能用,首发不隐蔽欧盟、英国和瑞士,况兼必须先开启 Computer Use 功能。

如果你是组织照应员,还有个坑得淹没:

若是你们用 requirements.toml 长入管 Codex,那 [features].computer_use 这一项是连 Record & Replay 通盘管的。

▲ https://developers.openai.com/codex/record-and-replay

哪天把 computer_use 设成 false,你会发现这俩功能通盘消失。是以若是你发现「我这儿根柢看不到 Record & Replay」,先去查这一项是不是被关了。

「Record & Replay」的上线,看起来仅仅一个录制和复现操作的小功能,但放到更大的配景里,它代表的是 AI 与软件交互花式的一次变化。

往时,自动化的基础是 API。软件必须先绽放接口,把智力封装成机器能够调用的功绩,自动化器具和 AI 才能接办过程。莫得 API,莫得结构化进口,好多任务就无法结束自动化。

因此,传统自动化的鸿沟,频频取决于软件自得绽放若干智力。

但当今,OpenAI 试图绕开这层放浪。它不再条目软件专门为 AI 提供接口,而是让 AI 平直学习东说念主类使用软件的花式。东说念主能看懂按钮、菜单和窗口,它也去知晓;东说念主能完成点击、输入和切换页面,它也去实施。

这意味着,AI 的职责对象启动从 API 膨大到系数图形界面。换言之,「Computer Use」隆重赋予 AI 操作电脑的智力,而「Record & Replay」则隆重把东说念主的操作训戒千里淀成可复用的手段。

这背后对应的,其实是操作系统变装的变化。往时,操作系统是系数软件的组织者。咱们在 Mac 或 Windows 上装配各式讹诈,再由东说念主我方在不同软件之间切换、复制、整理和传递信息。

东说念主恒久是连结各个软件的中间层。

而当 AI 能够跨讹诈不雅察、知晓并实施任务时,它启动承担这层变装。关于用户来说,关注点渐渐从「怎样操作软件」,转向「念念完成什么事情」。

报销软件何如填、视频后台何如建树、多个系统之间怎样往返切换,这些细节表面上齐不错交给 AI 处理。照这样发展下去,改日着实等闲使用软件的,偶然是东说念主,而是 AI。

关于 AI 来说,漂亮的界面没有意旨,复杂的菜单也没有意旨。它更关怀的是:这个软件能不行完成任务、能不行被调用、能不行踏实实施过程。

从这个角度看,「Record & Replay」着实故兴味的方位,不是又多了一个自动化功能,而是它流露出一种新的趋势:东说念主正在从软件的平直操作家,渐渐变成软件智力的进修者。

今天咱们学习何如使用器具,改日好像更伏击的一项智力,是训诲 AI 使用器具。



下一篇:没有了

Powered by 澜筑建材有限公司 @2013-2022 RSS地图 HTML地图