当 AI Agent 逐渐走出对话框,真正的难点不再是 “回答得多聪明”,而是能否像人一样完成任务闭环:看懂屏幕、点击按钮、填写表单、整理文件、生成交付物,并把结果同步回团队协作系统。
我们开源的Open Cowork,正是一次面向 “桌面端虚拟同事” 的实践:一键安装、无需写代码,让模型在安全沙箱里操作你的工作空间文生图api,既能产出 PPT/Word/Excel/PDF 等专业成果Anthropic 接口,也能通过 GUI 直接操作电脑完成更复杂更通用的跨应用流程。
https://mp.weixin.qq.com/s/NylUAZLAWiBdkf6bkqbgOQ?click_id=6
PPT生成
飞书操控
一、为什么要做「能用电脑」的 AI?
过去两年,大模型的推理与生成能力突飞猛进,但在真实办公场景中,高频任务往往卡在执行层面
我们认为最便宜 Anthropic 接口,Agent 不应只止步于 “对话建议”。Open Cowork 的目标是将这些碎片化动作自动化:像人一样操作电脑,跑完流程,并以可交付的形式(文档、表格、PPT)落地,最终通过飞书等工具进入团队协作流。
二、Open Cowork 是什么?
Open Cowork 是 Claude Cowork 理念的开源增强实现。 它提供 Windows 与 macOS 的一键安装包,核心是一个 “沙箱化工作区”:模型被授权在指定 Workspace 内读写文件、调用工具,并通过内置 Skills 系统将数据加工成专业交付物。
此外word api,Open Cowork 不仅仅是 Claude Cowork 的开源复刻,我们还实现了近期热门的 OpenClaw 的核心远程控制功能(例如通过飞书远程发送指令并收到回复),以及支持了对电脑端 APP 的通用 GUI 操作(例如可以支持模型操作 Cursor APP 来进行代码的迭代改进与交互测试),这对于没有实现 MCP 接口的桌面 APP 尤为重要。
能力对比一览:
三、三大能力组合:
Skills × GUI × Remote
1)Skills:面向交付的 “工作流技能库”
Agent 的价值不应止步于 Chat 窗口。Open Cowork 内置了标准化的 Skills 系统(支持自定义与扩展)word api,核心目标只有一个:产出可用的文件
PPT 制作视频:从本地文件 / 大纲自动生成可编辑的 PPTX
2)GUI:让模型像人一样操作电脑,把能做的事情变多
API 总有覆盖不到的地方,但 UI 界面是通用的。GUI 模块让模型具备了 “人类操作” 的能力,将 Agent 的可用性扩展到 OS 层面。
在产品体验上,我们强调的是 “能做更多事、像人一样动手”。对于 GUI 理解与操作任务,建议选择更强的多模态模型以获得更稳的步骤执行。
GUI 操作视频:利用 GUI 界面操作 cursor 写小程序并迭代改进
3)Remote:接入飞书,把它变成真正的 “虚拟同事”
如果 GUI 让它 “会做事”,Remote 则让它 “懂协作”。Open Cowork 拒绝做一个孤独的桌面程序,通过接入飞书(Lark)等协作平台,它打通了本地执行与团队协同的壁垒
