前言:当模型能力溢出,为什么我们依然不敢放手?
现象:模型很强,但落地很难(OpenClaw vs Manus 的信任差距)
破局:从“对话”走向“操作”,从“概率”走向“工程”
本文地图:模型×工程×算法×信任 的四维重构

现在模型的特性:

多模态,能看懂截图,deepseek甚至探索用图片来压缩历史对话
自我反思:写完代码后会运行一遍,如果报错会继续修改
长上下文
大语言模型>大操作模型:多工具调用/并行执行
moe:平衡模型能力和运行速度
动态推理:思考深度可控制,test-time inference,不同难度需要的token量不一样

agent的工程架构:

好的工程可以突破模型上下文限制、让模型专注于关键信息,相比于研究模型的长上下文(仍存在lost in the…问题、调用花费高),这种方式更加优雅 https://mp.weixin.qq.com/s/eaG9tO0kWEXboZ1SSOLIwQ
拆解kimi cli,包括会话管理、配置管理、运行时配置、工作空间、agent组件拆解(soul、runner)、消息管理(处理连续消息,用户输入有等待区间合并多条输入、队列一条一条处理、注入到上下文、可打断模型输出)、heartbeat、hooks、经验可迁移(用户级、项目级.claude/+CLAUDE.MD/AGENTS.md)、可拓展(热插拔的工具和skills,以及临时屏蔽功能、插件、命令)、agent生态(skills市场、给agent提供接口是未来软件的趋势比如obsidian和谷歌网盘)
参考https://mp.weixin.qq.com/s/wwzUiY7NCeiFAhTss0Qq-w
https://mp.weixin.qq.com/s/6H3PW5a-P1965lLg5PIhxA

agent的算法设计:

memory:分级内存(context、精炼memory、长期memory),或外接mem0等内存管理,混合检索
tool:内置工具不多,但能给模型足够的自由度,条条大路通罗马,只要求模型最终结果正确中间的执行路径模型自己探索;要求授权审批;可拓展如外挂mcp;能力足够大的工具有,操作自由度大的,比如操作文件系统、操作命令行、computer use、mobile use、操作网页、网络搜索
rag知识库:移除向量检索,利用llm打开链接点方式按层级渐进式查找(要求知识库单条知识精炼、索引语义准确,https://www.nicolasbustamante.com/p/the-rag-obituary-killed-by-agent s)、利用如obsidian cli的检索能力作为外部知识库
context engineering:在agent loop种加入一些,比如compact(三种,压缩成什么样),获得近乎无穷大的上下文空间,并展示给用户看context的用量和组成情况;用subagent,维护干净的context
context的组成:系统提示词(给claude code的作为示例)、工具、skills、用户规则、项目上下文、历史对话(摘要+最近几轮)、用户query
skills:agent level的能力增长(非model level),先前经验中提炼出的启发式规则的高效检索和自适应复用。这是比较符合直觉的,将模型和agent的知识实现分离,模型应该作为一个中控而不是记住各类知识
human in the loop:human可作为一个agent,且实现和llm agent一样
子agent:
任务规划:先拆解,结合todo工具
多agent:用更好的编排,而不是更多的算力

  • [ ] agent spawn:应该是要任务系统加通信:空闲时定时认领任务,没任务则持续闲置不调用llm;通信需要强提醒,收到消息时唤醒agent;每个agent有自己的工作目录、memory管理、状态管理,其实就是一个完整的agent

agent的产品设计

claude运行过程中的展示,包括那个有意思的单词状态 https://mp.weixin.qq.com/s/4cBb_lt2KU3VV_el5vn0CA
kimi的产品设计分析:https://mp.weixin.qq.com/s/ZDHHuPEExdwJfaPKgvRdcA

思考:

工作流存在的价值?
ai无法代替人类的,是信用属性,包括好用不好用、是否有惩罚,现在前者会影响人类选择基座模型(根据能力),后者却没有解决,所以都要人工审查一遍结果。所以会导致openclaw安装了却不敢用,这个问题manus的方案就成熟的多,用了云端沙箱,至少给够用户信任感
ai时代的放权:要给模型足够的自由度,优先阐述「What」与「Why」,让 Claude 自主决策「How」,避免直接下达实现细节。agent harness,不再是自己盯着一行行代码。注:Harness Engineering是最近AI Agent领域又开始流行一个新的词汇,2026年2月11日,OpenAI发布的一篇博客:Harness engineering: leveraging Codex in an agent-first world. 在这篇博客里OpenAI 提出的一种全新的软件开发方法论,核心理念是 “Agent-First”(智能体优先) —— 将人类工程师从直接编写代码转变为设计和监督 AI 智能体(Codex Agents)来完成软件开发工作。同时做了一个实验:从零开始使用codex来编写一个内部系统,最终 3-7 名工程师在 5 个月内通过 AI 智能体生成了约 100 万行代码和 1,500 个 PR,期间未开发人员没有手写一行代码,实现了约 10 倍于传统开发的效率提升。