前言：当模型能力溢出，为什么我们依然不敢放手？
现象：模型很强，但落地很难（OpenClaw vs Manus 的信任差距）
破局：从“对话”走向“操作”，从“概率”走向“工程”
本文地图：模型×工程×算法×信任的四维重构

现在模型的特性：

多模态，能看懂截图，deepseek甚至探索用图片来压缩历史对话
自我反思：写完代码后会运行一遍，如果报错会继续修改
长上下文
大语言模型>大操作模型：多工具调用/并行执行
moe：平衡模型能力和运行速度
动态推理：思考深度可控制，test-time inference，不同难度需要的token量不一样

agent的工程架构：

好的工程可以突破模型上下文限制、让模型专注于关键信息，相比于研究模型的长上下文（仍存在lost in the…问题、调用花费高），这种方式更加优雅 https://mp.weixin.qq.com/s/eaG9tO0kWEXboZ1SSOLIwQ
拆解kimi cli，包括会话管理、配置管理、运行时配置、工作空间、agent组件拆解（soul、runner）、消息管理（处理连续消息，用户输入有等待区间合并多条输入、队列一条一条处理、注入到上下文、可打断模型输出）、heartbeat、hooks、经验可迁移（用户级、项目级.claude/+CLAUDE.MD/AGENTS.md）、可拓展（热插拔的工具和skills，以及临时屏蔽功能、插件、命令）、agent生态（skills市场、给agent提供接口是未来软件的趋势比如obsidian和谷歌网盘）
参考https://mp.weixin.qq.com/s/wwzUiY7NCeiFAhTss0Qq-w
https://mp.weixin.qq.com/s/6H3PW5a-P1965lLg5PIhxA

agent的算法设计：

memory：分级内存（context、精炼memory、长期memory），或外接mem0等内存管理，混合检索
tool：内置工具不多，但能给模型足够的自由度，条条大路通罗马，只要求模型最终结果正确中间的执行路径模型自己探索；要求授权审批；可拓展如外挂mcp；能力足够大的工具有，操作自由度大的，比如操作文件系统、操作命令行、computer use、mobile use、操作网页、网络搜索
rag知识库：移除向量检索，利用llm打开链接点方式按层级渐进式查找（要求知识库单条知识精炼、索引语义准确，https://www.nicolasbustamante.com/p/the-rag-obituary-killed-by-agent s）、利用如obsidian cli的检索能力作为外部知识库
context engineering：在agent loop种加入一些，比如compact（三种，压缩成什么样），获得近乎无穷大的上下文空间，并展示给用户看context的用量和组成情况；用subagent，维护干净的context
context的组成：系统提示词（给claude code的作为示例）、工具、skills、用户规则、项目上下文、历史对话（摘要+最近几轮）、用户query
skills：agent level的能力增长（非model level），先前经验中提炼出的启发式规则的高效检索和自适应复用。这是比较符合直觉的，将模型和agent的知识实现分离，模型应该作为一个中控而不是记住各类知识
human in the loop：human可作为一个agent，且实现和llm agent一样
子agent：
任务规划：先拆解，结合todo工具
多agent：用更好的编排，而不是更多的算力

[ ] agent spawn：应该是要任务系统加通信：空闲时定时认领任务，没任务则持续闲置不调用llm；通信需要强提醒，收到消息时唤醒agent；每个agent有自己的工作目录、memory管理、状态管理，其实就是一个完整的agent

agent的产品设计

claude运行过程中的展示，包括那个有意思的单词状态 https://mp.weixin.qq.com/s/4cBb_lt2KU3VV_el5vn0CA
kimi的产品设计分析：https://mp.weixin.qq.com/s/ZDHHuPEExdwJfaPKgvRdcA

思考：

工作流存在的价值？
ai无法代替人类的，是信用属性，包括好用不好用、是否有惩罚，现在前者会影响人类选择基座模型（根据能力），后者却没有解决，所以都要人工审查一遍结果。所以会导致openclaw安装了却不敢用，这个问题manus的方案就成熟的多，用了云端沙箱，至少给够用户信任感
ai时代的放权：要给模型足够的自由度，优先阐述「What」与「Why」，让 Claude 自主决策「How」，避免直接下达实现细节。agent harness，不再是自己盯着一行行代码。注：Harness Engineering是最近AI Agent领域又开始流行一个新的词汇，2026年2月11日，OpenAI发布的一篇博客：Harness engineering: leveraging Codex in an agent-first world. 在这篇博客里OpenAI 提出的一种全新的软件开发方法论，核心理念是 “Agent-First”（智能体优先） —— 将人类工程师从直接编写代码转变为设计和监督 AI 智能体（Codex Agents）来完成软件开发工作。同时做了一个实验：从零开始使用codex来编写一个内部系统，最终 3-7 名工程师在 5 个月内通过 AI 智能体生成了约 100 万行代码和 1,500 个 PR，期间未开发人员没有手写一行代码，实现了约 10 倍于传统开发的效率提升。