无题
前言:当模型能力溢出,为什么我们依然不敢放手?
现象:模型很强,但落地很难(OpenClaw vs Manus 的信任差距)
破局:从“对话”走向“操作”,从“概率”走向“工程”
本文地图:模型×工程×算法×信任 的四维重构
现在模型的特性:
多模态,能看懂截图,deepseek甚至探索用图片来压缩历史对话
自我反思:写完代码后会运行一遍,如果报错会继续修改
长上下文
大语言模型>大操作模型:多工具调用/并行执行
moe:平衡模型能力和运行速度
动态推理:思考深度可控制,test-time inference,不同难度需要的token量不一样
agent的工程架构:
好的工程可以突破模型上下文限制、让模型专注于关键信息,相比于研究模型的长上下文(仍存在lost in the…问题、调用花费高),这种方式更加优雅 https://mp.weixin.qq.com/s/eaG9tO0kWEXboZ1SSOLIwQ
拆解kimi cli,包括会话管理、配置管理、运行时配置、工作空间、agent组件拆解(soul、runner)、消息管理(处理连续消息,用户输入有等待区间合并多条输入、队 ...
无题
《模型能力不再稀缺,为什么我们依然不敢放手?》
从固定工作流到自主 Agent,重构信任的工程化路径
前言|能力过剩时代的“保守使用”
过去两年,大模型的发展速度远远超出了大多数人的预期。
模型可以写代码、读文档、分析截图、规划复杂任务,甚至可以在失败后自动修复自己的错误。从能力层面看,它们已经逐渐接近“可工作的智能体”。
但现实情况却有一种明显的反差:
模型能力在飞速进化,使用方式却依然非常保守。
很多团队仍然把大模型当作一个“高级模板引擎”:
固定 Prompt
固定流程
固定输入输出
换句话说,我们仍然在用 Workflow 思维 驾驭一个已经具备 Agent 潜力 的系统。
这不是因为技术做不到,而是因为:
我们还没有准备好把控制权交出去。
现象一:模型已经能自主规划,我们却还在让它跑固定 Workflow
今天的大模型已经具备三个关键能力:
任务拆解
工具调用
结果自检
在理论上,这已经构成了一个最小可行 Agent。
例如一个代码 Agent 可以:
阅读需求
规划步骤
写代码
运行代码
发现错误
自动修复
这是一个完整的闭环。
但在很多产品中,这个能力却被 ...
无题
模型能力不再稀缺,为什么我们依然不敢放手?
从固定工作流到自主 Agent,重构信任的工程化路径
前言|能力过剩时代的“保守使用”
过去两年,大模型的发展速度以一种近乎粗暴的方式超出了大多数人的预期。我们亲眼见证了模型从最初的聊天机器人,进化到能够编写代码、阅读文档、分析截图,甚至规划复杂任务并在失败后自动修复错误。从纯粹的能力层面来看,它们已经逐渐接近了我们想象中的“可工作的智能体”。然而,现实情况却呈现出一种令人玩味的反差:模型能力在飞速进化,但我们的使用方式却依然非常保守。
在很多团队的实际落地中,大模型仍然被当作一个“高级模板引擎”来使用。我们习惯于设定固定的 Prompt,设计固定的流程,并要求固定的输入输出。换句话说,我们仍然在用传统的 Workflow 思维,去驾驭一个已经具备 Agent 潜力的系统。这并非因为技术做不到,而是因为在内心深处,我们还没有准备好把控制权交出去。这种保守并非出于对技术的怀疑,而是出于对失控的恐惧。当模型从“生成内容”走向“执行任务”,我们面临的不再是体验问题,而是风险结构的变化。如果一个聊天机器人回答错了,那只是体验瑕疵;但如果一个 Agen ...
Arxiv每日速递(2026-03-14)
本篇博文主要展示每日从Arxiv论文网站获取的最新论文列表,以自然语言处理、信息检索、计算机视觉等类目进行划分。
统计
今日共更新645篇论文,其中:
自然语言处理80篇
信息检索7篇
计算机视觉151篇
自然语言处理
1. 【2603.12252】EndoCoT: Scaling Endogenous Chain-of-Thought Reasoning in Diffusion Models
链接:https://arxiv.org/abs/2603.12252
作者:Xuanlang Dai,Yujie Zhou,Long Xing,Jiazi Bu,Xilin Wei,Yuhong Liu,Beichen Zhang,Kai Chen,Yuhang Zang
类目:Computer Vision and Pattern Recognition (cs.CV); Computation and Language (cs.CL)
关键词:Multimodal Large Language, Large Language Models, Multimodal ...
通过 Frozen Lake 理解 PPO 与 GRPO
引言
大型语言模型(LLM)的强化学习训练流程往往涉及复杂的分布式采样、大规模策略网络和高维奖励建模,初学者很容易迷失在工程细节中。为了剥离这些干扰,本文借助 OpenAI Gym 中经典的 Frozen Lake(冰湖) 环境,结合一份精简但功能完整的代码实现,深入剖析两种主流策略优化算法:PPO(Proximal Policy Optimization) 和 GRPO(Group Relative Policy Optimization)。我们将聚焦于它们的核心——优势函数(Advantage Estimation) 的构建逻辑,并解释其背后的动机与数学形式。
Frozen Lake 环境简介
Frozen Lake 是一个网格世界(Grid World)任务:
状态空间:智能体位于 N times N 网格中的某个格子,用整数索引表示(如 0 到 N^2 - 1)。
动作空间:上下左右四个方向移动(离散动作,共 4 个)。
地图元素:
S:起点(Start)
F:安全冰面(Frozen)
H:冰窟(Hole),掉入即失败,奖励为 0
G:目标(Goal),到达即成功,奖励为 ...
多臂老虎机问题
TL;DR
多臂老虎机问题是在有限尝试次数下,通过平衡探索(尝试未知选项)与利用(选择当前最优选项),最大化总奖励的经典决策问题。
UCB1(Upper Confidence Bound 1) 基于置信上界,对每个臂的估计奖励加上一个“不确定性”项,偏向乐观选择;理论保证强,但探索略显保守。
汤普森采样(Thompson Sampling)采用贝叶斯方法,从每个臂的后验分布中采样并选择最大者,实现“按需探索”,自适应性强。
在实验中(4臂、5000步、最优臂 p=0.637):
汤普森采样的总悔憾仅15.6,远低于UCB1的59.8;
更快锁定最优臂(<500步 vs. ~1000步);
非最优臂尝试次数更少(32次 vs. 123次)。
汤普森采样在实际应用中通常更高效、更智能,是工业界首选;UCB1则胜在理论清晰,适合分析场景。
什么是多臂老虎机问题?
有一排老虎机,每一台机器(称为一个“臂”)拉一次会以某个未知概率吐出硬币(奖励为 1),否则什么也没有(奖励为 0)。你的目标是在有限次数(比如 5000 次)内,尽可能多地获得硬币。
多臂老虎机问题
有 KKK ...
图解:LLM是怎么通过PPO优化偏好的?
TODO: 结合RL原理、图示、代码,对PPO计算流程加以说明
ϕ=arg maxϕEs∼p(s;ϕ)12min(∣∣rt+γVπ(st+1)−V~π(st)∣∣22‾,∣∣rt+γVπ(st+1)−clip(V~π(st),Vminπ,Vmaxπ)∣∣22‾)\phi = \argmax_{\phi} E_{s \sim p(s;\phi)} \frac{1}{2} \min \left(
\underline{
|| r_t + \gamma V^{\pi}(s_{t+1}) - \tilde{V}^{\pi}(s_t) ||_2^2
},
\underline{
|| r_t + \gamma V^{\pi}(s_{t+1}) - \text{clip}(
\tilde{V}^{\pi}(s_t), V^{\pi}_{min}, V^{\pi}_{max}
) ||_2^2
}
\right)
ϕ=ϕargmaxEs∼p(s;ϕ)21min(∣∣rt+γVπ(st+1)−V~π(st) ...
🎨 Stable Diffusion 提示词指南书
封面图来自 Stable Diffusion with 🧨 Diffusers
Transformer语言模型的位置编码与长度外推
TL;DR
Transformer模型为了处理序列的位置信息,引入了位置编码(Position Embedding, PE)。常见的位置编码方案有绝对位置编码(Absolute Position Embedding)、相对位置编码(Relative Position Embedding)和旋转位置编码(Rotary Position Embedding, RoPE)。
绝对位置编码:使用三角函数式位置编码,如Sinusoidal APE,将位置信息累加到输入序列的元素向量中,有助于模型感知输入的顺序。
相对位置编码:不为每个元素引入特定的位置表征,而是关注元素之间的相对位置关系。在NeZha、DeBERTa等模型中使用,有更强的长距离依赖建模能力。
旋转位置编码:是在绝对位置编码的基础上引入的一种改进,采用了“绝对位置编码方式实现的相对位置编码”,在实验中表现出更好的性能。
针对模型处理长文本的问题,提出了几种长度外推方法:
线性内插(Linear Interpolation):通过减小位置精度,使得可表示范围内容纳更多位置,但可能需要进一步预训练适配。
NTK-Scaling ...
vLLM:利用分页缓存和张量并行提高大模型2~4x推理速度
TL;DR
GPT和PaLM等大型语言模型(LLM)能准确地理解自然语言指令并生成准确、富有创意的文本响应,可以作为编程助手、通用聊天机器人等新型应用的强力底座。但这些强大的模型依赖庞大的计算和高昂的运行成本,实际部署时对请求并发量和资源利用效率提出了关键性的挑战。伯克利大学研究人员受虚拟内存系统中分页(paging)技术启发,设计了PagedAttention,通过对显存的分块管理,实现了自注意力机制(self attention mechanism)中KV缓存的几乎零显存浪费和灵活的资源共享(如下图),并结合张量并行(tensor parallel)技术提高显卡设备计算核心的利用率,极大地加速了模型推理速度。与其他SOTA部署方案相比,提高了2~4x的吞吐量^1。
上效果图感受一下vLLM的加速效果,图中曲线颜色表示不同框架,蓝线是vLLM,横轴表示每秒请求数量(req/s),纵轴是延迟量化指标,即平均每个token生成时长(s/token)。可以看到vLLM可以在更高的并发请求量下保持推理速度,表示用户可以在更短的时间内获得他们的请求响应,从而提高了用户体验。
首页:htt ...





