LOUIS' BLOG

Arxiv每日速递(2026-03-19)

发表于2026-03-19|阅读笔记

本篇博文主要展示每日从Arxiv论文网站获取的最新论文列表，以自然语言处理、信息检索、计算机视觉等类目进行划分。统计今日共更新705篇论文，其中：自然语言处理104篇信息检索14篇计算机视觉168篇自然语言处理 1. 【2603.16867】Efficient Reasoning on the Edge 链接：https://arxiv.org/abs/2603.16867 作者：Yelysei Bondarenko,Thomas Hehn,Rob Hesselink,Romain Lepert,Fabio Valerio Massoli,Evgeny Mironov,Leyla Mirvakhabova,Tribhuvanesh Orekondy,Spyridon Stasis,Andrey Kuzmin,Anna Kuzina,Markus Nagel,Ankita Nayak,Corrado Rainone,Ork de Rooij,Paul N Whatmough,Arash Behboodi,Babak Ehteshami Bejnordi ...

通过 Frozen Lake 理解 PPO 与 GRPO

发表于2025-08-25|机器学习

引言大型语言模型（LLM）的强化学习训练流程往往涉及复杂的分布式采样、大规模策略网络和高维奖励建模，初学者很容易迷失在工程细节中。为了剥离这些干扰，本文借助 OpenAI Gym 中经典的 Frozen Lake（冰湖）环境，结合一份精简但功能完整的代码实现，深入剖析两种主流策略优化算法：PPO（Proximal Policy Optimization）和 GRPO（Group Relative Policy Optimization）。我们将聚焦于它们的核心——优势函数（Advantage Estimation）的构建逻辑，并解释其背后的动机与数学形式。 Frozen Lake 环境简介 Frozen Lake 是一个网格世界（Grid World）任务：状态空间：智能体位于 N times N 网格中的某个格子，用整数索引表示（如 0 到 N^2 - 1）。动作空间：上下左右四个方向移动（离散动作，共 4 个）。地图元素： S：起点（Start） F：安全冰面（Frozen） H：冰窟（Hole），掉入即失败，奖励为 0 G：目标（Goal），到达即成功，奖励为 ...

多臂老虎机问题

发表于2025-04-12|机器学习

TL;DR 多臂老虎机问题是在有限尝试次数下，通过平衡探索（尝试未知选项）与利用（选择当前最优选项），最大化总奖励的经典决策问题。 UCB1（Upper Confidence Bound 1）基于置信上界，对每个臂的估计奖励加上一个“不确定性”项，偏向乐观选择；理论保证强，但探索略显保守。汤普森采样（Thompson Sampling）采用贝叶斯方法，从每个臂的后验分布中采样并选择最大者，实现“按需探索”，自适应性强。在实验中（4臂、5000步、最优臂 p=0.637）：汤普森采样的总悔憾仅15.6，远低于UCB1的59.8；更快锁定最优臂（<500步 vs. ~1000步）；非最优臂尝试次数更少（32次 vs. 123次）。汤普森采样在实际应用中通常更高效、更智能，是工业界首选；UCB1则胜在理论清晰，适合分析场景。什么是多臂老虎机问题？有一排老虎机，每一台机器（称为一个“臂”）拉一次会以某个未知概率吐出硬币（奖励为 1），否则什么也没有（奖励为 0）。你的目标是在有限次数（比如 5000 次）内，尽可能多地获得硬币。多臂老虎机问题有 KKK ...

图解：LLM是怎么通过PPO优化偏好的？

发表于2025-01-01|自然语言处理

TODO: 结合RL原理、图示、代码，对PPO计算流程加以说明 ϕ=arg max⁡ϕEs∼p(s;ϕ)12min⁡(∣∣rt+γVπ(st+1)−V~π(st)∣∣22‾,∣∣rt+γVπ(st+1)−clip(V~π(st),Vminπ,Vmaxπ)∣∣22‾)\phi = \argmax_{\phi} E_{s \sim p(s;\phi)} \frac{1}{2} \min \left( \underline{ || r_t + \gamma V^{\pi}(s_{t+1}) - \tilde{V}^{\pi}(s_t) ||_2^2 }, \underline{ || r_t + \gamma V^{\pi}(s_{t+1}) - \text{clip}( \tilde{V}^{\pi}(s_t), V^{\pi}_{min}, V^{\pi}_{max} ) ||_2^2 } \right) ϕ=ϕargmaxEs∼p(s;ϕ)21min(∣∣rt+γVπ(st+1)−V~π(st) ...

🎨 Stable Diffusion 提示词指南书

发表于2024-02-03|AIGC多模态文生图

封面图来自 Stable Diffusion with 🧨 Diffusers

Transformer语言模型的位置编码与长度外推

发表于2023-10-22|自然语言处理

TL;DR Transformer模型为了处理序列的位置信息，引入了位置编码(Position Embedding, PE)。常见的位置编码方案有绝对位置编码(Absolute Position Embedding)、相对位置编码(Relative Position Embedding)和旋转位置编码(Rotary Position Embedding, RoPE)。绝对位置编码：使用三角函数式位置编码，如Sinusoidal APE，将位置信息累加到输入序列的元素向量中，有助于模型感知输入的顺序。相对位置编码：不为每个元素引入特定的位置表征，而是关注元素之间的相对位置关系。在NeZha、DeBERTa等模型中使用，有更强的长距离依赖建模能力。旋转位置编码：是在绝对位置编码的基础上引入的一种改进，采用了“绝对位置编码方式实现的相对位置编码”，在实验中表现出更好的性能。针对模型处理长文本的问题，提出了几种长度外推方法：线性内插（Linear Interpolation）：通过减小位置精度，使得可表示范围内容纳更多位置，但可能需要进一步预训练适配。 NTK-Scaling ...

vLLM：利用分页缓存和张量并行提高大模型2~4x推理速度

发表于2023-09-22|自然语言处理

TL;DR GPT和PaLM等大型语言模型（LLM）能准确地理解自然语言指令并生成准确、富有创意的文本响应，可以作为编程助手、通用聊天机器人等新型应用的强力底座。但这些强大的模型依赖庞大的计算和高昂的运行成本，实际部署时对请求并发量和资源利用效率提出了关键性的挑战。伯克利大学研究人员受虚拟内存系统中分页（paging）技术启发，设计了PagedAttention，通过对显存的分块管理，实现了自注意力机制（self attention mechanism）中KV缓存的几乎零显存浪费和灵活的资源共享（如下图），并结合张量并行（tensor parallel）技术提高显卡设备计算核心的利用率，极大地加速了模型推理速度。与其他SOTA部署方案相比，提高了2~4x的吞吐量^1。上效果图感受一下vLLM的加速效果，图中曲线颜色表示不同框架，蓝线是vLLM，横轴表示每秒请求数量（req/s），纵轴是延迟量化指标，即平均每个token生成时长（s/token）。可以看到vLLM可以在更高的并发请求量下保持推理速度，表示用户可以在更短的时间内获得他们的请求响应，从而提高了用户体验。首页：htt ...

Prompt：大语言模型的执行指南

发表于2023-09-06|自然语言处理

TL;DR 提示词(Prompt)是指由用户或系统提供给大语言模型(Large Language Model, LLM)的一段文字或问题，模型在这些给定信息(又称上下文)下，生成相关的回复或文本。Prompt作为大语言模型的执行指南，其好坏直接影响大语言模型的生成效果，但问题在于不知道如何创作高质量的 Prompt，比如：完成一个Prompt需要哪些要素？这些要素要用什么样的话术来描述？用何种顺序或结构来组织多个要素？写完Prompt后，怎么评估其有效性？如果效果不好，可以从哪些方面进行改进？本文就这些问题，整理了一些Prompt工程相关的资料，希望通过吸取他人经验、结合个人实践经历，总结创作Prompt工程的方法论。在本文中，可以了解到以下内容： TL;DR 问题：大语言模型的能力限制创作原则：六条来自OpenAI的GPT最佳实践结构化Prompt：Prompt工程师的“八股文” 鲜明的特点和优势要素与组织结构创作的合理顺序构建结构化Prompt真正重要的事自动化开发和调优最佳实践思考：再看结构化Prompt 几种Prompt的设计策略启动大语言模型能力 ...

【转载】大语言模型在1688电商场景的算法实践

发表于2023-09-03|自然语言处理

转载自闲记算法 - lonePatient

【梳理】陆奇最新演讲实录：我的大模型世界观

发表于2023-05-07|自然语言处理

TL;DR 我们面临这样一个时代的机会。它既是机会，也是挑战。我们建议你就这个机会做全方位思考。 —— 陆奇陆奇是中国著名的企业家和技术领袖，现任奇绩创坛董事长。他曾经担任过百度公司CEO和微软公司全球副总裁等职务，是中国互联网和人工智能领域的重要人物之一。陆奇在百度任职期间，带领公司实现了从搜索引擎到人工智能的转型，并推动了百度在人工智能领域的创新和发展。他在人工智能、大数据和云计算等领域拥有深厚的技术背景和丰富的管理经验，被誉为“中国人工智能第一人”。2018年，陆奇创办了奇绩创坛，旨在为创新企业提供技术、资金和市场等全方位支持，推动中国科技创新的发展。奇绩创坛已经成为中国创新创业领域的重要力量，陆奇也因此被誉为中国创新创业领域的领军人物之一。面对当前全世界对大模型的高度关注，他做了“我的大模型世界观”的演讲，其中分享了他对大模型时代的宏观思考.他指出，技术的进步驱动着人类社会结构和范式的不断更迭。我们目前正处于一个新范式的重要拐点，其中包括信息生态系统、模型系统和行动系统三个体系的组合。我们已经走过了信息无处不在的互联网范式阶段。在当前阶段中，“模型”知识无处不在，基于 ...