Arxiv每日速递(2026-06-14)
本篇博文主要展示每日从Arxiv论文网站获取的最新论文列表,以自然语言处理、信息检索、计算机视觉等类目进行划分。
统计
今日共更新674篇论文,其中:
自然语言处理104篇
信息检索11篇
计算机视觉99篇
自然语言处理
1. 【2606.13681】EvoArena: Tracking Memory Evolution for Robust LLM Agents in Dynamic Environments
链接:https://arxiv.org/abs/2606.13681
作者:Jundong Xu,Qingchuan Li,Jiaying Wu,Yihuai Lan,Shuyue Stella Li,Huichi Zhou,Bowen Jiang,Lei Wang,Jun Wang,Anh Tuan Luu,Caiming Xiong,Hae Won Park,Bryan Hooi,Zhiyuan Hu
类目:Computation and Language (cs.CL)
关键词:Large language model, Large langu ...
让 AI 写了几篇文章后,我还是决定自己打字
最近在用AI帮我写博客,比如下面两篇:
LLM Wiki 深度解读:让大语言模型成为你的知识编译器
Superpowers:AI Agent 系统化软件开发方法论
我的流程是这样的:先搜集一堆素材,想想大概要展现什么内容,然后在 Agent 对话框里随便丢几个短句,让它猜我的真实意图,让它表达、修改,再反馈给我确认。很提效,确实提效。但我回头看这两篇博客,感觉非常不对劲,所以引发了我的一些思考。
博客的真正价值
首先明确一下我写博客的目的。我的博客,本质上是我的个人笔记本——我可以在这里写感兴趣的东西、记录想法。与私有笔记本不同的是,它是公开的。这种公开性强迫我认真对待每一篇内容:不能糊弄,不能自己都没想明白就发出去。它逼着我把模糊的想法打磨清楚。
在有 AI 之前,我需要确定选题、收集信息、整理脑子里零散的东西、组织语言,然后写成博客。过程中我可能会写一半卡住,或者找不到合适的表达,或者前后逻辑矛盾,或者发现自己根本解释不清,整个过程非常耗时耗力。但发表到博客上之后,每次打开回顾时我对每个字都很熟悉,而且看着看着会产生新的想法回头修改。
当我用 AI 帮我写博客后,我只需要确定 ...
TrendPulse 技术趋势追踪报告
目录
2026-06-08
2026-06-01
2026-05-29
2026-05-22
2026-05-15
2026-05-08
2026-05-01
2026-04-29
2026-04-22
2026-06-08
概览
本期报告共整合 3 个数据源的热点分析:
数据源
分析项目数
分析时间
GitHub 开源热点
20
2026-06-08 04:45
HackerNews 技术热点
20
2026-06-08 04:48
HuggingFace 论文热点
20
2026-06-08 04:42
GitHub 开源热点
1. 开源趋势洞察
AI范式跃迁:从“参数内卷”到“技能策展”与“品味治理”。大模型基础能力趋于收敛后,开源社区的重心正迅速向应用层质量与交互人格迁移。taste-skill2 直指“AI生成内容平庸化”痛点,通过注入审美与判断层过滤机械式输出;而 colleague-skill6 与 agency-agents-zh18 则将AI能力封装为即插即用的“数字同事”与垂直专家角色。这标志着工程实践正从Prompt Engin ...
LLM Wiki 深度解读:让大语言模型成为你的知识编译器
TL;DR
本文是对 Andrej Karpathy 提出的 LLM Wiki 范式的深度解读与实现设计。Karpathy 前特斯拉 AI 总监、OpenAI 联合创始人,其技术洞察一向以简洁深刻著称。LLM Wiki 是他对个人知识管理的一次范式级思考,值得每一位深度使用 LLM 的人理解。
原文出处: https://gist.github.com/karpathy/442a6bf555914893e9891c11519de94f
TODO: 1. 设计成skill;2. 该skill的实践经验和使用感受
原文与精译对照
.bilingual-section { margin: 1.5em 0; }
.bilingual-grid { display: grid; grid-template-columns: 1fr 1fr; gap: 0; }
.bilingual-cell { padding: 1em 1.2em; line-height: 1.7; }
.bilingual-cell.source { background: #fafbfc; }
.bilingual ...
Superpowers:AI Agent 系统化软件开发方法论
这不是一篇普通的工具介绍。这是一套强制 AI 在动手前先想清楚的纪律体系——14 个可组合的 skills,把 “收到任务就写代码” 的本能反应,改造成 “先设计、再计划、再执行、再验证” 的工程流程。读完这篇,你会理解为什么把这套方法叫做 Superpowers。
Superpowers 是什么
Superpowers 是一个AI 编程代理的软件开发方法论套件,以可组合的 skills 文件为载体,通过一套强制性的指令协议,把 AI 从"收到任务就写代码"的反应式代理,转变为"先设计、再计划、再执行、再验证"的系统化工程师。
它不是某个 IDE 的插件,也不是一个 CLI 工具——它是一个跨平台的行为框架,通过同一套 skills 目录同时支持 Claude Code、Codex、Cursor、OpenCode、Gemini CLI 和 GitHub Copilot CLI。
核心机制很简单:
Skills 是可组合的流程单元 — 每个 skill 是一个 Markdown 文件(SKILL.md),包含特定场景下的完整工作流
1% 规则强制 ...
Project Interview Skill:用一场对话,把模糊的项目变成结构清晰的文档
一、这是什么
我创建了 project-interview 技能,一个通过交互式问答采访,引导用户把项目信息梳理成结构化文档的 AI 助手。
它的工作方式很像一位经验丰富的项目顾问:先自己做功课(看代码、读文档、翻 Git 历史),然后跟你聊几个关键问题,最后输出一份结构完整的 Markdown 项目文档。
🔗 源码与使用说明:https://github.com/isLouisHsu/skills/tree/main/skills/project-interview
与普通的"AI 帮我写文档"不同,它解决的核心问题是**“我不知道该写什么”**。它不是等你给出一堆材料再整理,而是主动引导你——从项目背景到技术决策,从团队分工到踩过的坑,通过层层递进的对话,把你脑子里零散的项目信息一点点"问"出来,再组织成文档。
文档结构根据项目体量自动适配:
小型项目(工具脚本、小模块):项目概述 + 使用方法 + 技术要点,1-2 页
中型项目(独立应用、服务):覆盖核心章节,3-5 页
大型项目(平台、系统):完整章节结构,言之有物即可
章节涵 ...
Project Docs Manager Skill:让 AI 自主驱动项目迭代的文档引擎
一、这是什么
我创建了 project-docs-manager 技能,以标准化流程维护结构化项目文档库,帮助 AI 自主理解项目全貌、历史决策与当前状态。该技能遵循「单一事实源」「机器可读优先」「闭环自更新」三大原则,支持本地目录、Obsidian、云端文档等多种媒介,并内置初始化、迭代记录、状态查询等完整工作流。
它不只是一个文档管理工具。它要实现的是在项目中建立一套结构化文档体系,充当 AI 的"项目记忆"和"驱动引擎",从而让 AI 能够自主地理解项目现状、提出优化方向、执行变更、回收效果、沉淀知识,然后基于新的认知发起下一轮迭代——全程不依赖人类重新交代背景。
这背后是一种范式的根本转变。 传统开发以代码为中心,人花大部分时间写代码、调模型、配部署。但在 AI 时代,这个关系颠倒了——文档成为中心,代码、模型、配置只是文档的附属产物。你把目标和大致的想法写进文档,AI 读取后设计方案、生成代码、训练模型、部署服务、回收指标。 Project Docs Manager 就是要把这套 “文档驱动” 的工作流固化下来,让 AI 真正具备自主驱 ...
Video Knowledge Purify Skill:让视频变成可检索的结构化知识笔记
一、这是什么
video-knowledge-purify 技能,用于将视频内容自动转换为结构化的 Markdown 知识笔记。它的核心流程只有三步:转录 → 分段 → 汇总。
🔗 源码与使用说明:https://github.com/isLouisHsu/skills/tree/main/skills/video-knowledge-purify
你丢给它一个视频文件(或者已有 SRT 字幕),它会自动完成以下工作:
音频转录:把视频中的语音转为带时间戳的 SRT 字幕;
内容分段:调用文本 LLM 按语义主题切分字幕,识别知识点边界;
内容汇总:调用 VLM 结合字幕文本和视频关键帧,逐段生成 Markdown 笔记。
最终输出是一份可直接导入 Obsidian、Notion 或任何 Markdown 知识库的 note.md,每个段落都标注了时间范围,并配有对应的关键帧图片。
二、为什么需要这个 Skill
视频是高质量知识源,但消费和沉淀的成本极高。
视频不适合快速检索和复习。B站、YouTube、知识付费课程里有大量干货,但视频形态决定了你无法像搜索文档一样快速 ...
Claude Code 的 Agent Harness 工程
TL;DR
Agent Harness 是围绕大模型构建的运行时基础设施,负责管理 Agent 的生命周期、上下文状态、工具调用链路与执行安全。本文以 Claude Code 为范本,拆解其七个核心工程机制:执行循环(感知—推理—行动—观测的 while 闭环)、原子化工具集(bash/文件操作按需组合)、动态技能加载(目录常驻+内容按需注入)、三层上下文压缩(微观清理→阈值重置→模型主动压缩)、Human-in-the-loop 审批(高风险操作前插入人工确认节点)、任务编排(会话内 todo 列表 + 跨会话带依赖图的持久化任务系统),以及多智能体协作(一次性 Subagent 上下文隔离 + 持久化 Agent Teams 邮箱通信)。这些机制共同解决了 Agent 工程化落地中最核心的几个问题:任务不丢失、上下文不爆炸、执行可审计、复杂任务可拆解、多 Agent 可协同。
本文所涉及的代码示例全部来自 shareAI-lab/learn-claude-code 仓库,一个按难度递进展示 Agent Harness 核心机制的教学项目。
从工作流到 Harness Engin ...
通过 Frozen Lake 理解 PPO 与 GRPO
引言
大型语言模型(LLM)的强化学习训练流程往往涉及复杂的分布式采样、大规模策略网络和高维奖励建模,初学者很容易迷失在工程细节中。为了剥离这些干扰,本文借助 OpenAI Gym 中经典的 Frozen Lake(冰湖) 环境,结合一份精简但功能完整的代码实现,深入剖析两种主流策略优化算法:PPO(Proximal Policy Optimization) 和 GRPO(Group Relative Policy Optimization)。我们将聚焦于它们的核心——优势函数(Advantage Estimation) 的构建逻辑,并解释其背后的动机与数学形式。
Frozen Lake 环境简介
Frozen Lake 是一个网格世界(Grid World)任务:
状态空间:智能体位于 N times N 网格中的某个格子,用整数索引表示(如 0 到 N^2 - 1)。
动作空间:上下左右四个方向移动(离散动作,共 4 个)。
地图元素:
S:起点(Start)
F:安全冰面(Frozen)
H:冰窟(Hole),掉入即失败,奖励为 0
G:目标(Goal),到达即成功,奖励为 ...

