Arxiv每日速递(2025-01-17)
本篇博文主要展示每日从Arxiv论文网站获取的最新论文列表,以自然语言处理、信息检索、计算机视觉等类目进行划分。
统计
今日共更新306篇论文,其中:
自然语言处理43篇
信息检索6篇
计算机视觉75篇
自然语言处理
1. 【2501.09012】Multimodal LLMs Can Reason about Aesthetics in Zero-Shot
链接:https://arxiv.org/abs/2501.09012
作者:Ruixiang Jiang,Changwen Chen
类目:Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Computation and Language (cs.CL); Multimedia (cs.MM)
关键词:Multimodal LLMs', elicited to evaluate, Multimodal, Abstract, reasoning ability
备注: WIP, Homep ...
图解:LLM是怎么通过PPO优化偏好的?
TODO: 结合RL原理、图示、代码,对PPO计算流程加以说明
ϕ=arg maxϕEs∼p(s;ϕ)12min(∣∣rt+γVπ(st+1)−V~π(st)∣∣22‾,∣∣rt+γVπ(st+1)−clip(V~π(st),Vminπ,Vmaxπ)∣∣22‾)\phi = \argmax_{\phi} E_{s \sim p(s;\phi)} \frac{1}{2} \min \left(
\underline{
|| r_t + \gamma V^{\pi}(s_{t+1}) - \tilde{V}^{\pi}(s_t) ||_2^2
},
\underline{
|| r_t + \gamma V^{\pi}(s_{t+1}) - \text{clip}(
\tilde{V}^{\pi}(s_t), V^{\pi}_{min}, V^{\pi}_{max}
) ||_2^2
}
\right)
ϕ=ϕargmaxEs∼p(s;ϕ)21min(∣∣rt+γVπ(st+1)−V~π(st) ...
🎨 Stable Diffusion 提示词指南书
封面图来自 Stable Diffusion with 🧨 Diffusers
Transformer语言模型的位置编码与长度外推
TL;DR
Transformer模型为了处理序列的位置信息,引入了位置编码(Position Embedding, PE)。常见的位置编码方案有绝对位置编码(Absolute Position Embedding)、相对位置编码(Relative Position Embedding)和旋转位置编码(Rotary Position Embedding, RoPE)。
绝对位置编码:使用三角函数式位置编码,如Sinusoidal APE,将位置信息累加到输入序列的元素向量中,有助于模型感知输入的顺序。
相对位置编码:不为每个元素引入特定的位置表征,而是关注元素之间的相对位置关系。在NeZha、DeBERTa等模型中使用,有更强的长距离依赖建模能力。
旋转位置编码:是在绝对位置编码的基础上引入的一种改进,采用了“绝对位置编码方式实现的相对位置编码”,在实验中表现出更好的性能。
针对模型处理长文本的问题,提出了几种长度外推方法:
线性内插(Linear Interpolation):通过减小位置精度,使得可表示范围内容纳更多位置,但可能需要进一步预训练适配。
NTK-Scaling ...
vLLM:利用分页缓存和张量并行提高大模型2~4x推理速度
TL;DR
GPT和PaLM等大型语言模型(LLM)能准确地理解自然语言指令并生成准确、富有创意的文本响应,可以作为编程助手、通用聊天机器人等新型应用的强力底座。但这些强大的模型依赖庞大的计算和高昂的运行成本,实际部署时对请求并发量和资源利用效率提出了关键性的挑战。伯克利大学研究人员受虚拟内存系统中分页(paging)技术启发,设计了PagedAttention,通过对显存的分块管理,实现了自注意力机制(self attention mechanism)中KV缓存的几乎零显存浪费和灵活的资源共享(如下图),并结合张量并行(tensor parallel)技术提高显卡设备计算核心的利用率,极大地加速了模型推理速度。与其他SOTA部署方案相比,提高了2~4x的吞吐量^1。
上效果图感受一下vLLM的加速效果,图中曲线颜色表示不同框架,蓝线是vLLM,横轴表示每秒请求数量(req/s),纵轴是延迟量化指标,即平均每个token生成时长(s/token)。可以看到vLLM可以在更高的并发请求量下保持推理速度,表示用户可以在更短的时间内获得他们的请求响应,从而提高了用户体验。
首页:htt ...
Prompt:大语言模型的执行指南
TL;DR
提示词(Prompt)是指由用户或系统提供给大语言模型(Large Language Model, LLM)的一段文字或问题,模型在这些给定信息(又称上下文)下,生成相关的回复或文本。Prompt作为大语言模型的执行指南,其好坏直接影响大语言模型的生成效果,但问题在于不知道如何创作高质量的 Prompt,比如:完成一个Prompt需要哪些要素?这些要素要用什么样的话术来描述?用何种顺序或结构来组织多个要素?写完Prompt后,怎么评估其有效性?如果效果不好,可以从哪些方面进行改进?本文就这些问题,整理了一些Prompt工程相关的资料,希望通过吸取他人经验、结合个人实践经历,总结创作Prompt工程的方法论。
在本文中,可以了解到以下内容:
TL;DR
问题:大语言模型的能力限制
创作原则:六条来自OpenAI的GPT最佳实践
结构化Prompt:Prompt工程师的“八股文”
鲜明的特点和优势
要素与组织结构
创作的合理顺序
构建结构化Prompt真正重要的事
自动化开发和调优
最佳实践
思考:再看结构化Prompt
几种Prompt的设计策略
启动大语言模型能力 ...
【转载】大语言模型在1688电商场景的算法实践
转载自闲记算法 - lonePatient
【梳理】陆奇最新演讲实录:我的大模型世界观
TL;DR
我们面临这样一个时代的机会。它既是机会,也是挑战。我们建议你就这个机会做全方位思考。 —— 陆奇
陆奇是中国著名的企业家和技术领袖,现任奇绩创坛董事长。他曾经担任过百度公司CEO和微软公司全球副总裁等职务,是中国互联网和人工智能领域的重要人物之一。陆奇在百度任职期间,带领公司实现了从搜索引擎到人工智能的转型,并推动了百度在人工智能领域的创新和发展。他在人工智能、大数据和云计算等领域拥有深厚的技术背景和丰富的管理经验,被誉为“中国人工智能第一人”。2018年,陆奇创办了奇绩创坛,旨在为创新企业提供技术、资金和市场等全方位支持,推动中国科技创新的发展。奇绩创坛已经成为中国创新创业领域的重要力量,陆奇也因此被誉为中国创新创业领域的领军人物之一。
面对当前全世界对大模型的高度关注,他做了“我的大模型世界观”的演讲,其中分享了他对大模型时代的宏观思考.他指出,技术的进步驱动着人类社会结构和范式的不断更迭。我们目前正处于一个新范式的重要拐点,其中包括信息生态系统、模型系统和行动系统三个体系的组合。我们已经走过了信息无处不在的互联网范式阶段。在当前阶段中,“模型”知识无处不在,基于 ...
【转载】ChatGPT 标注指南:任务、数据与规范
TL;DR
转载自ChatGPT 标注指南:任务、数据与规范 - Yam
ChatGPT 刚刚出来时,业内人士一致认为高质量的数据是一个非常关键的因素。且不论这个结论在 ChatGPT 这里是否正确,但高质量的数据对模型大有裨益却是公认的。而且,我们也可以从公开的 InstructGPT 标注指南中对此窥探一二。本文主要就围绕这份指南进行介绍,有点标题党了,但是考虑到 ChatGPT 和 InstructGPT 是兄弟关系,我们有理由相信 ChatGPT 的标注也是基于 InstructGPT 给出的指南进行的。当然不一定是全部,但至少我们可以从中学习和借鉴一些东西,是有此文。
本文主要包括以下几个方面内容:
总体介绍:我们首先会简单介绍 ChatGPT 训练过程中的几个涉及到标注的任务,清楚了任务才能更好地了解标注。然后从宏观角度统领几个方面的设计,包括数据、人员、规范等。
标注数据:包括数据收集、数据分析、数据预处理等。
标注人员:包括人员筛选、人员特征、满意度调查等。
标注规范:包括关键指标、标注方法细则、标注示例、FAQ 等。
多想一点:主要是个人的一些补充和思考。
总 ...
【转载】通向AGI之路:大型语言模型(LLM)技术精要
转载自通向AGI之路:大型语言模型(LLM)技术精要 - 知乎/张俊林
目前规模最大的LLM模型,几乎清一色都是类似GPT 3.0这种“自回归语言模型+Prompting”模式的,比如GPT 3、PaLM、GLaM、Gopher、Chinchilla、MT-NLG、LaMDA等,没有例外。为什么会这样呢?
自然语言生成任务,在表现形式上可以兼容自然语言理解任务,若反过来,则很难做到这一点。这样的好处是:同一个LLM生成模型,可以解决几乎所有NLP问题。而如果仍然采取Bert模式,则这个LLM模型无法很好处理生成任务。既然这样,我们当然倾向于使用生成模型,这是一个原因。
现在已有研究(参考:On the Role of Bidirectionality in Language Model Pre-Training)证明:如果是以fine-tuning方式解决下游任务,Bert模式的效果优于GPT模式;若是以zero shot/few shot prompting这种模式解决下游任务,则GPT模式效果要优于Bert模式。这说明了,生成模型更容易做好zero shot/few sho ...