大型自然语言模型(LLM)最新学术进展!2023年7月份,爆款论文总结!

引言

 时间转瞬即逝,一个月又过去了。今天是7月的最后一天,让我们来盘一盘大型自然语言模型的发展状况。「目前总体情况看下来,其中主要涉及新的模型(LLaMA2、百聆)、Transformer研究(RetNet、LongNET、Transformer参数分析)、大模型安全推理(PUMA)、知识图谱(DiFaR)等」。所有论文下载可回复:2307论文总结

Google揭秘上下文学习

加州伯克利&Google | 揭秘Transformer大模型上下文学习能力:线性模型学习----本文由加州大学伯克利分校统计系和谷歌DeepMind的团队联合发表,研究了预训练后的Transformer的基于上下文学习(In-Context Learning)的能力。他们用简洁的数学理论证明了:Transformer可以基于上下文学习到一种类似最小二乘的算法,这种学到的算法在新的数据集上能学到正确的线性模型。大型自然语言模型(LLM)最新学术进展!2023年7月份,爆款论文总结!

蚂蚁-安全推理

蚂蚁提出PUMA框架,让 LLaMA-7B 模型实现安全推理!----现如今已有大量提供深度学习服务的供应商,在使用这些服务时,用户需要将自己的信息包含在 prompt 中发送给这些服务商,这会导致隐私泄漏等问题。另一方面,服务商基本不愿意公开自己辛苦训练得到的模型参数。大型自然语言模型(LLM)最新学术进展!2023年7月份,爆款论文总结! 针对这一问题,蚂蚁集团的一个研究团队提出了 PUMA 框架,可以在不影响模型性能的前提下实现安全的推理。不仅如此,他们也开源了相关代码。

Meta-Llama2

格局打开!Meta发布Llama-2,性能强、免费商用,三个版本可选!----一直以来Llama可以说是AI社区内最强大的开源大模型。但因为开源协议问题,一直不可免费商用。终于,Meta终于发布了大家期待已久的免费可商用版本Llama2。大型自然语言模型(LLM)最新学术进展!2023年7月份,爆款论文总结! 此次 Meta发布的Llama2模型系列包含70亿、130亿和700亿三种参数变体。此外还训练了340亿参数变体,但并没有发布,只在技术报告中提到了。相比于Llama 1,Llama2的训练数据多了40%,上下文长度也翻倍,并采用了分组查询注意力机制。具体来说,Llama2预训练模型是在2万亿的token 上训练的,精调Chat模型是在100万人类标记数据上训练的。

Transformer参数研究

ICML2023 & 新加坡国立 | 一项关于 Transformer参数设置 的深度研究---今年是Transformer的六周年生日,目前原文引用量已超四万,在应用方面,几乎所有的模型架构都有它的影子,并遵从着Transformer的基础配置(宽度设置为768,深度设置为12)。但您有没有质疑过:Transformer的配置是怎么来的?Transformer的配置能够适合所有的应用场景吗?难道就不能改变吗?这篇国际顶会(ICML 2023)文章给出了答案。

GPT-4研究:解释精度低

最新研究表明:GPT-4、ChatGPT解释精度较低,且与合理性不相关----大型语言模型经过训练可以模仿人类来解释人类的决策。然而,LLMs能否自解释呢?以及在此维度上如何评估呢?为此,「本文提出评估自然语言解释的反事实可模拟性,即,基于该解释能否让人类准确的推断出模型的输出」。例如:如果给定模型的输入问题是“老鹰能飞吗”,模型给出的回答为:“是”,并给出的解释为:“所有的鸟类都会飞”;那么人们基于该解释,可以推断出:当模型输入问题为:“企鹅会飞吗?”(反事实问题),给出的答案应该同样为“是”。如果解释准确,那么模型的答案应该符合人类的期望。大型自然语言模型(LLM)最新学术进展!2023年7月份,爆款论文总结! 反事实可模拟性,本文在精度(precision)和通用性(generality)这两个指标上进行度量。具体地,首先使用LLMs生成不同的反事实样例;然后使用这些指标来评估最先进的LLM的两个任务:多跳事实推理和奖励建模;最后,实验结果发现LLMs(ChatGPT、GPT-4)的解释精度较低,而且精度与合理性不相关。这也就是说,单单基于人类标注方法(例如 RLHF)进行模型优化并不是一个好的方法。

微软-RetNet

挑战 Transformer!微软&&清华 | 推出RetNet架构:成本低、速度快、性能强----LLM 的成功,某种程度上要归功于 Transformer 架构在自然语言处理任务上的突破。该架构最初是为了克服循环模型的 sequential training 问题而提出的。这些年来,Transformer 已经成为 LLM 普遍采用的架构。然而,Transformer 的训练并行性是以低效推理为代价的:每一步的复杂度为 O (N) 且键值缓存受内存限制,让 Transformer 不适合部署。不断增长的序列长度会增加 GPU 内存消耗和延迟,并降低推理速度。大型自然语言模型(LLM)最新学术进展!2023年7月份,爆款论文总结! 研究者们一直在努力开发下一代架构,希望保留训练并行性和 Transformer 的性能,同时实现高效的O(1)推理。针对这个问题,研究者提出了 retentive 网络(RetNet),同时实现了低成本推理、高效长序列建模、媲美 Transformer 的性能和并行模型训练,打破了「不可能三角」。

微软-LONGNET

太牛了!微软最新研究:LONGNET,Transformer序列长度可支持 10亿+ Token----大型语言模型时代下,面对海量的文本数据,扩展序列长度已然成为一个关键问题。现有算法下,序列长度受限主要受模型表达能力、计算复杂度的影响。大型自然语言模型(LLM)最新学术进展!2023年7月份,爆款论文总结! 在此背景下,微软研究提出了一种Transformer变体:LONGNET,该架构将序列标记长度扩展到了10亿+,且并不会影响较短序列的性能。LONGNET的核心是扩展注意力,将计算复杂度从二次降低到线性。LONGNET可以用作分布式训练器,「跨多个GPU」设备并行训练序列。

BayLing(百聆)大模型

中科院计算所 | 推出多语言大模型:BayLing(百聆),性能媲美GPT-3.5,可在线体验!----LLM 通常基于大规模语料训练知识表示与语言生成能力,随后在人工编写的指令数据上进行微调以实现与人类的意图对齐。因此,如何有效地进行指令微调使大型语言模型对齐人类偏好,对于模型的最终性能与用户体验至关重要。现有研究在预训练和指令微调阶段使用的数据大多仅围绕英文组成,语言的不平衡现象成为了制约模型能力以及交互体验的主要瓶颈。然而,将各个语言分别引入预训练以及指令微调阶段是昂贵且低效的。大型自然语言模型(LLM)最新学术进展!2023年7月份,爆款论文总结! 中科院针对这个问题探索了新的方案 —— 在指令微调阶段将英语与其他语言对齐,以交互式翻译任务为核心进行指令微调训练。借助于翻译任务的语义对齐特性,百聆能够实现生成能力在不同语言之间的迁移,并在交互式的过程中学习与人类意图进行对齐。

KG检索框架-DiFaR.

ACL2023 & Amazon | 知识图谱(KG)检索新框架:DiFaR,无需实体链接!----不论是传统语言模型还是现在飞速发展大语言模型,当面对快速更新迭代的背景知识时都存在一定的局限性。知识图谱(KG)作为大模型的信息补充,可以帮助其更好地理解语言提升模型性能。大型自然语言模型(LLM)最新学术进展!2023年7月份,爆款论文总结! 该篇文章,「从知识图谱检索机制出发,分析传统知识图谱检索的局限性,提出了直接事实检索(DiFaR)框架」,实验结果表明,该方法大大优于传统知识图谱KG的pipeline检索方法。

免责说明

本站资源部分来自网友投稿,如有侵犯你的权益请联系管理员或给邮箱发送邮件PubwinSoft@foxmail.com 我们会第一时间进行审核删除。
站内资源为网友个人学习或测试研究使用,未经原版权作者许可,禁止用于任何商业途径!请在下载24小时内删除!


如果遇到评论下载的文章,评论后刷新页面点击对应的蓝字按钮即可跳转到下载页面
本站资源少部分采用7z压缩,为防止有人压缩软件不支持7z格式,7z解压,建议下载7-zip,zip、rar解压,建议下载WinRAR

给TA打赏
共{{data.count}}人
人已打赏
Chat模型Code开源推荐

中科院计算所 | 推出多语言大模型:BayLing(百聆),性能媲美GPT-3.5,可在线体验!

2023-7-25 8:16:56

Chat模型

质量>数量!数据对大型语言模型(LLM)整个生命周期的影响!

2023-9-4 10:14:52

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
有新私信 私信列表
搜索