大型自然语言模型（LLM）最新学术进展！2023年7月份，爆款论文总结！

引言

时间转瞬即逝，一个月又过去了。今天是7月的最后一天，让我们来盘一盘大型自然语言模型的发展状况。「目前总体情况看下来，其中主要涉及新的模型（LLaMA2、百聆）、Transformer研究（RetNet、LongNET、Transformer参数分析）、大模型安全推理（PUMA）、知识图谱（DiFaR）等」。所有论文下载可回复：2307论文总结

Google揭秘上下文学习

加州伯克利&Google | 揭秘Transformer大模型上下文学习能力：线性模型学习----本文由加州大学伯克利分校统计系和谷歌DeepMind的团队联合发表，研究了预训练后的Transformer的基于上下文学习(In-Context Learning)的能力。他们用简洁的数学理论证明了：Transformer可以基于上下文学习到一种类似最小二乘的算法，这种学到的算法在新的数据集上能学到正确的线性模型。大型自然语言模型（LLM）最新学术进展！2023年7月份，爆款论文总结！

蚂蚁-安全推理

蚂蚁提出PUMA框架，让 LLaMA-7B 模型实现安全推理！----现如今已有大量提供深度学习服务的供应商，在使用这些服务时，用户需要将自己的信息包含在 prompt 中发送给这些服务商，这会导致隐私泄漏等问题。另一方面，服务商基本不愿意公开自己辛苦训练得到的模型参数。大型自然语言模型（LLM）最新学术进展！2023年7月份，爆款论文总结！针对这一问题，蚂蚁集团的一个研究团队提出了 PUMA 框架，可以在不影响模型性能的前提下实现安全的推理。不仅如此，他们也开源了相关代码。

Meta-Llama2

格局打开！Meta发布Llama-2，性能强、免费商用，三个版本可选！----一直以来Llama可以说是AI社区内最强大的开源大模型。但因为开源协议问题，一直不可免费商用。终于，Meta终于发布了大家期待已久的免费可商用版本Llama2。大型自然语言模型（LLM）最新学术进展！2023年7月份，爆款论文总结！此次 Meta发布的Llama2模型系列包含70亿、130亿和700亿三种参数变体。此外还训练了340亿参数变体，但并没有发布，只在技术报告中提到了。相比于Llama 1，Llama2的训练数据多了40%，上下文长度也翻倍，并采用了分组查询注意力机制。具体来说，Llama2预训练模型是在2万亿的token 上训练的，精调Chat模型是在100万人类标记数据上训练的。

Transformer参数研究

ICML2023 & 新加坡国立 | 一项关于 Transformer参数设置的深度研究---今年是Transformer的六周年生日，目前原文引用量已超四万，在应用方面，几乎所有的模型架构都有它的影子，并遵从着Transformer的基础配置（宽度设置为768，深度设置为12）。但您有没有质疑过：Transformer的配置是怎么来的？Transformer的配置能够适合所有的应用场景吗？难道就不能改变吗？这篇国际顶会(ICML 2023)文章给出了答案。

GPT-4研究：解释精度低

最新研究表明：GPT-4、ChatGPT解释精度较低，且与合理性不相关----大型语言模型经过训练可以模仿人类来解释人类的决策。然而，LLMs能否自解释呢？以及在此维度上如何评估呢？为此，「本文提出评估自然语言解释的反事实可模拟性，即，基于该解释能否让人类准确的推断出模型的输出」。例如:如果给定模型的输入问题是“老鹰能飞吗”，模型给出的回答为：“是”，并给出的解释为：“所有的鸟类都会飞”；那么人们基于该解释，可以推断出：当模型输入问题为：“企鹅会飞吗？”(反事实问题)，给出的答案应该同样为“是”。如果解释准确，那么模型的答案应该符合人类的期望。大型自然语言模型（LLM）最新学术进展！2023年7月份，爆款论文总结！反事实可模拟性，本文在精度(precision)和通用性(generality)这两个指标上进行度量。具体地，首先使用LLMs生成不同的反事实样例；然后使用这些指标来评估最先进的LLM的两个任务：多跳事实推理和奖励建模；最后，实验结果发现LLMs(ChatGPT、GPT-4)的解释精度较低，而且精度与合理性不相关。这也就是说，单单基于人类标注方法（例如 RLHF）进行模型优化并不是一个好的方法。

微软-RetNet

挑战 Transformer！微软&&清华 | 推出RetNet架构：成本低、速度快、性能强----LLM 的成功，某种程度上要归功于 Transformer 架构在自然语言处理任务上的突破。该架构最初是为了克服循环模型的 sequential training 问题而提出的。这些年来，Transformer 已经成为 LLM 普遍采用的架构。然而，Transformer 的训练并行性是以低效推理为代价的：每一步的复杂度为 O (N) 且键值缓存受内存限制，让 Transformer 不适合部署。不断增长的序列长度会增加 GPU 内存消耗和延迟，并降低推理速度。大型自然语言模型（LLM）最新学术进展！2023年7月份，爆款论文总结！研究者们一直在努力开发下一代架构，希望保留训练并行性和 Transformer 的性能，同时实现高效的O(1)推理。针对这个问题，研究者提出了 retentive 网络（RetNet），同时实现了低成本推理、高效长序列建模、媲美 Transformer 的性能和并行模型训练，打破了「不可能三角」。

微软-LONGNET

太牛了！微软最新研究：LONGNET，Transformer序列长度可支持 10亿+ Token----大型语言模型时代下，面对海量的文本数据，扩展序列长度已然成为一个关键问题。现有算法下，序列长度受限主要受模型表达能力、计算复杂度的影响。大型自然语言模型（LLM）最新学术进展！2023年7月份，爆款论文总结！在此背景下，微软研究提出了一种Transformer变体：LONGNET，该架构将序列标记长度扩展到了10亿+，且并不会影响较短序列的性能。LONGNET的核心是扩展注意力，将计算复杂度从二次降低到线性。LONGNET可以用作分布式训练器，「跨多个GPU」设备并行训练序列。

BayLing(百聆)大模型

中科院计算所 | 推出多语言大模型：BayLing(百聆)，性能媲美GPT-3.5，可在线体验！----LLM 通常基于大规模语料训练知识表示与语言生成能力，随后在人工编写的指令数据上进行微调以实现与人类的意图对齐。因此，如何有效地进行指令微调使大型语言模型对齐人类偏好，对于模型的最终性能与用户体验至关重要。现有研究在预训练和指令微调阶段使用的数据大多仅围绕英文组成，语言的不平衡现象成为了制约模型能力以及交互体验的主要瓶颈。然而，将各个语言分别引入预训练以及指令微调阶段是昂贵且低效的。大型自然语言模型（LLM）最新学术进展！2023年7月份，爆款论文总结！中科院针对这个问题探索了新的方案 —— 在指令微调阶段将英语与其他语言对齐，以交互式翻译任务为核心进行指令微调训练。借助于翻译任务的语义对齐特性，百聆能够实现生成能力在不同语言之间的迁移，并在交互式的过程中学习与人类意图进行对齐。

KG检索框架-DiFaR.

ACL2023 & Amazon | 知识图谱（KG）检索新框架：DiFaR，无需实体链接！----不论是传统语言模型还是现在飞速发展大语言模型，当面对快速更新迭代的背景知识时都存在一定的局限性。知识图谱（KG）作为大模型的信息补充，可以帮助其更好地理解语言提升模型性能。大型自然语言模型（LLM）最新学术进展！2023年7月份，爆款论文总结！该篇文章，「从知识图谱检索机制出发，分析传统知识图谱检索的局限性，提出了直接事实检索(DiFaR)框架」，实验结果表明，该方法大大优于传统知识图谱KG的pipeline检索方法。

↡ 点击展开全文 ↡

免责说明

本站资源部分来自网友投稿，如有侵犯你的权益请联系管理员或给邮箱发送邮件PubwinSoft@foxmail.com 我们会第一时间进行审核删除。
站内资源为网友个人学习或测试研究使用，未经原版权作者许可,禁止用于任何商业途径！请在下载24小时内删除！

如果遇到评论可下载的文章，评论后刷新页面点击“对应的蓝字按钮”即可跳转到下载页面！
本站资源少部分采用7z压缩，为防止有人压缩软件不支持7z格式，7z解压，建议下载7-zip，zip、rar解压，建议下载WinRAR。

温馨提示：本站部分付费下载资源收取的费用为资源收集整理费用，并非资源费用，不对下载的资源提供任何技术支持及售后服务。

{{userData.name}}已认证

大型自然语言模型（LLM）最新学术进展！2023年7月份，爆款论文总结！

引言

Google揭秘上下文学习

蚂蚁-安全推理

Meta-Llama2

Transformer参数研究

GPT-4研究：解释精度低

微软-RetNet

微软-LONGNET

BayLing(百聆)大模型

KG检索框架-DiFaR.

中科院计算所 | 推出多语言大模型：BayLing(百聆)，性能媲美GPT-3.5，可在线体验！

质量>数量！数据对大型语言模型（LLM）整个生命周期的影响！

让你也能拥有自己的ChatGPT：云服务器部署开源ChatGLM-6B

OpenAI开始收费了，小白小玩教程，送120刀福利

WordPress使用AWS CloudFront（AWS CDN）加速设置教程

推动模型的安全发展OpenAI、谷歌、微软等宣布成立前沿模型论坛！

如何利用LEAD十分钟搭建好一个网站

香港虚拟银行卡在国内的使用体验（巨详细）

Git 创建仓库

chatgpt中国区免费1年使用攻略，微软Azure云openai详细api注册申请图文教程，整合odoo AiCenter

知否问答

知识星球

杂货铺

联系客服

文章投稿

在线工单

建议意见

小黑屋

创作者计划

商务合作

推广中心

认证服务

MySSL

{{userData.name}}已认证

引言

Google揭秘上下文学习

蚂蚁-安全推理

Meta-Llama2

Transformer参数研究

GPT-4研究：解释精度低

微软-RetNet

微软-LONGNET

BayLing(百聆)大模型

KG检索框架-DiFaR.

你可能也喜欢:

中科院计算所 | 推出多语言大模型：BayLing(百聆)，性能媲美GPT-3.5，可在线体验！

质量>数量！数据对大型语言模型（LLM）整个生命周期的影响！

开源大模型突破8K上下文，可商用：XGen-7b

中科院计算所 | 推出多语言大模型：BayLing(百聆)，性能媲美GPT-3.5，可在线体验！

无限制与各种AI聊天，chatGPT、文心一言、通义千问、BingChat、moss随心选择！

ChatGPT最强平替出现！免费就能用，真是太香了

知否问答

知识星球

杂货铺

联系客服

文章投稿

在线工单

建议意见

小黑屋

创作者计划

商务合作

推广中心

认证服务

MySSL