顶级大语言模型的比较分析
1.介绍
本文中,我们将分析目前可用的最强大语言模型。通过这种系统分析,我们将描述几个最受欢迎的模型,突出它们的特点、优势和劣势。我们将专门关注基于 LLM 的生成系统,因为将 LLM 与不同目的进行比较是没有意义的。
在本文结束时,读者应该更清楚地了解哪种 LLM 模型最符合他们的需求。
2. 什么是大语言模型?
大语言模型 (LLMs) 是理解和生成类人文本的先进人工智能系统。他们接受大量文本数据的训练,以学习语言的模式、结构和细微差别。
LLMs 使用深度学习技术来处理并生成文本,特别是像 Transformers 这样的神经网络变体。此外,这些模型的参数在几亿到几百万亿之间,这就是为什么我们称之为大模型。
2.1. 大语言模型有什么实际应用?
LLM 在各个行业和领域都有广泛的应用。其中一些包括:
- 聊天机器人—— LLM 可以与用户交谈,回答问题,提供客户支持,并协助完成各种任务。
- 语言翻译——在不同语言之间准确翻译文本非常有效。
- 文本摘要:这些模型可以将长文本文档处理成简洁的摘要,同时保留关键信息和意义。
- 知识提取和发现——除了总结文本摘要外,LLM 还分析冗长的文档,以提取有价值的信息和见解。随后,他们可以集思广益,成为解决问题的合作伙伴。
- 代码生成——LLM 可以生成代码片段,或通过理解编程任务的自然语言描述来帮助开发人员编写软件。
3. 顶级大语言模型分析
本文中,我们将介绍一些目前最流行的 LLM 系统。我们不会解释这些模型背后的算法,因为许多模型不是开源的,缺乏关于其架构的广泛信息。我们的重点将是 LLM 作为可访问的平台,主要用作各种目的的聊天机器人。
为了选择最佳模型,我们将使用 LMSYS 聊天机器人竞技场排行榜上的当前排名。这是一个众包开放平台,用于评估 LLM。它收集人类偏好投票,使用 Elo 评级系统根据各种模型的表现对其进行排名。
用户可以通过评估和投票不同 LLM 的表现来参与排名过程。输入提示后,系统随机选择两个模型,处理提示,并匿名响应用户。然后,用户可以投票决定哪种模型表现更好。
只有在投票后,系统才会显示模型的名字:
LLM 的世界竞争非常激烈。每个月都有许多新模型问世,这让它变得更加激烈。因此,LLM 领域始终保持动态变化。
在这里,我们将介绍一些目前可用的最强大的模型。但是,此列表可能并不总是最新的,因为每周都可能出现新的模型、更新或补丁。尽管如此,某些领先的模型系列和平台可能会在更长的时间内保持领先地位。
3.1. OpenAI 的 GPT
OpenAI 是一家领先的人工智能研究实验室,旨在开发和推广用户友好的人工智能系统。其中一个值得注意的创新是 ChatGPT,这是一种基于 GPT 架构的开创性 LLM 模型,旨在参与类似人类的对话并协助用户完成各种任务。OpenAI 在 ChatGPT 发布后创造了历史,成为增长最快的应用,在短短两个月内吸引了超过 1 亿的月度用户。这种快速增长超过了 TikTok 和 Instagram 等一些流行平台。
OpenAI 最强大的 LLM 有:
- gpt-4-turbo-2024-04-09 – GPT-4 Turbo 使用 Vision 模型。Vision 请求现在可以使用 JSON 模式和函数调用。它有一个 128k 个 token 的上下文窗口,最多返回 4096 个输出 token。它使用截至 2023 年 12 月的数据进行训练
- gpt-4-1106-preview – GPT-4 Turbo 预览模型具有改进的指令跟踪、JSON 模式、可再现输出、并行函数调用等功能。它有一个 128k 个 token 的上下文窗口,最多返回 4096 个输出 token,并使用截至 2023 年 4 月的数据进行训练
- gpt-4-0125-preview – GPT-4 Turbo 预览模型旨在减少模型无法完成任务的“懒惰”情况。它有一个 128k 个 token 的上下文窗口,最多返回 4096 个输出 token。它使用截至 2023 年 12 月的数据进行训练
- gpt-4-0613 – 来自 2023 年 6 月 13 日 GPT-4 的快照,改进了函数调用支持。建议更换退役型号 gpt-4-0314。具有 8192 个 token 的上下文窗口,并使用截至 2021 年 9 月的数据进行训练
3.2. Anthropic 的 Claude
Anthropic 是一家人工智能初创公司,由 OpenAI 前成员于 2021 年创立。从那时起,它已经从许多风险投资基金和公司筹集了资金,包括亚马逊和谷歌。Anthropic 专注于创建可靠的人工智能系统,特别强调人工智能的安全性和伦理考虑。这些型号可在 claude.ai 和 Claude API 上获得,可在 150 多个国家/地区获得。
Anthropic 最强大的 LLM 有:
- Claude 3 Opus – 它是 Anthropic 最智能的模型和与 gpt-4-turbo-2024-04-09 和 gpt-4-1106-preview 模型一样强大。可以处理各种视觉格式,包括照片、图表、图形和技术图。它在一次输入中支持 20 万个 token,对于一些客户来说,它可以高达 100 万个token
- Claude 3 Sonnet – 略微弱于 Opus,但仍在 LMSYS 排名前五。它在智能和速度之间达到了理想的平衡,特别是对于企业工作负载。它也比其他具有类似智能的型号更实惠
- Claude 3 Haiku - Claude 家族最快的模型,LMSYS 排名前十。与其他 Claude 型号一样,支持 20 万个输入 token,是节省成本任务的理想选择
3.3. Google 的 Gemini
Gemini 是由 Google DeepMind 创建的 LLM 家族。这些 LLM 是多模态的,这意味着模型可以处理来自多种模态的信息,包括文本、图像、音频和视频。Gemini 可以解决许多有趣的问题。其中之一是推理,它使用不同的方式,比如整部电影。也就是说,整部电影的长期背景理解是谷歌的一名实验性特征研究人员用 Gemini 1.5 pro 测试的。
Google 最强大的 LLM 有:
- Gemini Ultra – 用于高度复杂任务的最强大和最大的模型。由于未知原因,没有 LMSYS 排名。谷歌表示,这是第一个在 MMLU 基准测试中表现优于人类专家的模型。他们还表示,在大多数常见的 LLM 基准测试中,该模型的表现优于 GPT-4
- Gemini Pro 1.0 – 是 LMSYS 排名前五的模型之一。它是线上的默认模型
3.4. Mistral AI 的 Mistral
Mistral AI 是一家法国公司,由 Meta 和谷歌 DeepMind 的前员工于 2023 年 4 月创立。它生产开源 LLM,遵循开源软件的重要性,并作为专有模型的进行响应。
Mistral AI 最强大的 LLM 有:
- Mistral Large – 高复杂性任务的顶层推理。目前最好的 LLM 之一
- Mixtral 8x22B Instruct – 最强大的开源模型之一。它有一个 64k 的上下文窗口,精通英语、法语、意大利语、德语和西班牙语,代码也很强
3.5. Meta 的 Llama
Llama (Large Language Model Meta AI) 是 Meta AI 从 2023 年 2 月开始发布的自回归 LLM 家族。Meta 将所有模型开源发布,并在网上提供权重,这使得它们在社区中非常受欢迎。Llama 模型在各种各样的数据集上进行训练,包括网页、开源 GitHub 存储库、20 种不同语言的维基百科、公共领域书籍、ArXiv 论文中的 LaTeX 源代码和 Stack Exchange 问答。
Meta 最强大的 LLM 有:
- Llama 3 70b Instruct – 最强大的开源模型。目前在 LMSYS 领域排名前五。拥有 700 亿个参数和 8k 个 token 的上下文窗口
- Llama 3 8b Instruct – 一个更小但仍然强大的 Llama 模型,有 80 亿个参数
4. 顶级大语言模型的比较
为了进行比较,我们将使用 LLSYS 排名和公司报告的一些常见 LLM 基准。LLSYS 排名是动态的,数字每天都在变化。因此,我们将使用“前 5 名”、“前 10 名”和“前 15 名”类别作为衡量标准。
一些常见的 LLM 基准包括:
- 大规模多任务语言理解(MMLU) – MMLU 是一种标准化的方法,用于评估人工智能在从简单数学到复杂法律推理等任务上的性能。它涵盖了 STEM、人文科学、社会科学等 57 个学科,难度从初级到高级专业水平不等
- HellaSwag – HellaSwag 基准测试是一个大语言模型基准测试,旨在评估语言模型的常识推理能力。数据集由一系列句子组成,每个句子后面都有一个问题,需要理解上下文并对潜在结果进行推理
- MATH – 包含 12500 个数学问题的数据集。该数据集涵盖了各种学科,包括代数、微积分、统计学、几何和线性代数。
- HumanEval – HumanEval 基准测试是一种旨在评估 LLM 生成的代码的功能正确性的工具。它通过测量生成的代码通过一组单元测试的概率来评估 LLM 在代码生成任务中的性能
除了这些基准之外,在评估过程中还使用了提示技术。最常见的是,我们可以有所不同:
- 0-shot – 我们提出一个问题,但没有给出任何模型的示例
- 1-shot – 我们提供了一个模型的示例。例如,“以示例 1 为参考,回答问题 1”
- k-shot – 与 1-shot 相同,但使用 k 个示例
下表显示了所展示模型之间的比较:
输入上下文窗口I | 输出上下文最大值 | 发布日期 (月-日-年) | 每一百万输入 token 的价格 | 每一百万输出 token 的价格 | LLSYS | MMLU (5-shot) | HellaSwag (10-shot) | MATH (4-shot) | HumanEval (0-shot) | |
gpt-4-turbo-2024-04-09 | 128k | 4096 | 04-09-2024 | 10$ | 30$ | Top 5 | – | – | – | – |
gpt-4-1106-preview | 128k | 4096 | 11-06-2023 | 10$ | 30$ | Top 5 | – | – | – | – |
gpt-4-0125-preview | 128k | 4096 | 01-25-2024 | 10$ | 30$ | Top 5 | – | – | – | – |
gpt-4-0613 | 8192 | 8192 | 01-13-2023 | 30$ | 60$ | Top 15 | – | – | – | – |
Claude 3 Opus | 200k | 4096 | 04-03-2024 | 15$ | 75$ | Top 5 | 86.8% | 95.4% | 61.0% | 84.9% |
Claude 3 Sonnet | 200k | 4096 | 04-03-2024 | 3$ | 15$ | Top 5 | 79.0% | 89.0% | 40.5% | 73.0% |
Claude 3 Haiku | 200k | 4096 | 04-13-2024 | 0.25$ | 1.25$ | Top 10 | 75.2% | 85.9% | 40.9% | 75.9% |
Gemini Ultra | 32.8k | 8192 | – | – | – | – | 83.7% | 87.8% | 53.2% | 74.4% |
Gemini Pro 1.0 | 32.8k | 8192 | 12-13-2023 | 0.13$ | 0.38$ | Top 5 | 71.8% | 84.7% | 32.6% | 67.7% |
Mistral Large | 32k | 4096 | 02-26-2024 | 8$ | 8$ | Top 15 | 81.2% | 89.2% | – | 45.1% |
Mixtral 8x22B Instruct | 64k | – | 04-17-2024 | open-source | open-source | Top 15 | 77.75% | 88.5% | – | 45.1% |
Llama 3 70b Instruct | 8k | 8k | 04-18-2024 | open-source | open-source | Top 5 | 82.0% | – | 50.4% | 81.7% |
Llama 3 8b Instruct | 8k | 8k | 04-18-2024 | open-source | open-source | Top 15 | 68.4% | – | 30.0% | 62.2% |
请注意,在这个表中,GPT-4 模型没有通用基准的值,但在许多论文中,其他 LLM 平台倾向于将其结果与 GPT-4 进行比较。这是因为原始论文中提到的具有常见 LLM 基准的 GPT-4 版本已经过时,并被 OpenAI 淘汰。
5. 小结
本文中,我们介绍了目前可用的一些最强大的 LLM 模型和平台。我们使用一些模型参数、成本和流行的 LLM 基准进行了全面的比较。
从我们所看到的,有很多不同的语言模型,每种模型都是为不同的事情而设计的。有些非常强大,有些不贵,有些免费开放供任何人使用。看看我们有多少选择,这很酷,这取决于我们的需求。
随着时间的推移,我们可能会看到更多的新模型出现,根据我们的需求和负担能力为我们提供更多的选择。