顶级大语言模型的比较分析

1.介绍

本文中，我们将分析目前可用的最强大语言模型。通过这种系统分析，我们将描述几个最受欢迎的模型，突出它们的特点、优势和劣势。我们将专门关注基于 LLM 的生成系统，因为将 LLM 与不同目的进行比较是没有意义的。

在本文结束时，读者应该更清楚地了解哪种 LLM 模型最符合他们的需求。

2. 什么是大语言模型?

大语言模型 (LLMs) 是理解和生成类人文本的先进人工智能系统。他们接受大量文本数据的训练，以学习语言的模式、结构和细微差别。

LLMs 使用深度学习技术来处理并生成文本，特别是像 Transformers 这样的神经网络变体。此外，这些模型的参数在几亿到几百万亿之间，这就是为什么我们称之为大模型。

2.1. 大语言模型有什么实际应用？

LLM 在各个行业和领域都有广泛的应用。其中一些包括：

聊天机器人—— LLM 可以与用户交谈，回答问题，提供客户支持，并协助完成各种任务。
语言翻译——在不同语言之间准确翻译文本非常有效。
文本摘要：这些模型可以将长文本文档处理成简洁的摘要，同时保留关键信息和意义。
知识提取和发现——除了总结文本摘要外，LLM 还分析冗长的文档，以提取有价值的信息和见解。随后，他们可以集思广益，成为解决问题的合作伙伴。
代码生成——LLM 可以生成代码片段，或通过理解编程任务的自然语言描述来帮助开发人员编写软件。

3. 顶级大语言模型分析

本文中，我们将介绍一些目前最流行的 LLM 系统。我们不会解释这些模型背后的算法，因为许多模型不是开源的，缺乏关于其架构的广泛信息。我们的重点将是 LLM 作为可访问的平台，主要用作各种目的的聊天机器人。

为了选择最佳模型，我们将使用 LMSYS 聊天机器人竞技场排行榜上的当前排名。这是一个众包开放平台，用于评估 LLM。它收集人类偏好投票，使用 Elo 评级系统根据各种模型的表现对其进行排名。

用户可以通过评估和投票不同 LLM 的表现来参与排名过程。输入提示后，系统随机选择两个模型，处理提示，并匿名响应用户。然后，用户可以投票决定哪种模型表现更好。

只有在投票后，系统才会显示模型的名字：

LLM 的世界竞争非常激烈。每个月都有许多新模型问世，这让它变得更加激烈。因此，LLM 领域始终保持动态变化。

在这里，我们将介绍一些目前可用的最强大的模型。但是，此列表可能并不总是最新的，因为每周都可能出现新的模型、更新或补丁。尽管如此，某些领先的模型系列和平台可能会在更长的时间内保持领先地位。

3.1. OpenAI 的 GPT

OpenAI 是一家领先的人工智能研究实验室，旨在开发和推广用户友好的人工智能系统。其中一个值得注意的创新是 ChatGPT，这是一种基于 GPT 架构的开创性 LLM 模型，旨在参与类似人类的对话并协助用户完成各种任务。OpenAI 在 ChatGPT 发布后创造了历史，成为增长最快的应用，在短短两个月内吸引了超过 1 亿的月度用户。这种快速增长超过了 TikTok 和 Instagram 等一些流行平台。

OpenAI 最强大的 LLM 有：

gpt-4-turbo-2024-04-09 – GPT-4 Turbo 使用 Vision 模型。Vision 请求现在可以使用 JSON 模式和函数调用。它有一个 128k 个 token 的上下文窗口，最多返回 4096 个输出 token。它使用截至 2023 年 12 月的数据进行训练
gpt-4-1106-preview – GPT-4 Turbo 预览模型具有改进的指令跟踪、JSON 模式、可再现输出、并行函数调用等功能。它有一个 128k 个 token 的上下文窗口，最多返回 4096 个输出 token，并使用截至 2023 年 4 月的数据进行训练
gpt-4-0125-preview – GPT-4 Turbo 预览模型旨在减少模型无法完成任务的“懒惰”情况。它有一个 128k 个 token 的上下文窗口，最多返回 4096 个输出 token。它使用截至 2023 年 12 月的数据进行训练
gpt-4-0613 – 来自 2023 年 6 月 13 日 GPT-4 的快照，改进了函数调用支持。建议更换退役型号 gpt-4-0314。具有 8192 个 token 的上下文窗口，并使用截至 2021 年 9 月的数据进行训练

3.2. Anthropic 的 Claude

Anthropic 是一家人工智能初创公司，由 OpenAI 前成员于 2021 年创立。从那时起，它已经从许多风险投资基金和公司筹集了资金，包括亚马逊和谷歌。Anthropic 专注于创建可靠的人工智能系统，特别强调人工智能的安全性和伦理考虑。这些型号可在 claude.ai 和 Claude API 上获得，可在 150 多个国家/地区获得。

Anthropic 最强大的 LLM 有：

Claude 3 Opus – 它是 Anthropic 最智能的模型和与 gpt-4-turbo-2024-04-09 和 gpt-4-1106-preview 模型一样强大。可以处理各种视觉格式，包括照片、图表、图形和技术图。它在一次输入中支持 20 万个 token，对于一些客户来说，它可以高达 100 万个token
Claude 3 Sonnet – 略微弱于 Opus，但仍在 LMSYS 排名前五。它在智能和速度之间达到了理想的平衡，特别是对于企业工作负载。它也比其他具有类似智能的型号更实惠
Claude 3 Haiku - Claude 家族最快的模型，LMSYS 排名前十。与其他 Claude 型号一样，支持 20 万个输入 token，是节省成本任务的理想选择

3.3. Google 的 Gemini

Gemini 是由 Google DeepMind 创建的 LLM 家族。这些 LLM 是多模态的，这意味着模型可以处理来自多种模态的信息，包括文本、图像、音频和视频。Gemini 可以解决许多有趣的问题。其中之一是推理，它使用不同的方式，比如整部电影。也就是说，整部电影的长期背景理解是谷歌的一名实验性特征研究人员用 Gemini 1.5 pro 测试的。

Google 最强大的 LLM 有：

Gemini Ultra – 用于高度复杂任务的最强大和最大的模型。由于未知原因，没有 LMSYS 排名。谷歌表示，这是第一个在 MMLU 基准测试中表现优于人类专家的模型。他们还表示，在大多数常见的 LLM 基准测试中，该模型的表现优于 GPT-4
Gemini Pro 1.0 – 是 LMSYS 排名前五的模型之一。它是线上的默认模型

3.4. Mistral AI 的 Mistral

Mistral AI 是一家法国公司，由 Meta 和谷歌 DeepMind 的前员工于 2023 年 4 月创立。它生产开源 LLM，遵循开源软件的重要性，并作为专有模型的进行响应。

Mistral AI 最强大的 LLM 有:

Mistral Large – 高复杂性任务的顶层推理。目前最好的 LLM 之一
Mixtral 8x22B Instruct – 最强大的开源模型之一。它有一个 64k 的上下文窗口，精通英语、法语、意大利语、德语和西班牙语，代码也很强

3.5. Meta 的 Llama

Llama (Large Language Model Meta AI) 是 Meta AI 从 2023 年 2 月开始发布的自回归 LLM 家族。Meta 将所有模型开源发布，并在网上提供权重，这使得它们在社区中非常受欢迎。Llama 模型在各种各样的数据集上进行训练，包括网页、开源 GitHub 存储库、20 种不同语言的维基百科、公共领域书籍、ArXiv 论文中的 LaTeX 源代码和 Stack Exchange 问答。

Meta 最强大的 LLM 有：

Llama 3 70b Instruct – 最强大的开源模型。目前在 LMSYS 领域排名前五。拥有 700 亿个参数和 8k 个 token 的上下文窗口
Llama 3 8b Instruct – 一个更小但仍然强大的 Llama 模型，有 80 亿个参数

4. 顶级大语言模型的比较

为了进行比较，我们将使用 LLSYS 排名和公司报告的一些常见 LLM 基准。LLSYS 排名是动态的，数字每天都在变化。因此，我们将使用“前 5 名”、“前 10 名”和“前 15 名”类别作为衡量标准。

一些常见的 LLM 基准包括：

大规模多任务语言理解(MMLU) – MMLU 是一种标准化的方法，用于评估人工智能在从简单数学到复杂法律推理等任务上的性能。它涵盖了 STEM、人文科学、社会科学等 57 个学科，难度从初级到高级专业水平不等
HellaSwag – HellaSwag 基准测试是一个大语言模型基准测试，旨在评估语言模型的常识推理能力。数据集由一系列句子组成，每个句子后面都有一个问题，需要理解上下文并对潜在结果进行推理
MATH – 包含 12500 个数学问题的数据集。该数据集涵盖了各种学科，包括代数、微积分、统计学、几何和线性代数。
HumanEval – HumanEval 基准测试是一种旨在评估 LLM 生成的代码的功能正确性的工具。它通过测量生成的代码通过一组单元测试的概率来评估 LLM 在代码生成任务中的性能

除了这些基准之外，在评估过程中还使用了提示技术。最常见的是，我们可以有所不同：

0-shot – 我们提出一个问题，但没有给出任何模型的示例
1-shot – 我们提供了一个模型的示例。例如，“以示例 1 为参考，回答问题 1”
k-shot – 与 1-shot 相同，但使用 k 个示例

下表显示了所展示模型之间的比较：

	输入上下文窗口I	输出上下文最大值	发布日期 (月-日-年)	每一百万输入 token 的价格	每一百万输出 token 的价格	LLSYS	MMLU (5-shot)	HellaSwag (10-shot)	MATH (4-shot)	HumanEval (0-shot)
gpt-4-turbo-2024-04-09	128k	4096	04-09-2024	10$	30$	Top 5	–	–	–	–
gpt-4-1106-preview	128k	4096	11-06-2023	10$	30$	Top 5	–	–	–	–
gpt-4-0125-preview	128k	4096	01-25-2024	10$	30$	Top 5	–	–	–	–
gpt-4-0613	8192	8192	01-13-2023	30$	60$	Top 15	–	–	–	–
Claude 3 Opus	200k	4096	04-03-2024	15$	75$	Top 5	86.8%	95.4%	61.0%	84.9%
Claude 3 Sonnet	200k	4096	04-03-2024	3$	15$	Top 5	79.0%	89.0%	40.5%	73.0%
Claude 3 Haiku	200k	4096	04-13-2024	0.25$	1.25$	Top 10	75.2%	85.9%	40.9%	75.9%
Gemini Ultra	32.8k	8192	–	–	–	–	83.7%	87.8%	53.2%	74.4%
Gemini Pro 1.0	32.8k	8192	12-13-2023	0.13$	0.38$	Top 5	71.8%	84.7%	32.6%	67.7%
Mistral Large	32k	4096	02-26-2024	8$	8$	Top 15	81.2%	89.2%	–	45.1%
Mixtral 8x22B Instruct	64k	–	04-17-2024	open-source	open-source	Top 15	77.75%	88.5%	–	45.1%
Llama 3 70b Instruct	8k	8k	04-18-2024	open-source	open-source	Top 5	82.0%	–	50.4%	81.7%
Llama 3 8b Instruct	8k	8k	04-18-2024	open-source	open-source	Top 15	68.4%	–	30.0%	62.2%

请注意，在这个表中，GPT-4 模型没有通用基准的值，但在许多论文中，其他 LLM 平台倾向于将其结果与 GPT-4 进行比较。这是因为原始论文中提到的具有常见 LLM 基准的 GPT-4 版本已经过时，并被 OpenAI 淘汰。

5. 小结

本文中，我们介绍了目前可用的一些最强大的 LLM 模型和平台。我们使用一些模型参数、成本和流行的 LLM 基准进行了全面的比较。

从我们所看到的，有很多不同的语言模型，每种模型都是为不同的事情而设计的。有些非常强大，有些不贵，有些免费开放供任何人使用。看看我们有多少选择，这很酷，这取决于我们的需求。

随着时间的推移，我们可能会看到更多的新模型出现，根据我们的需求和负担能力为我们提供更多的选择。