编程

顶级大语言模型的比较分析

17 2024-09-20 00:11:00

1.介绍

本文中,我们将分析目前可用的最强大语言模型。通过这种系统分析,我们将描述几个最受欢迎的模型,突出它们的特点、优势和劣势。我们将专门关注基于 LLM 的生成系统,因为将 LLM 与不同目的进行比较是没有意义的。

在本文结束时,读者应该更清楚地了解哪种 LLM 模型最符合他们的需求。

2. 什么是大语言模型?

大语言模型 (LLMs) 是理解和生成类人文本的先进人工智能系统。他们接受大量文本数据的训练,以学习语言的模式、结构和细微差别。

LLMs 使用深度学习技术来处理并生成文本,特别是像 Transformers 这样的神经网络变体。此外,这些模型的参数在几亿到几百万亿之间,这就是为什么我们称之为大模型。

2.1. 大语言模型有什么实际应用?

LLM 在各个行业和领域都有广泛的应用。其中一些包括:

  • 聊天机器人—— LLM 可以与用户交谈,回答问题,提供客户支持,并协助完成各种任务。
  • 语言翻译——在不同语言之间准确翻译文本非常有效。
  • 文本摘要:这些模型可以将长文本文档处理成简洁的摘要,同时保留关键信息和意义。
  • 知识提取和发现——除了总结文本摘要外,LLM 还分析冗长的文档,以提取有价值的信息和见解。随后,他们可以集思广益,成为解决问题的合作伙伴。
  • 代码生成——LLM 可以生成代码片段,或通过理解编程任务的自然语言描述来帮助开发人员编写软件。

3. 顶级大语言模型分析

本文中,我们将介绍一些目前最流行的 LLM 系统。我们不会解释这些模型背后的算法,因为许多模型不是开源的,缺乏关于其架构的广泛信息。我们的重点将是 LLM 作为可访问的平台,主要用作各种目的的聊天机器人

为了选择最佳模型,我们将使用 LMSYS 聊天机器人竞技场排行榜上的当前排名。这是一个众包开放平台,用于评估 LLM。它收集人类偏好投票,使用 Elo 评级系统根据各种模型的表现对其进行排名。

用户可以通过评估和投票不同 LLM 的表现来参与排名过程。输入提示后,系统随机选择两个模型,处理提示,并匿名响应用户。然后,用户可以投票决定哪种模型表现更好。

只有在投票后,系统才会显示模型的名字:

LLM 的世界竞争非常激烈。每个月都有许多新模型问世,这让它变得更加激烈。因此,LLM 领域始终保持动态变化。

在这里,我们将介绍一些目前可用的最强大的模型。但是,此列表可能并不总是最新的,因为每周都可能出现新的模型、更新或补丁。尽管如此,某些领先的模型系列和平台可能会在更长的时间内保持领先地位。

3.1. OpenAI 的 GPT

OpenAI 是一家领先的人工智能研究实验室,旨在开发和推广用户友好的人工智能系统。其中一个值得注意的创新是 ChatGPT,这是一种基于 GPT 架构的开创性 LLM 模型,旨在参与类似人类的对话并协助用户完成各种任务。OpenAI 在 ChatGPT 发布后创造了历史,成为增长最快的应用,在短短两个月内吸引了超过 1 亿的月度用户。这种快速增长超过了 TikTok 和 Instagram 等一些流行平台。

OpenAI 最强大的 LLM 有:

  • gpt-4-turbo-2024-04-09 – GPT-4 Turbo 使用 Vision 模型。Vision 请求现在可以使用 JSON 模式函数调用。它有一个 128k 个 token 的上下文窗口,最多返回 4096 个输出 token。它使用截至 2023 年 12 月的数据进行训练
  • gpt-4-1106-preview – GPT-4 Turbo 预览模型具有改进的指令跟踪、JSON 模式、可再现输出、并行函数调用等功能。它有一个 128k 个 token 的上下文窗口,最多返回 4096 个输出 token,并使用截至 2023 年 4 月的数据进行训练
  • gpt-4-0125-preview – GPT-4 Turbo 预览模型旨在减少模型无法完成任务的“懒惰”情况。它有一个 128k 个 token 的上下文窗口,最多返回 4096 个输出 token。它使用截至 2023 年 12 月的数据进行训练
  • gpt-4-0613 – 来自 2023 年 6 月 13 日 GPT-4 的快照,改进了函数调用支持。建议更换退役型号 gpt-4-0314。具有 8192 个 token 的上下文窗口,并使用截至 2021 年 9 月的数据进行训练

3.2. Anthropic 的 Claude

Anthropic 是一家人工智能初创公司,由 OpenAI 前成员于 2021 年创立。从那时起,它已经从许多风险投资基金和公司筹集了资金,包括亚马逊和谷歌。Anthropic 专注于创建可靠的人工智能系统,特别强调人工智能的安全性和伦理考虑。这些型号可在 claude.ai 和 Claude API 上获得,可在 150 多个国家/地区获得。

Anthropic 最强大的 LLM 有:

  • Claude 3 Opus – 它是 Anthropic 最智能的模型和与 gpt-4-turbo-2024-04-09 和 gpt-4-1106-preview 模型一样强大。可以处理各种视觉格式,包括照片、图表、图形和技术图。它在一次输入中支持 20 万个 token,对于一些客户来说,它可以高达 100 万个token
  • Claude 3 Sonnet – 略微弱于 Opus,但仍在 LMSYS 排名前五。它在智能和速度之间达到了理想的平衡,特别是对于企业工作负载。它也比其他具有类似智能的型号更实惠
  • Claude 3 Haiku - Claude 家族最快的模型,LMSYS 排名前十。与其他 Claude 型号一样,支持 20 万个输入 token,是节省成本任务的理想选择

3.3. Google 的 Gemini

Gemini 是由 Google DeepMind 创建的 LLM 家族。这些 LLM 是多模态的,这意味着模型可以处理来自多种模态的信息,包括文本、图像、音频和视频。Gemini 可以解决许多有趣的问题。其中之一是推理,它使用不同的方式,比如整部电影。也就是说,整部电影的长期背景理解是谷歌的一名实验性特征研究人员用 Gemini 1.5 pro 测试的。

Google 最强大的 LLM 有:

  • Gemini Ultra – 用于高度复杂任务的最强大和最大的模型。由于未知原因,没有 LMSYS 排名。谷歌表示,这是第一个在 MMLU 基准测试中表现优于人类专家的模型。他们还表示,在大多数常见的 LLM 基准测试中,该模型的表现优于 GPT-4
  • Gemini Pro 1.0 – 是 LMSYS 排名前五的模型之一。它是线上的默认模型

3.4. Mistral AI 的 Mistral

Mistral AI 是一家法国公司,由 Meta 和谷歌 DeepMind 的前员工于 2023 年 4 月创立。它生产开源 LLM,遵循开源软件的重要性,并作为专有模型的进行响应。

Mistral AI 最强大的 LLM 有:

  • Mistral Large – 高复杂性任务的顶层推理。目前最好的 LLM 之一
  • Mixtral 8x22B Instruct – 最强大的开源模型之一。它有一个 64k 的上下文窗口,精通英语、法语、意大利语、德语和西班牙语,代码也很强

3.5. Meta 的 Llama

Llama (Large Language Model Meta AI) 是 Meta AI 从 2023 年 2 月开始发布的自回归 LLM 家族。Meta 将所有模型开源发布,并在网上提供权重,这使得它们在社区中非常受欢迎。Llama 模型在各种各样的数据集上进行训练,包括网页、开源 GitHub 存储库、20 种不同语言的维基百科、公共领域书籍、ArXiv 论文中的 LaTeX 源代码和 Stack Exchange 问答。

Meta 最强大的 LLM 有:

  • Llama 3 70b Instruct – 最强大的开源模型。目前在 LMSYS 领域排名前五。拥有 700 亿个参数和 8k 个 token 的上下文窗口
  • Llama 3 8b Instruct – 一个更小但仍然强大的 Llama 模型,有 80 亿个参数

4. 顶级大语言模型的比较

为了进行比较,我们将使用 LLSYS 排名和公司报告的一些常见 LLM 基准。LLSYS 排名是动态的,数字每天都在变化。因此,我们将使用“前 5 名”、“前 10 名”和“前 15 名”类别作为衡量标准。

一些常见的 LLM 基准包括:

  • 大规模多任务语言理解(MMLU) – MMLU 是一种标准化的方法,用于评估人工智能在从简单数学到复杂法律推理等任务上的性能。它涵盖了 STEM、人文科学、社会科学等 57 个学科,难度从初级到高级专业水平不等
  • HellaSwag – HellaSwag 基准测试是一个大语言模型基准测试,旨在评估语言模型的常识推理能力。数据集由一系列句子组成,每个句子后面都有一个问题,需要理解上下文并对潜在结果进行推理
  • MATH – 包含 12500 个数学问题的数据集。该数据集涵盖了各种学科,包括代数、微积分、统计学、几何和线性代数。
  • HumanEval – HumanEval 基准测试是一种旨在评估 LLM 生成的代码的功能正确性的工具。它通过测量生成的代码通过一组单元测试的概率来评估 LLM 在代码生成任务中的性能

除了这些基准之外,在评估过程中还使用了提示技术。最常见的是,我们可以有所不同:

  • 0-shot – 我们提出一个问题,但没有给出任何模型的示例
  • 1-shot – 我们提供了一个模型的示例。例如,“以示例 1 为参考,回答问题 1”
  • k-shot – 与 1-shot 相同,但使用 k 个示例

下表显示了所展示模型之间的比较:

 输入上下文窗口I输出上下文最大值发布日期 (月-日-年)每一百万输入 token 的价格每一百万输出 token 的价格LLSYSMMLU (5-shot)HellaSwag (10-shot)MATH (4-shot)HumanEval (0-shot)
gpt-4-turbo-2024-04-09128k409604-09-202410$30$Top 5
gpt-4-1106-preview128k409611-06-202310$30$Top 5
gpt-4-0125-preview128k409601-25-202410$30$Top 5
gpt-4-06138192819201-13-202330$60$Top 15
Claude 3 Opus200k409604-03-202415$75$Top 586.8%95.4%61.0%84.9%
Claude 3 Sonnet200k409604-03-20243$15$Top 579.0%89.0%40.5%73.0%
Claude 3 Haiku200k409604-13-20240.25$1.25$Top 1075.2%85.9%40.9%75.9%
Gemini Ultra32.8k819283.7%87.8%53.2%74.4%
Gemini Pro 1.032.8k819212-13-20230.13$0.38$Top 571.8%84.7%32.6%67.7%
Mistral Large32k409602-26-20248$8$Top 1581.2%89.2%45.1%
Mixtral 8x22B Instruct64k04-17-2024open-sourceopen-sourceTop 1577.75%88.5%45.1%
Llama 3 70b Instruct8k8k04-18-2024open-sourceopen-sourceTop 582.0%50.4%81.7%
Llama 3 8b Instruct8k8k04-18-2024open-sourceopen-sourceTop 1568.4%30.0%62.2%

请注意,在这个表中,GPT-4 模型没有通用基准的值,但在许多论文中,其他 LLM 平台倾向于将其结果与 GPT-4 进行比较。这是因为原始论文中提到的具有常见 LLM 基准的 GPT-4 版本已经过时,并被 OpenAI 淘汰。

5. 小结

本文中,我们介绍了目前可用的一些最强大的 LLM 模型和平台。我们使用一些模型参数、成本和流行的 LLM 基准进行了全面的比较。

从我们所看到的,有很多不同的语言模型,每种模型都是为不同的事情而设计的。有些非常强大,有些不贵,有些免费开放供任何人使用。看看我们有多少选择,这很酷,这取决于我们的需求。

随着时间的推移,我们可能会看到更多的新模型出现,根据我们的需求和负担能力为我们提供更多的选择。

 

AI