超越GPT-4后，更聪明更安全的Claude 3让企业级AI应用成为可能

资讯9个月前更新 dengjian

43 0 0

越来越强的基础模型能力对创业者意味着什么？

北京时间3月5日凌晨，OpenAI的主要竞争对手Anthropic发布了最新的大模型Claude 3，这个模型系列分为三个版本：Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus。

最大也最强的Claude 3 Opus在Anthropic发布的测试成绩中全面超越了OpenAI的GPT-4与谷歌的Gemini Ultra 1.0，尤其在数学、编程、多语言理解、视觉等方面。

超越GPT-4后，更聪明更安全的Claude 3让企业级AI应用成为可能

Claude 3在多模态，复杂推理和数学能力上的飞跃，让GPT-4不再一枝独秀，让创业公司和AI原生应用开发者们有了更多选择，也让企业级AI应用成为可能。

本文，我们将分别讨论：1.Claude3在哪些方面具有优势。2.Claude3怎样拓宽AI的应用范围。3.头部公司在模型层面不停迭代，对于创业者意味着什么？

01 Claude 3在复杂推理和数学能力上大幅超越GPT-4

Claude 3 Opus是Anthropic目前能力最强的模型，它能处理高度复杂的任务，应对各种开放式提示和未知场景，Anthropic表示，Claude 3 Opus拥有人类本科生水平的知识。

Claude 3 Sonnet在在能力和速度之间取得了理想的平衡，它在提供强大性能的同时成本更低，而且安全稳定。

Claude 3 Haiku是整个系列最快速、最轻便的模型，它可以几乎实时的响应需求，解答简单的问题，带给用户真人互动般的体验。

更强的复杂推理能力

从Anthropic公布的测试成绩看，Claude3 Opus在多项测试中都超越了GPT-4，尤其是在推理、数学、编码等方面的优势更大；甚至Claude 3 Sonnet在数学和编码上相对GPT-4也有优势。

超越GPT-4后，更聪明更安全的Claude 3让企业级AI应用成为可能

尤其值得注意的是GPQA、MATH、MGSM和HumanEval这四个测试。

GPQA是研究生水平的专业知识和推理，Anthropic选择了钻石级问题集，在这个测试中Claude 3 Opus和Claude 3 Sonnet都超越了GPT-4。

MATH和MGSM都是关于数学能力的，其中MATH测试的是数学能力而MGSM是多语言数学能力。Claude 3 Opus在这两个测试中都超越GPT-4，而且MGSM测试中的领先幅度相当大（90.7% VS 74.5%）。另外值得注意的是，在这项测试中Claude 3是在0 shot（零样本提示）的条件下测试的，而GPT-4是在4 shot和8 shot的条件下测试。

在代表编码能力的HumanEval测试中，Claude 3的3个尺寸模型都超越了GPT-4，尤其是Claude 3 Opus相对GPT-4的领先优势达到17.9%，这会让很多AI编程领域的创业公司考虑更换基础模型。

超越GPT-4后，更聪明更安全的Claude 3让企业级AI应用成为可能

毫无疑问，Claude 3是一个多模态模型，它支持图像和视频输入，在解决复杂多模态推理方面处于领先地位，在与OpenAI及谷歌的先进多模态大模型对比时，它的数项能力都更强。

尤其是在AI2D科学图表基准测试中，它的得分基本比GPT-4V和Gemini有8-10%的领先优势，而且它的Claude 3 Sonnet模型的得分最高，体现出这个模型在能力、尺寸和成本上的优秀平衡性。

更长的上下文窗口

Claude3也延续了长上下文窗口的强项，其初始阶段支持200K token上下文窗口，Anthropic考虑为需要更大上下文窗口的特定客户开放100万token的输入。

在200K token的「大海捞针」（NIAH）测试中，Claude 3 Opus准确率超过99%。

超越GPT-4后，更聪明更安全的Claude 3让企业级AI应用成为可能

更好的安全及可控性

相比OpenAI，Anthropic一直强调自己模型的安全性与合规性。对于Claude 3系列模型，它强调了自己在训练数据，模型保护和训练基础设施的安全保护。其中值得一提的是它的宪法AI，这一算法确保Claude 3的输出有用、诚实且无害，符合人类社会的伦理和行为原则，尤其是减少性别歧视、种族歧视以及其他不道德的输出。

超越GPT-4后，更聪明更安全的Claude 3让企业级AI应用成为可能

不过，Claude 3系列模型的价格目前并不便宜，能力最强的Claude 3 Opus比GPT-4 Turbo要贵得多：GPT-4 Turbo每百万token输入/输出收费为10/30美元；而Claude 3 Opus为15/75美元。Claude 3 Sonnet则是3美元/15美元，Claude 3 Haiku是0.25美元/1.25美元，考虑到后两种模型的性能，他们对于企业搭建中等和轻量应用的性价比是相当高的。