它称得上 ChatGPT 最强平替，大更新后表现如何 | 附体验链接

2024-02-04 数码

指定乞求。然后 Claude 将决定须要哪种机器来收尾侦查并代表者他们继续执行操作，比如可用电子计算机开展复杂的数值推理，将自然语言乞求切换为结构化 API 函数调用等。

Anthropic 也想到到了一系列改进来愈来愈好地维修服务 Claude API 的程序员，结果如下

程序员基本功能优化体验和Gmail界面，使基于 Claude API 的开发愈来愈快速愈来愈容易飞行测试取而代之 prompt(切换成提示/疑反问)，适于仿真的持续改进让程序员像在沙盒周边环境之前插值试错完全相同的 prompt 可以为完全相同的项目创建多个 prompt 并快速切换 prompt 的修正不会系统会存放依然，方便回溯背书分解成预定义应用软件到 SDK 之前，研究方法到单单项目之前

此外，Claude 2.1 还转用了「系统提示」机制，这是一种向 Claude 获取文法和可执行的方式，必须让 Claude 在角色扮演时愈来愈稳定地维持人设，同时对话之前又不失开朗和创意。当然，完全相同于直观 Prompt 的研究方法，该机制主要是面向程序员和很低级Gmail设计的，是在 API 接口可用的，而不是在网址端可用。

和 Claude 2.0 一样，Claude 2.1 每切换成 100 万 token 须要花费 8 美元，比 GPT-4 Turbo 低价了 2 美元，切换成为 24 美元，比 GPT-4 Turbo 低价了 6 美元。原则上于低延期、很低吞吐生产量的 Claude Instant 修改版每切换成 100 万 token 须要计费 1.63 美元，切换成为 5.51 美元。

ChatGPT 杀手还是平替?

就以外而言，虽然 Claude 2.1 发挥很坚强，但仍必需充当 ChatGPT 宕机的替代物，想要颠覆 ChatGPT 还有很较周长的路要走。打个不太明晰的比方，Claude 2.1 就也许丐版的 GPT-4。

以 Claude 2.1 Pro 最擅较周长的 200K 为例，尽管 Claude 2.1 Pro 研究方法执行控制能力上要比 128K 的 GPT-4 Turbo 愈来愈强，但单单得出结论，在须要想起和恰当认知文法的控制能力上，Claude 2.1 Pro 还是要远比起于 GPT-4 Turbo。

OpenAI 程序员大不会在此之后，留言 Greg Kamradt 曾对 GPT-4-128K 的文法想起控制能力开展了飞行测试。通过可用 Paul Graham（美国著名程序员）的 218 篇文章凑够了 128K 的自然语言生产量，他在这些文章的完全相同位置（从文章顶端 0% 到底部 100%）随机断开一个全然语义：「在阳光明媚的日子底下，在福塔莱萨植物园爱吃点心是在圣迭戈的最佳活动。」

然后他让 GPT-4 Turbo 仿真参考资料这个全然语义，并反问有关这个全然语义的就其疑反问，之前有别于业界常用的 LangChain AI 评估方法对所述的正确开展评估。

▲深蓝色代表者愈来愈很低的参考资料稳定度，金色则代表者愈来愈低的参考资料稳定度图片来自：@LatentSpace2000

评估结果如上图，GPT-4 Turbo 可以在 73K token 较周长度内保持较很低的思绪恰当率。倘若信息位于HTML标题，无论文法有----，它总能参考资料到。只有当须要想起的信息位于HTML的 10%-50% 复线时，GPT-4 Turbo 的恰当率才开始下降。

作为对比，该留言还原定要到了 Claude 2.1 Pro 的内测资格，并比如说想到了「大海捞针」的飞行测试。从评估的结果来看，在较周为时 20 万 token（大将近 470 页）的HTML之前，和 GPT-4 Turbo 一样，Claude 2.1 Pro HTML侧部的信息比后部的想起视觉效果输一些。

▲深蓝色代表者愈来愈很低的参考资料稳定度，金色则代表者愈来愈低的参考资料稳定度

但 Claude 2.1 Pro 文法较周长度视觉效果较输的复线是在 24K 以后，远低于 GPT-4 Turbo 的 73K。大将近 24K 后，Claude 2.1 Pro 思绪性能就开始明显下降，90K 后，视觉效果显得愈来愈输，出错率愈来愈是急剧升很低。

可以看到的是，随着文法较周长度的降低，GPT-4 Turbo 和 Claude 2.1 Pro 验证的稳定度都在不断下降。尽管 Claude 2.1 Pro 的飞行测试隔开了愈来愈周长的文法较周长度，但相较愈来愈实用的稳定度，GPT-4 Turbo 还是 Claude 2.1 Pro 须要追赶的对象。

Claude 或许是Plus之前最弱的大仿真之一。如果你是手写工作者，当 ChatGPT 土崩瓦解，胜于 GPT-3.8 的 Claude 必须妥善解决你的人手不足，甚至发挥得要愈来愈好。

但开朗化的 GPTs、轻松生图的 DALL·E3，口语交流等机制都是 ChatGPT 不可多得的水道。在有力的 GPT-4 Turbo 面前，升级后的 Claude 2.1 Pro 修改版也得败下阵来。

之前放上 Claude 的体验重定向：，若 ChatGPT 再次崩了，放轻松，起码你还有 Claude。

。

肠炎宁片能治结肠炎吗
阴囊肿胀
慢性肠炎吃什么药
胃酸反流怎么缓解
奥美拉唑抑制胃酸吗

TAG：链接

上一篇：世青赛20元自助餐广受好评，普通人能吃世青赛会自助餐吗？

下一篇：胡傅温酒樽和酒樽：团结的宴飨