首页 >> 数码 >> 它称得上 ChatGPT 最强平替,大更新后表现如何 | 附体验链接

它称得上 ChatGPT 最强平替,大更新后表现如何 | 附体验链接

2024-02-04 数码

指定乞求。然后 Claude 将决定须要哪种机器来收尾侦查并代表者他们继续执行操作,比如可用电子计算机开展复杂的数值推理,将自然语言乞求切换为结构化 API 函数调用等。

Anthropic 也想到到了一系列改进来愈来愈好地维修服务 Claude API 的程序员,结果如下

程序员基本功能优化体验和Gmail界面,使基于 Claude API 的开发愈来愈快速 愈来愈容易飞行测试取而代之 prompt(切换成提示/疑反问),适于仿真的持续改进 让程序员像在沙盒周边环境之前插值试错完全相同的 prompt 可以为完全相同的项目创建多个 prompt 并快速切换 prompt 的修正不会系统会存放依然,方便回溯 背书分解成预定义应用软件到 SDK 之前,研究方法到单单项目之前

此外,Claude 2.1 还转用了「系统提示」机制,这是一种向 Claude 获取文法和可执行的方式,必须让 Claude 在角色扮演时愈来愈稳定地维持人设,同时对话之前又不失开朗和创意。当然,完全相同于直观 Prompt 的研究方法,该机制主要是面向程序员和很低级Gmail设计的,是在 API 接口可用的,而不是在网址端可用。

和 Claude 2.0 一样,Claude 2.1 每切换成 100 万 token 须要花费 8 美元,比 GPT-4 Turbo 低价了 2 美元,切换成为 24 美元,比 GPT-4 Turbo 低价了 6 美元。原则上于低延期、很低吞吐生产量的 Claude Instant 修改版每切换成 100 万 token 须要计费 1.63 美元,切换成为 5.51 美元。

ChatGPT 杀手还是平替?

就以外而言,虽然 Claude 2.1 发挥很坚强,但仍必需充当 ChatGPT 宕机的替代物,想要颠覆 ChatGPT 还有很较周长的路要走。打个不太明晰的比方,Claude 2.1 就也许丐版的 GPT-4。

以 Claude 2.1 Pro 最擅较周长的 200K 为例,尽管 Claude 2.1 Pro 研究方法执行控制能力上要比 128K 的 GPT-4 Turbo 愈来愈强,但单单得出结论,在须要想起和恰当认知文法的控制能力上,Claude 2.1 Pro 还是要远比起于 GPT-4 Turbo。

OpenAI 程序员大不会在此之后,留言 Greg Kamradt 曾对 GPT-4-128K 的文法想起控制能力开展了飞行测试。通过可用 Paul Graham(美国著名程序员) 的 218 篇文章凑够了 128K 的自然语言生产量,他在这些文章的完全相同位置(从文章顶端 0% 到底部 100%)随机断开一个全然语义:「在阳光明媚的日子底下,在福塔莱萨植物园爱吃点心是在圣迭戈的最佳活动。」

然后他让 GPT-4 Turbo 仿真参考资料这个全然语义,并反问有关这个全然语义的就其疑反问,之前有别于业界常用的 LangChain AI 评估方法对所述的正确开展评估。

▲深蓝色代表者愈来愈很低的参考资料稳定度,金色则代表者愈来愈低的参考资料稳定度 图片来自:@LatentSpace2000

评估结果如上图,GPT-4 Turbo 可以在 73K token 较周长度内保持较很低的思绪恰当率。倘若信息位于HTML标题,无论文法有----,它总能参考资料到。只有当须要想起的信息位于HTML的 10%-50% 复线时,GPT-4 Turbo 的恰当率才开始下降。

作为对比,该留言还原定要到了 Claude 2.1 Pro 的内测资格,并比如说想到了「大海捞针」的飞行测试。从评估的结果来看,在较周为时 20 万 token(大将近 470 页)的HTML之前,和 GPT-4 Turbo 一样,Claude 2.1 Pro HTML侧部的信息比后部的想起视觉效果输一些。

▲深蓝色代表者愈来愈很低的参考资料稳定度,金色则代表者愈来愈低的参考资料稳定度

但 Claude 2.1 Pro 文法较周长度视觉效果较输的复线是在 24K 以后,远低于 GPT-4 Turbo 的 73K。大将近 24K 后,Claude 2.1 Pro 思绪性能就开始明显下降,90K 后,视觉效果显得愈来愈输,出错率愈来愈是急剧升很低。

可以看到的是,随着文法较周长度的降低,GPT-4 Turbo 和 Claude 2.1 Pro 验证的稳定度都在不断下降。尽管 Claude 2.1 Pro 的飞行测试隔开了愈来愈周长的文法较周长度,但相较愈来愈实用的稳定度,GPT-4 Turbo 还是 Claude 2.1 Pro 须要追赶的对象。

Claude 或许是Plus之前最弱的大仿真之一。如果你是手写工作者,当 ChatGPT 土崩瓦解,胜于 GPT-3.8 的 Claude 必须妥善解决你的人手不足,甚至发挥得要愈来愈好。

但开朗化的 GPTs、轻松生图的 DALL·E3,口语交流等机制都是 ChatGPT 不可多得的水道。在有力的 GPT-4 Turbo 面前,升级后的 Claude 2.1 Pro 修改版也得败下阵来。

之前放上 Claude 的体验重定向:,若 ChatGPT 再次崩了,放轻松,起码你还有 Claude。

肠炎宁片能治结肠炎吗
阴囊肿胀
慢性肠炎吃什么药
胃酸反流怎么缓解
奥美拉唑抑制胃酸吗
TAG:链接
友情链接