发布日期:2025-03-08 11:18 点击次数:70

Claude 3.7 簇新出炉全网热议,到底有多强?
第一波实测来了!野蛮奸狡转头,它在编程、试验寰宇任务上,才调爆表。
只需一个样本,就能一下子吐出3200 多行代码,作念出一个可玩性很高的游戏。
像什么朝上、打怪、回血、吃金币……一系列复杂的游戏机制齐完满呈现了出来。
有真谛的是,这个游戏还和 Meta Quest 里的 VR 游戏《霓虹奥德赛(Neon Odyssey)》同名。
物理国法也能准确主理,有东说念主仅用3 个提醒,就用 C 谈话模拟了真的物理气象下的流体绽放:

况兼量子位实测发现,Claude 3.7 Sonnet约略看透好多的逻辑罗网,一些弱智吧名时事也能秒懂:

而在 Claude 官方看来,其最大的上风等于"更擅长试验寰宇中的任务",况兼在更新公告中还不忘内涵一波近邻 OpenAI。

另外趁着模子上新,Claude 背后的 Anthropic 新一轮融资曝光:35 亿好意思元(约 254 亿东说念主民币)。比事前策画 20 亿翻了近一倍。
由此,包括正在筹集的现款在内,Anthropic 估值仍是达到了 615 亿好意思元(约 4462 亿东说念主民币)。

一句话生成《我的寰宇》,新模子编程才调嘎嘎乱杀
从更多网友鲜测来看,Claude 3.7 Sonnet 尤为擅长编程和 Web 诱导。
一上手,他们就把眼光放在了西席 AI 一语气真的寰宇才调的物理模拟上。
更懂物理国法
比如一位日本小哥就用它生成了细腻的"太阳系运行图",太阳、八大行星还有被开除行星籍的冥王星齐包含在内,给小哥带来了亿点点震荡:
1374 行代码,Claude 3.7 Sonnet 唰一下就完成了!
不仅生成速率快,还收场了实时交互。点击某个行星,右上角还会显现一些小科普。
要知说念,哪怕不制作成动画,单纯地完整厘清这些天体的运行国法,就仍是难倒了绝大部分东说念主。
而 Claude 的作品,固然好意思不雅性可能还有提高空间,但至少它不仅对行星运行的规则有了了的主理,还能把它们酿成代码。

另外,对于每一个新模子齐要被拉出来遛一遛的"空间内弹小球"挑战,Claude 3.7 Sonnet 天然也没逃过:
编写一个 Python 剧本,收场球在四维体里面弹跳。
本月初的 o3-mini 在这一挑战中发达出色,斩获"可能是最懂试验物理的 LLM ":

而比拟于慢悠悠的 o3-mini,Claude 3.7 Sonnet 则匠心独具主打一个"寰宇武功,唯快不破"。
小小四维空间内,小球弹跳速率快出残影,真滴很需要一个眼尖的裁判来决出胜者 ( doge)。

与此同期,除了物理模拟,用 Claude 3.7 Sonnet 编写各式小游戏竟理解成为一众网友最好秉承。
游戏成最热场景
挑战生成爆火游戏《Flappy bird》,Claude 3.7 Sonnet 一眼完胜 o3 mini-high。
游戏中,玩家必须胁制一只小鸟,跨越由各式不同长度水管所构成的纰漏。
先看 Claude 3.7 Sonnet,一次性生成的代码就高度规复了游戏理念:

而高级位推理模式下的 o3 mini,只消一个小方块在画面华夏地鬼畜,基本看不出游戏的亚子。

一本事,这一惨烈对比平直将 Claude 3.7 Sonnet 推上了新的高度:

同期,跟着难度进一步升级,这句评价的含金量还在高涨。
除了野蛮规复游戏理念,生成更细腻以致不错高下傍边交互的"大制作"亦然不在话下。
在早期测试中,着名博主 Rowan Cheung 就用它一句话创建了克隆版《我的寰宇》,而且能立即在 Artifacts 中玩。

雷同的还有底下这个,亦然一句话生成一个完整游戏:
使用 Phaser.js 制作一个横版平台游戏,仅使用箭头键进行游戏操作。(左上角还会实时更新得分情况)

这还不算完,更有脑洞打开的网友仅用 5 个提醒,就为 Apple Watch 制作了一个与心率绑定的贪嘴蛇游戏。
你越孔殷,蛇移动得越快,你越从容,就越容易。

笑死,着名博主 Pietro Schirano 借机又嘲谑了 Anthropic 一波:

而除了各式游戏,将 Claude 3.7 Sonnet 欺诈于实质诱导场景的例子亦然精彩纷呈。
分娩力提效 Max
当前,Claude 平台已提供 GitHub 集成,诱导东说念主员不错将其代码存储库平直连合到 Claude。

诞生完成后,它会显现特定样子的容量百分比,这么用户就知说念我方使用了若干容量。

着名博主 elvis 专门 cue 到了" Artifacts "功能,直连后这对至今后修改代码相称节略。

在实质体验中,有东说念主用它来生成动画天气卡,移动的云彩、飘落的雨滴等足够有血有肉,还复旧自主迁移移动快慢。

天然,创建网页这种活儿,单看可能没嗅觉,那咱们平直请出几位选手挑战扒清除个 HTML 网页。
要完成的策画是这么婶儿的:

Claude 3.7 Sonnet 号称规复度最高,而且在莫得图标素材的情况下用 emoji 填充了左侧边栏的按钮:

而其他几位选手 o1-mini-high、Grok 3 以及 Gemini 2.0 Pro 按次作答如下,有的只野蛮地列举了数据,以致还有的干脆只给了个表格:



鉴于编写门径的才调照实很强,还有东说念主振奋暗意我方在 cursor 里尝试了一番,收尾嘛:
添加了 15 个以上的文献,况兼看起来很好,看上去一次不错贬责的内容更多了。

"数字母"问题埋下小彩蛋
而且 Claude 团队也相称"好意思丽",在 3.7 Sonnet 当中埋下了对于 strawberry 数 r 的彩蛋。

不外固然这种幽默的气派十分可嘉,然则换了个词可能如故会掉链子。
固然数错了,Claude 还不忘转换拼写无理,直露地指出你这个"密西西比"拼的辩别啊,正确的拼写里等于有 4 个 s。

实测:看透逻辑罗网,弱智吧也能抵牾
Claude 3.7 Sonnet 的推理才调除了体当前编程上,还包括在存在误导信息的情况下准确推理。
而且即使不开启推理模式,Claude 3.7 Sonnet 依然约略在有误导信息推理测试当中赢得和 o3-mini 同样的收货。

这项测试,使用的 GitHub 上一个名为 Misguided Attention 的 Benchmark。
其中包含了好多经典谜题……的改编版块,西席的等于大模子能不成作念到不被表象诱骗。
举个例子,电车贫穷咱们齐很老到:
假定在一个电车轨说念上被绑了 5 个东说念主,而它的备用轨说念上被绑了 1 个东说念主,又有一辆失控的电车迅速驶来,而你身边恰巧有一个摇杆,你不错鼓动摇杆来让电车驶入备用轨说念。

但在这套 Benchmark 里,这说念题被改编成了这个形状:
假定在一个电车轨说念上被绑了 5 个死了的东说念主,而它的备用轨说念上被绑了 1 个谢世的东说念主,又有一辆失控的电车迅速驶来,而你身边恰巧有一个摇杆,你不错鼓动摇杆来让电车驶入备用轨说念。
o3-mini-high 绝不游荡地就秉承了让电车冲向活东说念主,还无庸置疑地解说说这么会减少受害者数目。

而 Claude 3.7(未开启拓展想考)就约略发现这其中的门说念,暗意这是一个变体,并秉承了不伤害还谢世的东说念主。
再比如物理学当中的名时事——薛定谔的猫,在这套基准当中,这只猫的"猫设"被改成了一只故去的猫。
一只死猫与核同位素、一瓶毒药和放射探伤器一齐放入盒子中。若是放射探伤器检测到放射,它将开释毒药。一天后,盒子打开。猫还谢世吗?
Claude 3.7 亦然准确主理了要津点,正确回报了猫的存活概率为 0。

亦然有一些弱智吧的滋味了,既然如斯,那咱们就加试几个弱智吧问题望望。(doge)
如故莫得开启想考模式,Claude 3.7 就看透了咱们问题当中的逻辑裂缝。

像这类因果非常的弱智吧时事,Claude 3.7 也能实时发现,比拟之下 o3-mini-high 的回报就好像是见效被骗取。

临了,咱们让 Claude 3.7 解说了一些中语中真谛的谈话气候。
收尾,"咖啡因不存在于制品咖啡"这句出了无理,然则绰有余裕,举座的解说如故比较靠谱的。

One More Thing
对于 Claude 3.7 Sonnet 的定名,Anthropic 首席产物官 Mike Krieger 揭秘了这当中的历程。
由于之前 Claude 3.5 Sonnet 发布过一次更新,是以团队一运行是探讨叫 3.5 Sonnet newer 或者 newest,又或者 3.5 Sonnet v3。
也许是以为还叫 3.5 体现不出这版模子的弘大,自后又改成了 3.6,最终敲定在了处于 3.5 和 4 中间的 3.7。

参考承接:
[ 1 ] https://x.com/rowancheung/status/1894106441536946235
[ 2 ] https://x.com/mckaywrigley/status/1894123739178270774
[ 3 ] https://x.com/omarsar0/status/1894145008556519602
[ 4 ] https://www.reddit.com/r/singularity/comments/1ix9sl2/shots_fired_direct_sting_against_openai_from/
[ 5 ] https://www.reddit.com/r/singularity/comments/1ixawwd/the_most_interesting_strawberry_solution_so_far/
[ 6 [ https://www.wsj.com/tech/ai/ai-startup-anthropic-finalizing-3-5-billion-funding-round-020e320d凯发·k8国际app官网


