首批最新版DeepSeek R1测试出炉,代码能力直逼Claude 4

DeepSeek也开始玩起狙击了。

昨日,就在英伟达最新财报发布的数小时前,DeepSeek突然就宣布升级了。

此次DeepSeek的升级相当低调,连社交媒体和新版DeepSeek R1的详细技术说明都没有发。

仅仅在官方微信说了一句“DeepSeek R1 模型已完成小版本试升级”,大家可以自行前往官方网页、APP、小程序进行测试”。

DeepSeek R1升级+

一开始,大家还以为只是小小的升级,毕竟没有看到大家期待的“R2”出现,但一晚上过去了,各大AI博主实测发现:

“DeepSeek R1的能力有质的飞跃,特别是在编程领域,很多博主一致认为新版的DeepSeek R1的编程能力已经超越了Claude 3.7 ,审美能力丝毫不输Claude 4。

除此之外,不少网友已经整理出此次的更新亮点了。

  • 能够像Google模型一样进行深入推理
  • 改进了写作任务——更自然、格式更好
  • 独特的推理风格——快速且深思熟虑
  • 长时间思考——每个任务最长能思考30-60分钟
新版DeepSeek R1亮点

那真的有这么厉害吗?给大家看几个实测的例子就知道它有多强了!

先来看一下经典的天气卡片测试。

提示词:Create a single HTML file containing CSS and JavaScript to generate an animated weather card. The card should visually represent the following weather conditions with distinct animations: Wind: (e.g., moving clouds, swaying trees, or wind lines) Rain: (e.g., falling raindrops, puddles forming) Sun: (e.g., shining rays, bright background) Snow: (e.g., falling snowflakes, snow accumulating) Show all the weather card side by side The card should have a dark background. Provide all the HTML, CSS, and JavaScript code within this single file. The JavaScript should include a way to switch between the different weather conditions

DeepSeek R1制作天气卡片

完成度非常高,特别是生成的动画效果,已经完全不输Claude 3.7的天气卡片了。

用户@manan做了一个Claude sonnet 4和DeepSeek-R1-0528的测试。

从展示的结果来看,新版的DeepSeek R1已经完全不输了,可以看到,DeepSeek R1 在模拟物理碰撞方面表现会更好一些。

大家注意看球的阴影,DeepSeek的阴影一直存在,而Claude后面则是不见了。

DeepSeek R1制作的运动卡片

博主@AI产品黄叔分别使用新版的DeepSeek R1和Claude 4做了几份设计图进行了对比。

DeepSeek R1制作的UI
DeepSeek R1制作的软件UI

DeepSeek生成的设计图颜色更加的简约,而Claude 4在颜色的应用上更多样化,视觉冲击感会更强。

知名的的开发者@ Haider在DeepSeek升级后,上手实测了一波,发现只有 o3 和新版 DeepSeek-R1 能够完成它的编程测试。

开发者@ Haider在DeepSeek升级后,上手实测了一波,发现只有 o3 和新版 DeepSeek-R1 能够完成它的编程测试。

Hyperbolic Labs CTO 和联创 Yuchen Jin 进行了测试,发现新版DeepSeek R1是目前唯一能始终回答正确“9.9-9.11是多少”的模型。

新版DeepSeek R1是目前唯一能始终回答正确“9.9-9.11是多少”的模型。

除了大家实测外,DeepSeek R1 第一个基准榜单成绩也出炉了。

在最新的LiveCodeBench榜中,它的编程能力已经超越了 O3-Mini,评分几乎与 O3(High)相当。

在最新的LiveCodeBench榜中,它的编程能力已经超越了 O3-Mini,评分几乎与 O3(High)相当。

无论是大家的实际测试还是榜单成绩表明:新版的DeepSeek的编程能力确实增强了很多。

写到最后,突然发现这次DeepSeek R1升级仿佛在掀编程模型的桌子。 当开源的DeepSeek在编程领域超越了Claude 3.7,甚至直逼Claude 4的水准,大家在使用Claude或ChatGPT时,会不会思考性价比这个问题呢? 此外,国产AI编辑助手(如Trea、通义灵码、文心快码)是否会因为此次DeepSeek R1的升级,吸引更多开发者从Cursor、Windsurf转向它们?

开源真的香表情包

类似文章

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注