谷歌Veo 3惊艳亮相：能唱Rap、能对话，还能演脱口秀！

内容隐藏目录

一、Veo 3将首次将AI视频带进了有音世界

二、Gemini 2.5 系列模型全面升级：更快更强

太牛了，在刚刚结束的 Google I/O开发者大会，谷歌一口气发布了 AI 搜索模式、AI浏览器、Flow、Image4、Gemini 2.5 Pro 的增强推理模式、智能眼镜等多款AI产品。

不愧是一年一度的AI界的春晚。

但其中最吸引人当属 DeepMind 带来的 Veo 3 视频模型和Gemini 2.5 系列模型的全面升级。

一、Veo 3将首次将AI视频带进了有音世界

Veo 3最大的突破就是生成的视频能带声音，你可以让它生成的视频里不光有画面，还有背景音效、环境声、对话声，还能生成对话旁白。

如果大家要看视频，可以去我的公众号查看。

传送门：AI工具导航站。

话不多说，直接展示：

自Veo 3发布出来后，X上已经掀起了一股AI Rap的创作狂潮。

里面所有的视觉元素，从人物到场景，通通是Veo 3生成的，包括大家刚刚听到的那段Rap也是Veo 3生成的！

仔细看，你会发现口型跟歌词说是“神同步”一点都不过分。

当长颈鹿都开始Freestyle唱Rap的时候，你就知道Veo 3有强了，没有丝毫违和感。

除了能直接生成Rap视频之外，各种类型的歌唱视频也能轻松拿捏。

此外，还能生成脱口秀。

无论是表演者手臂自然的摆动、微妙的面部表情带动的笑声，还是现场观众此起彼伏的哄笑声，都处理得恰到好处。毫不夸张地说，这效果跟我平时在各大短视频平台刷到的真人脱口秀几乎一模一样！

相较于Veo 2，Veo 3除了增加声音外，其他能力还得到全面的升级，尤其是是在视频质量和复杂指令的理解上达到了新高度。

我们先来看一下它的指令遵从能力。一只腊肠犬穿过客厅，从敞开的正门跑出去，来到门廊上，它站在楼梯上，看着社区，一辆冰淇淋车经过。

非常严格的遵从了提示词的指令。

提示词：”The camera follows a dachshund running through a living room and out of an open front door and onto a porch. It stands on the top stair overlooking the neighborhood as an ice cream truck drives by.”

Veo 3还能更好的保持视频中角色、物体和整体视觉风格的一致性。

提示词：“a video with dialogue of two muffins while baking in an over, the first muffin says “I can’t believe this Veo 3 thing can do dialogue now!”, the second muffin says “AAAAH, a talking muffin!”

https://twitter.com/i/status/1924917797366247719

不同艺术风格的视频也能轻松拿捏。

提示词： “Demon slayer’s characters in real life 3d style, clear visuals, hairs moving due to wind, in a serene but serious theme, looking at camera POV or side views as per cinematography”

https://twitter.com/i/status/1925056085230055427

即使是长镜头，多物体互动的场景处理的也非常好，不过也发现音效和画面并不是百分百搭配，就像下面视频中间那段所展示的那样，打斗声和画面有些不匹配。

提示词：”a crowd with swords approaching an angry indian punjabi man who rips out a handpump in a 1947 village, swings it in rage against enemies. dust flies, slow-mo, zoom on eyes, raw power, people flying after getting hit, chaos all around. iconic scene.”

https://twitter.com/i/status/1925026884233863518

目前，Veo 3已经在Gemini上线了，遗憾的是仅针对推出的新套餐每月 250美元 AI Ultra 的用户开放（前三个月半价），价格比较贵，一条视频耗费150点数，Ultra会员一个月12500点数。

大家如果对订阅Gemini感兴趣的话，可以看我之前的文章。

相关阅读：国内用户如何订阅Gemini。

还有一个点大家要注意，DeepMind强调所有Veo 3生成的视频，每一帧都会嵌入不可见的水印，大家懂得。。。。。。

二、Gemini 2.5 系列模型全面升级：更快更强

Google大概是听到大家吐槽Gemini 2.5 Pro上次的升级，除了代码能力，其他方面不升反降，这次又将Gemini 2.5 Pro升级了一遍。

在LMArena测试中，Gemini 2.5 Pro在语言、推理、代码等方面简直是“六边形战士”，全面霸榜

Gmini 2.5 Pro已经是天花板了，但Google还给它叠了一层buff，加了个超强模式——Deep Think。

其实就是用更多的推理时间来换更强的性能，不过这个功能目前还用不上，只在“可信任用户”中进行安全测试。

作为“小快灵”的Gemini 2.5 Flash这次也跟着 2.5 Pro一起升级了，在推理、代码、上下文理解等方面都有了显著提升。

在LMArena榜单上高居第二，综合表现仅次于旗舰的2.5 Pro，效果远超Deepseek R1、Claude 3.7以及OpenAI o4-mini等模型。

不过该模型目前还处于一个大饼阶段，Google表示预计会在6月上线。

最后总结一下，谷歌这次的发布堪称AI界的“春晚”，从AI软件到AI硬件探，几乎是包圆了。

其中，不仅有让视频创作迈入有声新纪元的Veo 3，有再次刷新性能天花板的Gemini 2.5系列，更有AI搜索模式、智能眼镜等一系列令人瞩目的AI产品。

谷歌已然亮剑，无疑将AI领域的竞争推向了新的高潮，就看CloseAI如何反击了！

谷歌Veo 3惊艳亮相：能唱Rap、能对话，还能演脱口秀！

一、Veo 3将首次将AI视频带进了有音世界

二、Gemini 2.5 系列模型全面升级：更快更强

如何使用野卡（wildcard）订阅Cursor

如何使用野卡支付cloudflare（保姆级教程）

Claude API最新订阅方法（附国内充值方法）

Vercel 如何在国内付款？如何使用野卡支付Vercel（保姆级教程）

OpenAI正式发布GPT 4.1，实力不如Gemini 2.5 Pro/Claude 3.7

Patreon国内如何注册订阅？小白必备

发表回复取消回复

一、Veo 3将首次将AI视频带进了有音世界

二、Gemini 2.5 系列模型全面升级：更快更强

类似文章

发表回复 取消回复

发表回复取消回复