谷歌Veo 3惊艳亮相:能唱Rap、能对话,还能演脱口秀!
太牛了,在刚刚结束的 Google I/O开发者大会,谷歌一口气发布了 AI 搜索模式、AI浏览器、Flow、Image4、Gemini 2.5 Pro 的增强推理模式、智能眼镜等多款AI产品。
不愧是一年一度的AI界的春晚。
但其中最吸引人当属 DeepMind 带来的 Veo 3 视频模型和Gemini 2.5 系列模型的全面升级。
一、Veo 3将首次将AI视频带进了有音世界
Veo 3最大的突破就是生成的视频能带声音,你可以让它生成的视频里不光有画面,还有背景音效、环境声、对话声,还能生成对话旁白。
如果大家要看视频,可以去我的公众号查看。
传送门:AI工具导航站。
话不多说,直接展示:
自Veo 3发布出来后,X上已经掀起了一股AI Rap的创作狂潮。

里面所有的视觉元素,从人物到场景,通通是Veo 3生成的,包括大家刚刚听到的那段Rap也是Veo 3生成的!
仔细看,你会发现口型跟歌词说是“神同步”一点都不过分。
当长颈鹿都开始Freestyle唱Rap的时候,你就知道Veo 3有强了,没有丝毫违和感。

除了能直接生成Rap视频之外,各种类型的歌唱视频也能轻松拿捏。

此外,还能生成脱口秀。

无论是表演者手臂自然的摆动、微妙的面部表情带动的笑声,还是现场观众此起彼伏的哄笑声,都处理得恰到好处。毫不夸张地说,这效果跟我平时在各大短视频平台刷到的真人脱口秀几乎一模一样!
相较于Veo 2,Veo 3除了增加声音外,其他能力还得到全面的升级,尤其是是在视频质量和复杂指令的理解上达到了新高度。
我们先来看一下它的指令遵从能力。一只腊肠犬穿过客厅,从敞开的正门跑出去,来到门廊上,它站在楼梯上,看着社区,一辆冰淇淋车经过。
非常严格的遵从了提示词的指令。
提示词:”The camera follows a dachshund running through a living room and out of an open front door and onto a porch. It stands on the top stair overlooking the neighborhood as an ice cream truck drives by.”

Veo 3还能更好的保持视频中角色、物体和整体视觉风格的一致性。
提示词:“a video with dialogue of two muffins while baking in an over, the first muffin says “I can’t believe this Veo 3 thing can do dialogue now!”, the second muffin says “AAAAH, a talking muffin!”
https://twitter.com/i/status/1924917797366247719

不同艺术风格的视频也能轻松拿捏。
提示词: “Demon slayer’s characters in real life 3d style, clear visuals, hairs moving due to wind, in a serene but serious theme, looking at camera POV or side views as per cinematography”
https://twitter.com/i/status/1925056085230055427

即使是长镜头,多物体互动的场景处理的也非常好,不过也发现音效和画面并不是百分百搭配,就像下面视频中间那段所展示的那样,打斗声和画面有些不匹配。
提示词:”a crowd with swords approaching an angry indian punjabi man who rips out a handpump in a 1947 village, swings it in rage against enemies. dust flies, slow-mo, zoom on eyes, raw power, people flying after getting hit, chaos all around. iconic scene.”
https://twitter.com/i/status/1925026884233863518

目前,Veo 3已经在Gemini上线了,遗憾的是仅针对推出的新套餐每月 250美元 AI Ultra 的用户开放(前三个月半价),价格比较贵,一条视频耗费150点数,Ultra会员一个月12500点数。

大家如果对订阅Gemini感兴趣的话,可以看我之前的文章。
相关阅读:国内用户如何订阅Gemini。
还有一个点大家要注意,DeepMind强调所有Veo 3生成的视频,每一帧都会嵌入不可见的水印,大家懂得。。。。。。
二、Gemini 2.5 系列模型全面升级:更快更强
Google大概是听到大家吐槽Gemini 2.5 Pro上次的升级,除了代码能力,其他方面不升反降,这次又将Gemini 2.5 Pro升级了一遍。
在LMArena测试中,Gemini 2.5 Pro在语言、推理、代码等方面简直是“六边形战士”,全面霸榜

Gmini 2.5 Pro已经是天花板了,但Google还给它叠了一层buff,加了个超强模式——Deep Think。
其实就是用更多的推理时间来换更强的性能,不过这个功能目前还用不上,只在“可信任用户”中进行安全测试。

作为“小快灵”的Gemini 2.5 Flash这次也跟着 2.5 Pro一起升级了,在推理、代码、上下文理解等方面都有了显著提升。
在LMArena榜单上高居第二,综合表现仅次于旗舰的2.5 Pro,效果远超Deepseek R1、Claude 3.7以及OpenAI o4-mini等模型。

不过该模型目前还处于一个大饼阶段,Google表示预计会在6月上线。
最后总结一下,谷歌这次的发布堪称AI界的“春晚”,从AI软件到AI硬件探,几乎是包圆了。
其中,不仅有让视频创作迈入有声新纪元的Veo 3,有再次刷新性能天花板的Gemini 2.5系列,更有AI搜索模式、智能眼镜等一系列令人瞩目的AI产品。
谷歌已然亮剑,无疑将AI领域的竞争推向了新的高潮,就看CloseAI如何反击了!