全球第一！国产AI音频MiniMax Audio直接把OpenAI、ElevenLabs干懵了

内容隐藏目录

一觉醒来就被MiniMax Audio刷屏了！ “AI音频全球第一”、“拳打OpenAI、脚踢ElevenLabs”、“全球最强的AI声音模型”等代名词一下子直接给我干懵了。

这还是我熟悉猥琐发育的MiniMax吗？它真的有那么强吗？带着这个疑问，我们来扒一扒！老规矩，先来看榜单成绩。

一、MiniMax Audio榜单成绩

可以看到，Minimax最新的语音模型Speech-02-HD，在Artificial Analysis 排名第一，击败了 OpenAI、ElevenLabs 这两位语音模型领域的巨头。

而且这份榜单中可不单单只有MiniMax的Speech-02-HD这一款模型，而是足足有三款，另外两款分别是Speech-02-Turbo和T2A-01-HD。

Artificial Analysis Speech Arena这个榜单可不是什么野鸡榜单，而是圈内公认的“最难混”的AI语音竞技场。

全球主流AI语音工具都在这儿PK，然后分数是由用户盲测、机器评测、语音相似度等多维度综合出来的。

可以说这分数是绝对的真材实料！

不过是骡子还是马得出来溜溜才知道，这次就不实测了，因为国内外的大神开始“玩坏”Speech-02了！

因为这里放不了音频，大家可以去公众号阅读，公众号同名。

AI圈的顶流量子位用MiniMax Audio的播音腔阅读一篇文章。

这效果非常顶，无论是预期还是节奏的把握，甚至连中英混杂都搞定了。

还有博主@优设AIGC，克隆了余华的声音，并让其阅读了他的代表作《活着》，给大家欣赏欣赏。

只需几秒语音参考，就能克隆出余华的声音来，效果更是可以以假乱，不论是情感、语气还是停顿都拿捏得死死的。

还有刘慈欣读三体。

除了效果好以外，性价比还高。

ElevenLabs基础套餐就得$11/月，声音克隆还得另外掏钱，而MiniMax Audio则是送我们1万点数体验，基础套餐则是$5/月！

定价仅为ElevenLabs的一半。

AI音频这两年其实卷得飞起，前有OpenAI的TTS 1-HD模型持续霸榜，后有ElevenLabs虎视眈眈，凭什么MiniMax就能突出重围？

其实原因也很简单——

本土语音极致优化：ElevenLabs在欧美口碑确实不错，但一到中文、粤语，却有一股国外腔，而MiniMax Audio恰恰在这点上做到了极致！中文发音更加的地道自然。
声音还原度高：不需要你提供参考语音的文本内容，Speech-02-HD模型“听一下”就模仿出音色、语调、节奏，还原度不说是100%，也几乎是天衣无缝了。

关键指标SOTA， 在字错率（WER，越低越好）和说话人相似度（SIM，越高越好）这些核心指标上，Speech-02几乎是SOTA级别的存在。尤其在SIM上，上一代可能还稍逊于ElevenLabs，这一代直接实现了全面超越。

Speech-02这个模型目前已经可以在MiniMax官网用了，不过只有海外版有声音克隆，可能是由于MiniMax的出海战略的调整。

感兴趣的小伙伴可以去体验一下。

曾几何时，我们提到好用的AI语音模型，首先想到的OpenAI和ElevenLabs。

但今天，MiniMax Audio用实力证明，在AI音频这个细分战场，我们不仅做到了中文世界最强，更是在全球范围内实现了整体领先！

国产AI，未来可期！