央视点赞国产AI复活召唤术,兵马俑竟与宝石老舅对唱Rap?

sw

机器之心报道

沉睡了两千多年的兵马俑,苏醒了?

一句秦腔开场,将我们带到了黄土高原。如果不是亲眼所见,很多观众可能难以想象,有生之年还能看到兵马俑和宝石Gem同台对唱《从军行》。

「青海长云暗雪山,孤城遥望玉门关。」古调虽存音乐变,声音依旧动人情:

在央视《2024中国・AI盛典》中,同样基于EMO技术,北宋文学家苏轼被「复活」,与李玉刚同台合唱了一曲《水调歌头》。「AI苏轼」动作古朴自然,仿佛穿越时空而来:

在EMO等AI领域前沿技术的激发下,首个以人工智能为核心的国家级科技盛宴《2024中国・AI盛典》盛大开幕,以「媒体+科技+艺术」的融合形式将最前沿的国产AI技术力量传递给节目前的每一位观众:

登陆通义APP之后,借助玩家各种脑洞大开的试玩,EMO火热程度至今不减。还没有尝试的小伙伴可以前去下载这款应用,进入「频道」选择「全民舞台」,就可以丝滑体验了。

实际上,早在今年2月,通义实验室就公开了EMO(EmotePortraitAlive)相关论文。这篇论文上线之初就好评如潮,更是有人称赞:「EMO是一项革命性的研究。」

论文地址:

项目主页:

如此出圈,EMO凭什么?

拿兵马俑和宝石Gem同框对唱《从军行》来说,歌声中所要传达的情绪(如激扬)在其面部得到了很好的展现,不会给人违和感:

学界有一种观点是,对于一个数据集最好的无损压缩,就是对于数据集之外的数据最佳泛化。能够实现高效压缩的算法往往能够揭示数据的深层规律,这也是智能的一个重要表现。

因此,团队在训练过程中设计了高保真数据编码算法,保证了在压缩或处理数据的过程中,尽可能保持原始信息的丰富细节和动态范围。具体到EMO的训练上,只有音频信息完整,人物情绪才能很好的展现。

通义实验室如何跻身全球第一梯队?

我们知道,扩散模型中的U-Net能模拟信号从噪声中逐渐恢复的过程,理论上能够逼近任意复杂的数据分布,在图像质量方面优于生成对抗网络(GAN)和变分自编码器(VAE),生成具有更自然纹理和更准确细节的现实世界图像。但DiT论文表明,U-Net归纳偏置对扩散模型的性能并非不可或缺,可以很容易地用标准设计(如Transformer)取代,这就是该论文提出的基于Transformer架构的新型扩散模型DiT。

EMO并不是建立在类似DiT架构的基础上,也就是没有用Transformer去替代传统U-Net,同样能够很好地模拟真实物理世界,这给整个研究领域带来了启发。


从技术到现实世界

过去两年,语言模型展现了强大的对话、理解、总结、推理等文本方面的能力,图像生成模型展现了强大的自然生成、娱乐和艺术能力,两大赛道都诞生了很多爆款产品。这些模型的成功至少告诉我们一点:想在这个时代取得影响力的技术团队,需要学会「基础模型」和「超级应用」两条腿走路。

「人均专业创作者」的时代,或许不远了。

文章版权声明:除非注明,否则均为虚境探索者原创文章,转载或复制请以超链接形式并注明出处。

上一个 回合制RPG游戏推荐 不容错过的经典大作

下一个 两只企鹅在游戏里秀恩爱的下场是什么?