央视点赞国产AI复活召唤术，兵马俑竟与宝石老舅对唱Rap？

机器之心报道

沉睡了两千多年的兵马俑，苏醒了？

一句秦腔开场，将我们带到了黄土高原。如果不是亲眼所见，很多观众可能难以想象，有生之年还能看到兵马俑和宝石Gem同台对唱《从军行》。

「青海长云暗雪山，孤城遥望玉门关。」古调虽存音乐变，声音依旧动人情：

在央视《2024中国・AI盛典》中，同样基于EMO技术，北宋文学家苏轼被「复活」，与李玉刚同台合唱了一曲《水调歌头》。「AI苏轼」动作古朴自然，仿佛穿越时空而来：

在EMO等AI领域前沿技术的激发下，首个以人工智能为核心的国家级科技盛宴《2024中国・AI盛典》盛大开幕，以「媒体+科技+艺术」的融合形式将最前沿的国产AI技术力量传递给节目前的每一位观众：

登陆通义APP之后，借助玩家各种脑洞大开的试玩，EMO火热程度至今不减。还没有尝试的小伙伴可以前去下载这款应用，进入「频道」选择「全民舞台」，就可以丝滑体验了。

实际上，早在今年2月，通义实验室就公开了EMO（EmotePortraitAlive）相关论文。这篇论文上线之初就好评如潮，更是有人称赞：「EMO是一项革命性的研究。」

论文地址：

项目主页：

如此出圈，EMO凭什么？

拿兵马俑和宝石Gem同框对唱《从军行》来说，歌声中所要传达的情绪（如激扬）在其面部得到了很好的展现，不会给人违和感：

学界有一种观点是，对于一个数据集最好的无损压缩，就是对于数据集之外的数据最佳泛化。能够实现高效压缩的算法往往能够揭示数据的深层规律，这也是智能的一个重要表现。

因此，团队在训练过程中设计了高保真数据编码算法，保证了在压缩或处理数据的过程中，尽可能保持原始信息的丰富细节和动态范围。具体到EMO的训练上，只有音频信息完整，人物情绪才能很好的展现。

通义实验室如何跻身全球第一梯队？

我们知道，扩散模型中的U-Net能模拟信号从噪声中逐渐恢复的过程，理论上能够逼近任意复杂的数据分布，在图像质量方面优于生成对抗网络（GAN）和变分自编码器（VAE），生成具有更自然纹理和更准确细节的现实世界图像。但DiT论文表明，U-Net归纳偏置对扩散模型的性能并非不可或缺，可以很容易地用标准设计（如Transformer）取代，这就是该论文提出的基于Transformer架构的新型扩散模型DiT。

EMO并不是建立在类似DiT架构的基础上，也就是没有用Transformer去替代传统U-Net，同样能够很好地模拟真实物理世界，这给整个研究领域带来了启发。

从技术到现实世界

过去两年，语言模型展现了强大的对话、理解、总结、推理等文本方面的能力，图像生成模型展现了强大的自然生成、娱乐和艺术能力，两大赛道都诞生了很多爆款产品。这些模型的成功至少告诉我们一点：想在这个时代取得影响力的技术团队，需要学会「基础模型」和「超级应用」两条腿走路。

「人均专业创作者」的时代，或许不远了。

上一个 回合制RPG游戏推荐不容错过的经典大作

下一个 两只企鹅在游戏里秀恩爱的下场是什么？

央视点赞国产AI复活召唤术，兵马俑竟与宝石老舅对唱Rap？

相关阅读

友情链接