机器之心报道
沉睡了两千多年的兵马俑,苏醒了?
一句秦腔开场,将我们带到了黄土高原。如果不是亲眼所见,很多观众可能难以想象,有生之年还能看到兵马俑和宝石Gem同台对唱《从军行》。
「青海长云暗雪山,孤城遥望玉门关。」古调虽存音乐变,声音依旧动人情:
在央视《2024中国・AI盛典》中,同样基于EMO技术,北宋文学家苏轼被「复活」,与李玉刚同台合唱了一曲《水调歌头》。「AI苏轼」动作古朴自然,仿佛穿越时空而来:
在EMO等AI领域前沿技术的激发下,首个以人工智能为核心的国家级科技盛宴《2024中国・AI盛典》盛大开幕,以「媒体+科技+艺术」的融合形式将最前沿的国产AI技术力量传递给节目前的每一位观众:
登陆通义APP之后,借助玩家各种脑洞大开的试玩,EMO火热程度至今不减。还没有尝试的小伙伴可以前去下载这款应用,进入「频道」选择「全民舞台」,就可以丝滑体验了。
实际上,早在今年2月,通义实验室就公开了EMO(EmotePortraitAlive)相关论文。这篇论文上线之初就好评如潮,更是有人称赞:「EMO是一项革命性的研究。」
论文地址:
项目主页:
如此出圈,EMO凭什么?
拿兵马俑和宝石Gem同框对唱《从军行》来说,歌声中所要传达的情绪(如激扬)在其面部得到了很好的展现,不会给人违和感:
学界有一种观点是,对于一个数据集最好的无损压缩,就是对于数据集之外的数据最佳泛化。能够实现高效压缩的算法往往能够揭示数据的深层规律,这也是智能的一个重要表现。
因此,团队在训练过程中设计了高保真数据编码算法,保证了在压缩或处理数据的过程中,尽可能保持原始信息的丰富细节和动态范围。具体到EMO的训练上,只有音频信息完整,人物情绪才能很好的展现。
通义实验室如何跻身全球第一梯队?
我们知道,扩散模型中的U-Net能模拟信号从噪声中逐渐恢复的过程,理论上能够逼近任意复杂的数据分布,在图像质量方面优于生成对抗网络(GAN)和变分自编码器(VAE),生成具有更自然纹理和更准确细节的现实世界图像。但DiT论文表明,U-Net归纳偏置对扩散模型的性能并非不可或缺,可以很容易地用标准设计(如Transformer)取代,这就是该论文提出的基于Transformer架构的新型扩散模型DiT。
EMO并不是建立在类似DiT架构的基础上,也就是没有用Transformer去替代传统U-Net,同样能够很好地模拟真实物理世界,这给整个研究领域带来了启发。
从技术到现实世界
过去两年,语言模型展现了强大的对话、理解、总结、推理等文本方面的能力,图像生成模型展现了强大的自然生成、娱乐和艺术能力,两大赛道都诞生了很多爆款产品。这些模型的成功至少告诉我们一点:想在这个时代取得影响力的技术团队,需要学会「基础模型」和「超级应用」两条腿走路。
「人均专业创作者」的时代,或许不远了。