腾讯混元AI新玩具:让数字人唱歌说话,效果究竟如何?

腾讯最近为创意无限的玩家们带来了一项全新的技术玩具——HunyuanVideo-Avatar,这是一款由腾讯混元最新开源的语音驱动数字人模型。

只需上传一张图片和一段音频,HunyuanVideo-Avatar就能让图片中的人物说话、唱歌,生成一段音画同步、表情自然的视频。这项技术的推出,无疑为数字人技术的应用打开了新的大门。

尽管市面上已经存在多款类似功能的产品,但腾讯官方表示,HunyuanVideo-Avatar在主体一致性和音画同步方面已经达到了业内领先水平,甚至超越了现有的开源和闭源解决方案。在动态表现和肢体自然度方面,也与多个闭源方案不相上下。为了证明这一点,腾讯还放出了一些效果不错的演示视频。

从实际操作来看,HunyuanVideo-Avatar确实有其独到之处。它支持多风格、多物种与多人场景,无论是赛博朋克、2D动漫,还是中国水墨画风格,甚至是机器人、动物等形象,都能轻松应对。用户既可以上传音频文件,也可以直接输入文本,由系统提供的14种音色进行朗读,并支持语速调节。不过,目前系统只能处理和生成14秒以内的音频,超时会自动裁剪,且生成过程相对较慢,大约需要30分钟到1个小时。

在实际测试中,我们发现图片和音频的质量直接影响最终的视频效果。建议选择五官清晰的正脸照,语音也要尽量吐字清晰,这样生成出来的效果才会更好。从我们的测试来看,HunyuanVideo-Avatar在主体一致性和表情自然度方面确实表现出色,音画整体同步,但嘴型有时会有偏差,嘴部、牙齿等细节处理上还存在一些瑕疵。动作幅度偏小,除了头部运动和上半身的呼吸起伏外,很少有其他肢体动作,运动过程中的一些细节有时会出现畸变。

我们尝试上传了一张AI生成的马斯克婴儿照,搭配“开心小童”音色,朗读“祝大家端午节快乐!”。效果虽然有些滑稽,但也能看出技术的实力。我们还让宠物、卡通角色和虚拟形象说话和唱歌,效果各异,有的令人惊喜,有的则稍显不足。例如,用AI生成的一张金丝熊在埃菲尔铁塔下的自拍照,配上朗读文本:“人,鼠鼠我呀,已经到法国啦。”虽然嘴型匹配度较高,但在说话过程中,金丝熊标志性的两颗门牙出现了模糊和变形。而让“前顶流”Loopy唱现任顶流拉布布的“拉布布之歌”,效果则意外地不错,Loopy呆萌的神情和脸型得到了较好的保持,摇头晃脑的动作也自然流畅。

我们还尝试让乐高小人报道上海乐高乐园开园,让神探夏洛克唱中文Rap,以及让女孩抱吉他盘腿坐在草地上弹唱《夏天的风》等。这些尝试都展现出了HunyuanVideo-Avatar的多样性和趣味性。虽然在一些细节上还有待提升,但整体效果已经相当不错。

目前,HunyuanVideo-Avatar已经在多个腾讯系产品上线应用。在QQ音乐中,用户可以看到虚拟人物实时同步演唱动作;酷狗音乐的绘本功能中也融入了AI虚拟人讲故事的能力;全民K歌则支持用户上传个人照片,自动生成专属唱歌MV。这些应用不仅丰富了用户的娱乐体验,也为数字人技术的应用提供了更多的可能。

在底层技术架构方面,HunyuanVideo-Avatar基于腾讯混元视频大模型与MuseV技术融合开发,具备多模态理解能力。它能够自动识别图像中的人物环境信息及音频情感内容,生成高度匹配的视频片段。这一技术的推出,无疑为数字人技术的发展注入了新的活力。

值得注意的是,与HunyuanVideo-Avatar能力相似的同类产品已经在国内外相继上线了不少。例如海外的HeyGen、D-ID、Synthesia、Hedra以及meta的MoCha等;国内的阿里EMO和Animate Anyone、字节的OmniHuman-1、快手的LivePortrait等。这些产品的出现,不仅推动了数字人技术的快速发展,也为用户提供了更多的选择和乐趣。

文章采集于互联网