腾讯混元AI新玩具：让数字人唱歌说话，效果究竟如何？

腾讯最近为创意无限的玩家们带来了一项全新的技术玩具——HunyuanVideo-Avatar，这是一款由腾讯混元最新开源的语音驱动数字人模型。

只需上传一张图片和一段音频，HunyuanVideo-Avatar就能让图片中的人物说话、唱歌，生成一段音画同步、表情自然的视频。这项技术的推出，无疑为数字人技术的应用打开了新的大门。

尽管市面上已经存在多款类似功能的产品，但腾讯官方表示，HunyuanVideo-Avatar在主体一致性和音画同步方面已经达到了业内领先水平，甚至超越了现有的开源和闭源解决方案。在动态表现和肢体自然度方面，也与多个闭源方案不相上下。为了证明这一点，腾讯还放出了一些效果不错的演示视频。

从实际操作来看，HunyuanVideo-Avatar确实有其独到之处。它支持多风格、多物种与多人场景，无论是赛博朋克、2D动漫，还是中国水墨画风格，甚至是机器人、动物等形象，都能轻松应对。用户既可以上传音频文件，也可以直接输入文本，由系统提供的14种音色进行朗读，并支持语速调节。不过，目前系统只能处理和生成14秒以内的音频，超时会自动裁剪，且生成过程相对较慢，大约需要30分钟到1个小时。

在实际测试中，我们发现图片和音频的质量直接影响最终的视频效果。建议选择五官清晰的正脸照，语音也要尽量吐字清晰，这样生成出来的效果才会更好。从我们的测试来看，HunyuanVideo-Avatar在主体一致性和表情自然度方面确实表现出色，音画整体同步，但嘴型有时会有偏差，嘴部、牙齿等细节处理上还存在一些瑕疵。动作幅度偏小，除了头部运动和上半身的呼吸起伏外，很少有其他肢体动作，运动过程中的一些细节有时会出现畸变。

我们尝试上传了一张AI生成的马斯克婴儿照，搭配“开心小童”音色，朗读“祝大家端午节快乐！”。效果虽然有些滑稽，但也能看出技术的实力。我们还让宠物、卡通角色和虚拟形象说话和唱歌，效果各异，有的令人惊喜，有的则稍显不足。例如，用AI生成的一张金丝熊在埃菲尔铁塔下的自拍照，配上朗读文本：“人，鼠鼠我呀，已经到法国啦。”虽然嘴型匹配度较高，但在说话过程中，金丝熊标志性的两颗门牙出现了模糊和变形。而让“前顶流”Loopy唱现任顶流拉布布的“拉布布之歌”，效果则意外地不错，Loopy呆萌的神情和脸型得到了较好的保持，摇头晃脑的动作也自然流畅。

我们还尝试让乐高小人报道上海乐高乐园开园，让神探夏洛克唱中文Rap，以及让女孩抱吉他盘腿坐在草地上弹唱《夏天的风》等。这些尝试都展现出了HunyuanVideo-Avatar的多样性和趣味性。虽然在一些细节上还有待提升，但整体效果已经相当不错。

目前，HunyuanVideo-Avatar已经在多个腾讯系产品上线应用。在QQ音乐中，用户可以看到虚拟人物实时同步演唱动作；酷狗音乐的绘本功能中也融入了AI虚拟人讲故事的能力；全民K歌则支持用户上传个人照片，自动生成专属唱歌MV。这些应用不仅丰富了用户的娱乐体验，也为数字人技术的应用提供了更多的可能。

在底层技术架构方面，HunyuanVideo-Avatar基于腾讯混元视频大模型与MuseV技术融合开发，具备多模态理解能力。它能够自动识别图像中的人物环境信息及音频情感内容，生成高度匹配的视频片段。这一技术的推出，无疑为数字人技术的发展注入了新的活力。

值得注意的是，与HunyuanVideo-Avatar能力相似的同类产品已经在国内外相继上线了不少。例如海外的HeyGen、D-ID、Synthesia、Hedra以及meta的MoCha等；国内的阿里EMO和Animate Anyone、字节的OmniHuman-1、快手的LivePortrait等。这些产品的出现，不仅推动了数字人技术的快速发展，也为用户提供了更多的选择和乐趣。

文章采集于互联网

搜索

腾讯混元AI新玩具：让数字人唱歌说话，效果究竟如何？