庆祝六一！腾讯AI艾灵与王俊凯领唱中国新儿歌_南方plus

今年六一儿童节，腾讯联合北京荷风艺术基金会发起“腾讯荷风艺术行动”，给孩子们送上两份礼物，为音乐美学中国素质教育的发展做出贡献。

其中一份就是由首席儿歌守护唱作人，青年演员歌手王俊凯与雄安孩子，以及腾讯AI数字人艾灵共同演绎的新歌《点亮》。这份礼物被以特别的方式呈现：在H5互动里，每个人都可以轻松召唤AI艾灵，创作你的专属MV——给几个关键词，艾灵就能为你创作专属歌词，并和王俊凯一起唱给你听。

AI 歌声合成的模型架构

全能型虚拟歌手AI艾灵登场

在互动里，唱作俱佳的AI数字人艾灵已搭乘互联网来到每个人面前，她不仅能作词，还能用近乎真人的声线演唱，加上用多模态智能技术搭建的数字躯体，绝对是令你难忘的全能型虚拟歌手。

怎么样？是不是高音甜、中音准、低音稳？AI艾灵源自腾讯 AI Lab 的实验探索性技术项目——AI 数字人（Digital Human）。项目的目标是把计算机视觉、语音/歌声合成和转换、图像/视频合成和迁移、自然语言理解等多模态 AI 能力与技术深度融合，生成清晰、流畅、高质的可交互内容，打造高拟人度的智能数字人，推进 AI 在虚拟偶像、虚拟助理、在线教育、数字内容生成等领域的应用。

AI 艾灵使用了基于数据依赖型的深度学习方法，现在还只能生成基础歌词和合成歌曲，无法实现完全自由的创作。但腾讯 AI Lab 将继续技术攻坚，探索自动化音乐合成及基于全新乐曲自动生成歌词模板再自动填词的新方法。此外，基于智能数字人的交互式技术在音乐教育方面的应用也是重要的探索方向。

AI技术让歌声更逼真

AI艾灵的歌声来源于 AI 技术，首先，研究者以音素为基本发音单元将任意歌曲描述为一连串音素的序列；然后通过分析歌谱，从文字、旋律、节奏等多个维度分别提取和预测词曲中每个音素的发音、时长、停顿、音高、风格和演唱技巧等特征；最后使用由真人（中国网络声优龟娘）演唱的歌声训练得到的深度神经网络声学模型和声码器模型，合成出与真人声线高度相似歌声音频。

不同于“初音未来”等虚拟歌姬的“机器合成+人工调教”模式，使用了基于DurIAN声学模型的AI艾灵无须经过人工调教就能得到非常自然和拟真的歌声。

展望未来，这项技术可以用于降低歌曲制作过程中录音环节的成本，更可以用于打造虚拟偶像，成为广大专业和社区音乐人创作不可多得的制作工具。除了 AI 歌声合成技术之外，腾讯 AI Lab 还在研究数据量极小和录音质量差条件下的歌声合成。

除了听歌外，AI艾灵还能写歌。AI艾灵的歌词生成方案基于腾讯 AI Lab 最新研发的歌词创作模型SongNet。该深度学习模型最大的特点就是可以给定任意格式和模板来生成相契合的文本。

在“王俊凯AI唱我的歌”H5 中，用户随机输入一个或者多个关键词，AI 就可以根据这份灵感，创作出优美、恰当的歌词，比如“田野花开多芬芳，仰望满天星光”、“青草地里看花开，小花倾听着爱”。

生成的歌词然后会被提交给歌声合成模块，再融合对应的背景音乐，一首悦耳动听的歌曲就新鲜出炉了。

SongNet模型是AI Lab在AI创作方向的一次尝试，现阶段模型也存在一些局限性。歌曲作为一种艺术形式，蕴含了人类细腻的情感和深厚的智慧，在这方面目前版本的模型和人类还有很大的距离，无法感知人类丰富多变的情感。而且此次还同时设置了上下文约束和蕴含特定关键词的限制，所以会在一定程度上降低模型生成歌词的逻辑性和连贯性。未来，我们一方面会持续增强模型对歌曲主题和情感的感知度，另一方面也会设计模型策略来进一步提升生成的歌词的逻辑性、连贯性以及优美度。

【记者】王春艳