AI音乐新突破：从文字到图片的智能音乐生成技术

作者：每日干货分享

发布时间：2025-11-12 09:18:34 浏览量：51 0

️欢迎关注预约“新榜和ta的朋友”系列直播

就在今年，AI绘画，也就是Text to Image，也就是实现文生图功能的这个领域，在其成功出圈之后，AI音乐方面，也随之有了新款的技术获得发展。（相关阅读：《》）。

你是否曾尝试过文字为音乐转化的这种形式（Text to Music）呢，举例比如说像是输入这样一些文字“赛博朋克街道（）”，接着去选择时长为15秒这个时长并且实施提交，最后等待3秒钟的时间过后，AI便生成了以下的这段音乐——。

听起来是不是有点行走在未来都市的感觉呢？

在这样的基础之上，再去结合那文生图的技术，图片生成音乐，也就是Image to Music，这样的情况也能够得以实现了。让我们去上传一张处于哭泣状态的甄嬛的图片，然后去聆听一番，看看AI能够作出怎样的音乐来——。

沉闷低下的前奏贴合了在当时情境下甄嬛所怀有的哀伤难过的心境，然而在仅仅20秒以後啊曲调骤然间变得欢畅轻快起来，难道是人工智能猜到了后续紧接着发生的钮祜禄·甄嬛回宫展开报仇雪恨的故事吗（并非如此）。

于非专业之人而言，如此给AI输入关键词或者提供参考图，仿佛就能够轻快地作出各类风格的音乐了。那般内容创作者借由AI生成音乐能做些什么呢？当成视频配乐是否行得通呢？我们怀着好奇体验了一回。

一句话，让AI生成个性化音乐

走进Face这个AI社区的“Text-to-Music”项目页面，于其中的框内输入文字，先尝试输入“旅行，自然，钢琴，美好”，默认时间为30秒，勾选循环形式，而后点击提交。

很快我们得到了这段颇有民族感的音乐，表达的情绪偏柔和。

换一种更为复杂些的情节叙述方式，输入这样一段内容，“雨天的时候，有一只小猫在草丛当中奋力地奔跑着，后面跟着一只狗正追着它，那种紧张的氛围弥漫开来，同时还伴有流行音乐”，其中不勾选循环选项，并且时长设定为30 秒。

这一回所耗费的时间略微长了些许，然而最终的结果着实颇为令人惊艳，紧凑样式的节拍一瞬间便将画面感给带入进来了。

对AI增添些难度，制作一首连甲方都都渴望得到的具有“高大上”特质的商业音乐，输入“上流人士站立于舞台之上进行演讲，好莱坞风格的带有史诗感的，有着大气磅礴节拍的，用于广告的音乐”，不进行勾选循环操作，将时间长度调整为刚刚好1分钟。

那结果呀，虽说呢不大契合想象中颁奖仪式那般隆重的音乐，可放置于时尚秀场却恰到好处无误呀，已然能够让人联想到相机咔嚓咔嚓作响这等情景了。

你可能会好奇以上这些AI音乐在技术上是怎么实现的？

实际上，这里所调用的是那个接口，那是一个人工智能音乐生成平台，它会把音乐家跟AI进行搭配，依据庞大的曲目数据库一同去创作音乐。和AI绘画不一样的地方在于，这里的所有音乐都是经由人创作出来的，并非由任何神经网络合成而成，也就是“真人谱曲+AI组曲”这种形式。

依据官网所做的介绍，训练库涵盖了源自4000多名音乐家的100多万个样本，平台买下了这些音乐demo的版权，接着借助AI展开识别以及归类，并打上标签，用户能够挑选不同的风格流派、情绪还有时长去生成一段音乐。

在进行文字描述输入之际，AI并非是从已有的曲库里面抓取与之对应的音乐，而是恰好在实时的状况下生成一组独特的声音组合，AI会针对文字去挑选最为接近的标签向量，同样的文字也存在着有可能生成不一样的音乐的情况，重复出现的概率是非常小的。

跟方才那首所谓“高大上”的音乐一样，由AI所匹配的，是“广告”，是“艺术家”，还包括“独立舞曲”这几个标签。

既然文字能够实现音乐的生成，AI绘画同样表明文字能够与图片构建起关联，那么是否能够直接借助图片来完成音乐的生成呢？

可以的，那我们开启供特定用途执行程序的“img-to-music”项目页面，在上传图像之际，凭借CLIP产生文辞叙述，随后再去重复刚才凭借上述文辞生就乐曲的步骤便行了。

试探尝试着随意从相册里翻找出诸多照片，将一碗打工人常常吃的沙县旗下的河粉去进行上传，到底AI会不会给出类似中华小当家那般极具画面性衬托美食的配乐呢？

答案为否，或许是由于AI未曾观看过这部经典动画，然而却听过歌曲《We Will Rock You》，其前面18秒是相近的拍手声，后面10秒增添了一种悠扬的乐声，总之与美食没什么关联。

换一只可爱的小猫咪看看，AI会不会更容易理解？

确实是更加贴近了，尽管并非如想象里《恋爱循环》那般甜蜜，然而却有着一种灵动俏皮的感觉。

除去平常所拍摄的生活方面的照片之外，我们能够尝试着去上传由AI生成的图片，让AI自行进行绘画，让AI自行去演奏乐曲。

举例来说，有日本网友，在最近的时候，借助某种生成方式，造出了一张明日香观看月全食的图片，而后我们将其转化为音乐，从中听出了一种辽阔的、神秘的意境，结果意外地，跟那张图片比较契合了。

然而我们借助文心一格生成的，是一幅展现古典园林风貌的内容，可这个AI呢，却为之配上了带有动感特质的现代电子音乐，或许是其曲库里面匮乏那种具有中国风格的音乐吧。

顺着AI自动生成绘画跟音乐的门道，博主 “大谷”编写了一个在线的能玩的小工具，键入文字就行，AI帮着解决剩余的出图以及配乐环节同时拼合成视频，“文字转图象转音乐转视频”一整条流程完成了。

AI给视频配乐，可行吗？

并非是在今年才开始兴起的那种，AI音乐，是在2016年的时候就已经出现了AI作曲的情况，曾经有一个名为AIVA的，它深度学习了1.5万首交响音乐，是最早获得国际认证了的虚拟作曲家中的一员，其创作的作品被广泛应用于网络视频用作配乐的自动生成。

此外，人工智能音乐创作工具还包括：

Amper Music：

Music：

：

Sony Flow ：

：

网易天音：

……

大多数平台，只要用户挑选一些提前设定好的场景、情绪以及类型，便能迅速生成音乐，倘若身为专业创作者，对于不满意之处，自身能够进一步予以调整与修改。

对于音乐人来说，AI已是辅助创作的一大利器。

曾在B站分享过几个AI工具的索尼音乐制作人，这些工具能用于音色转变，还能做人声分离、轨道分离以及母带制作等创作流程。

AI技术得到进步，音乐创作方面参与的门槛变低，那些不懂得乐理知识的人，多了作出自身想得到的音乐这样的机会，然后被应用于视频配乐场景里面，还有播客背景音乐等场景之中。

进一步来讲，至关重要的关键之处在于，有着个性化、定制化特性的音乐是由AI予以提供的，这能够为创作者把用于筛选音乐的时期予以节省，进而促使内容生产的效率得以提升。

主创陈一川，这位短剧类博主“给我一个镜头V”的创作者，告知新榜编辑部，说平常为了配上有感觉的音乐，单单寻觅音乐就耗费了一整天，无版权音乐极其稀少，不少音乐未必是自己所期望的那种感觉，限制程度太大了。

找寻到适宜的音乐是其一，其二呢，创作者运用AI所生成的音乐能够在某种地步防止版权纠葛。

若出现音乐侵权情形，那视频收益便会全归音乐版权方所有，不过购买有版权的音乐价格可不低，于某网站买一首用于“自媒体/短视频/vlog/直播/录播”场景下能获得永久授权的音乐，价格接近3000元。

与之相较，创作者能够免费去使用 AI 音乐，或者付出较低的成本来购买，用以商业项目。

凭生成的免版权音乐，用户只要标注出处，就能于视频、帖子、播客等个人内容里免费运用。要是用于商业用途就得付费，费用为每月39美元，最多可下载500首曲目。另外存在更实惠的平台，月付费价格仅有4.99美元。

存在这样一种应用场景，那就是给视频配乐，对于这种场景，我觉得AI是能够将其完全涵盖的。博主“小狮日记”曾开展过与AI音乐相关的项目，他持有这样的观点，针对未来AI音乐的发展，会朝着更加完备的方向演进。当下所存在的问题或许在于，技术层面尚有所欠缺，又或者可以说，产品化的能力尚未达到相应水准，正是基于此的缘故，引致没有成熟的AI音乐产品得以问世，并且瑕疵数量较多。

单从专门的领域角度去考量，身为音乐人的这个“只写小调的A - 39”在与之相关的视频的情形之下表明由人工智能所塑造生成的音乐其品质处于平常的水准，还这般讲道“仅仅学习期限不够数月的初涉者运用上预先设置好的内容以及进行了音频采样之后能够创作出相比这个还要略胜一筹的片段” 。

也许并非专业人士难以听出诸多门道，不过我们在上体验时也察觉到，啊，这个AI音乐的准确度并不好，特别是图片生成音乐其产生的结果也许会呈现出很大的差异，这其中是和图片提取文字信息的局限性多少有点关联的，只是文字和音频眼下很难实现一一的对应。

定上传起一张蓝天白云大草原这般的经典壁纸情形下，原来预想会催生自然且平和的那音乐样式，然则最终却转变为出现了一种带着些几分恐怖氛围情形笼罩之中的那种阴沉如坠暗夜般的敲击鼓点节奏韵律式样。

看到梵高的《星月夜》，AI却生成了奇怪的呻吟声……

鉴于一篇微信的文章，最多仅能够添加10个音频，所以大家能够自行去尝试体验，知晓其中情况。

制约束创作者去选择AI音乐的一个缘由，有可能是随机性过分强，并且音乐生成的质量欠缺稳定。

然而，将目光投向未来，AIGC那如汹涌波涛般的浪潮气势凌厉十分，在其之前已有AI绘画出现，而在此之后，说不定“人人都能够去玩AI音乐”。

作者 | 卷毛