首页 每日新资讯 Stable Audio是AI音频生成工具,如何生成原创音频

Stable Audio是AI音频生成工具,如何生成原创音频

作者:每日新资讯
发布时间: 浏览量:4 0

Stable Audio信息介绍

Stable Audio是Stability AI公司推出的AI音频生成工具,和它家的Stable Diffusion(图像生成工具)是“同门师兄弟”,2023年正式对外发布时,就像音频界突然来了个会读心术的魔术师,能把文字描述直接变成听得见的声音,我第一次听说它,是朋友发了段“夏夜蝉鸣+吉他弹唱”的音频,说这是用文字“画”出来的,当时我还以为他在开玩笑——文字怎么能变成声音?结果点开一听,蝉鸣的颤音和吉他的扫弦都透着股真实感,这才知道AI已经偷偷进化到能“捏声音”了。

它的核心原理和图像生成类似,都是基于扩散模型,只不过把像素点换成了声波,简单说,就是让AI在海量音频数据里“学习”各种声音的规律,然后根据你给的文字提示,像搭积木一样把声波重新组合,最后变成一段完整的音频,现在官网支持网页端直接使用,不用下载软件,打开浏览器就能玩,对咱们这种懒得装程序的“伸手党”简直是福音。

Stable Audio核心功能有哪些

文本驱动生成是它最拿得出手的本事,你输入“清晨森林里的鸟鸣,带露水的树叶摩擦声,远处溪流声”,它就能给你“煮”出一锅带着草木香的自然白噪音,我试过写“80年代复古电子乐,带鼓点和合成器,节奏中等”,出来的曲子居然有股老式街机游戏的味道,连鼓点的间隔都踩得挺准。

Stable Audio是AI音频生成工具,如何生成原创音频

时长自由调整也很实用,不像有些工具只能生成固定10秒的音频,它能从10秒一直拉到5分钟,上次帮表妹做课件,需要一段3分钟的“海洋波浪+钢琴”背景音,直接在设置里填3分钟,生成完刚好够她讲完一整章内容,不用来回循环凑时长。

风格标签精准匹配让选择困难症患者省心不少,界面上列着“古典”“电子”“自然音效”“ ambient”等几十种风格,点一下就能给AI定调,我朋友是播客主播,他用“lo-fi hip hop,慵懒节奏,带黑胶唱片杂音”生成的背景音乐,听众都说“像躺在老沙发上听故事”,比他之前在音效网扒的还受欢迎。

提示词像给音频画素描,你描述得越细致,它勾勒出的声音就越鲜活,比如加一句“钢琴音色偏暖,像老式木钢琴”,生成的曲子里钢琴声就真的带着点木头的厚重感,而不是冷冰冰的电子音。

Stable Audio的产品定价

目前官方暂无明确的定价,我隔三差五就去官网瞅一眼,现在还停留在“免费试用”阶段,免费版每天能生成5段音频,每段最长1分钟,生成的音频会带个小小的“Stable Audio”水印,像给作品盖了个“实习章”,如果你只是偶尔做个短视频配乐,或者给PPT加段背景音,免费版完全够用。

听说团队正在测试付费订阅模式,可能会分“创作者版”和“专业版”,创作者版大概解锁生成次数和时长限制,去掉水印;专业版可能会开放API接口,让企业用户能把它嵌到自己的软件里,具体价格还没公布,不过按Stability AI一贯的风格,应该会比同类工具亲民些,毕竟它家的Stable Diffusion免费版就挺良心。

这些场景用Stable Audio超合适

视频创作者简直能拿它当“随身配乐师”,我邻居拍美食探店视频,以前总为找BGM头疼——版权音乐贵,免费的又烂大街,现在他直接用Stable Audio生成“轻快的Ukulele+餐具碰撞声”,视频里面条下锅的滋啦声和背景音乐混在一起,评论区全是“听饿了”。

游戏开发者用它给角色脚步声“捏脸”,每个怪物都有专属“声纹身份证”,我表弟在做独立游戏,给史莱姆设计脚步声时,输入“黏糊糊的液体摩擦声,带气泡破裂音”,生成的声音配上史莱姆蠕动的动画,测试玩家说“一听就知道这怪滑不溜秋的,得小心”。

教师备课也能偷个懒,我妈是小学语文老师,她用“温柔的女声朗读背景音,钢琴伴奏,节奏缓慢”生成音频,给学生录课文朗读时,学生说“比老师直接读更像睡前故事,记得更牢”,连校长都问她从哪找的这么省心的工具。

播客主播的“氛围组”非它莫属,我关注的一个情感播客,每期开头都用“rainy night,壁炉燃烧声,低音量大提琴”生成背景音,主播的声音在雨声里一出来,瞬间就把人拉进“深夜小酒馆聊天”的感觉,订阅量三个月涨了快一倍。

Stable Audio是AI音频生成工具,如何生成原创音频

Stable Audio使用注意事项

提示词别当“甩手掌柜”,刚开始用的时候,我写“欢快的音乐”,结果AI给了段像游乐园过山车BGM那么吵的曲子,差点把我耳膜掀翻,后来学乖了,加上“钢琴为主,节奏中等,适合生日视频”,生成的音乐才变得像“奶油蛋糕上的蜡烛光”,温柔又热闹。

商用得留个心眼,免费版生成的音频,个人发抖音、B站没问题,但要是给甲方做广告片配乐,就得等付费版出来或者联系官方买版权,上次有个UP主用免费版音频做推广视频,被版权方找上门,删视频赔礼才完事,血的教训啊。

网络不好别硬刚,这工具生成音频挺吃网速的,有次我在地铁上用4G试,等了5分钟还卡在“生成中”,进度条像蜗牛爬,后来连了Wi-Fi,30秒就搞定,所以建议找个信号稳的地方“下单”,别跟网速较劲。

生成效果别指望“一次成型”,有时候AI会犯迷糊,比如我要“低沉的贝斯”,它给了段像蚊子叫的高音,这时候别慌,把提示词改具体点,贝斯音色厚重,频率40-100Hz,不带失真效果”,多试两次,总能调出你想要的“声音口味”。

和同类工具比Stable Audio有啥不一样

跟Udio比,Stable Audio像个“全能型选手”,Udio生成流行歌曲确实厉害,但要做自然音效或者古典乐,就有点“偏科”,Stable Audio不管你要“咖啡厅背景音”还是“巴洛克时期小提琴曲”,都能接得住,上次我同时生成了“婴儿笑声”和“重金属鼓点”,效果居然都没拉胯。

对比Suno,它更像“纯音乐/音效专家”,Suno能自动生成带歌词的歌曲,适合做MV配乐,但如果你只需要一段没有 vocals 的纯音乐,Stable Audio的音质更干净,我朋友用Suno生成的纯音乐总带点若有若无的人声残留,换成Stable Audio后,背景音里连一丝杂音都没有。

和ElevenLabs比,它专注“非语音音频”,ElevenLabs的语音生成是天花板,但要做脚步声、风声这种音效,就不如Stable Audio专业,我试过用ElevenLabs生成“海浪声”,出来的像有人在摇矿泉水瓶,Stable Audio生成的海浪声能听出浪花拍打礁石的层次感,连泡沫破裂的细节都有。

最大的优势是“Stability AI全家桶”加持,用过Stable Diffusion的都知道,它家的模型迭代快,修复bug也积极,Stable Audio刚出的时候生成3分钟以上音频会卡顿,没过两周就更新了,现在生成5分钟音频也稳如老狗,这种“售后速度”在AI工具里挺少见的。

生成原创音频教程

我上周帮室友的毕业短片配“秋日落叶+钢琴”的背景音乐,整个过程不到10分钟,新手也能跟着走,第一步,打开Stable Audio官网,用邮箱注册个账号,不用填信用卡信息,直接就能进操作台,比有些工具非要手机号验证友好太多。

Stable Audio是AI音频生成工具,如何生成原创音频

第二步,在“提示词输入框”里写需求,室友想要“缓慢的钢琴独奏,带点忧伤,背景有轻微的落叶摩擦声,时长2分钟”,我特意加了“钢琴音色像Yamaha C7”,因为他短片里的主角弹的就是这款琴,细节拉满才能让音频和画面更贴。

第三步,选风格和时长,在风格标签里点“Classical”,再在时长设置框填“2:00”,界面会自动显示“预计生成时间30秒”,心里有个底,这里有个小技巧,时长别贪多,先生成30秒小样听听效果,满意了再调长,省得浪费次数。

第四步,点击“Generate”按钮等结果,进度条走了大概25秒,音频就出来了,点播放键一听,钢琴声像秋日午后的阳光,温柔里带着点凉意,落叶声沙沙的,刚好盖过短片里轻微的风声,室友看完直接拍大腿:“这比我找的罐头音乐还懂我片子的情绪!”

第五步,下载或编辑,觉得满意就点“Download”,音频会以MP3格式保存到本地;如果想微调,点“Edit”可以调整音量、裁剪片段,甚至换个风格重生成,室友把音频导进Pr里,和画面一合成,连导师都夸“背景音乐选得有品味”,其实全靠Stable Audio“神助攻”。

常见问题解答

Stable Audio免费吗?

目前有免费试用版,每天能生成5段音频,每段最长1分钟,生成的音频会带水印,付费版还在测试中,具体价格没公布,想商用的话可以关注官网后续消息,别着急薅免费羊毛商用,小心版权问题哦。

能生成多长的音频?

支持生成10秒到5分钟的音频,免费版最长1分钟,付费版可能会开放更长时长,上次我生成5分钟的“篝火晚会背景音”,从开场的吉他弹唱到中间的欢笑声,再到结尾的渐弱,节奏还挺连贯,不像硬凑的。

支持中文提示词吗?

目前主要支持英文提示词,直接输中文生成效果会打折扣,比如我试过输“欢快的小提琴”,出来的像锯木头,后来用翻译软件把中文提示词转成英文,再加几个细节词,生成的音频就正常多了,建议英文不好的朋友先翻译再输入。

生成的音频有版权吗?

个人非商用随便用,发抖音、B站、朋友圈都没问题,要是商用,比如给甲方做广告、做付费课程配乐,就得等付费版出来买版权,或者联系官方授权,之前有博主用免费版音频做付费播客,被投诉侵权,删内容还赔钱,得不偿失。

需要专业设备吗?

不用,普通笔记本电脑或者手机浏览器就能用,连耳机都不是必须的,不过建议用Chrome或Edge浏览器,兼容性更好,生成速度也快,我用五年前的旧电脑试过,生成1分钟音频也就40秒,比我想象中省硬件,学生党也能轻松上手。

欢迎 发表评论:

请填写验证码

评论列表

暂无评论,快抢沙发吧~