首页 每日新资讯 Stable Diffusion 3.5 Medium是AI图像生成模型如何生成高质量图像

Stable Diffusion 3.5 Medium是AI图像生成模型如何生成高质量图像

作者:每日新资讯
发布时间: 浏览量:1 0

Stable Diffusion 3.5 Medium信息介绍

Stable Diffusion 3.5 Medium是Stability AI公司推出的一款AI图像生成模型,属于Stable Diffusion 3.5系列中的中等配置版本,它定位为兼顾性能与资源消耗的平衡款,既能生成细节丰富的图像,又不会像高端型号那样对硬件要求过于苛刻,我第一次接触它是在去年帮朋友做毕业设计插画时,当时朋友试了好几个工具都不满意,直到用了这个模型,出图效果直接让她惊呼“这才是我想要的感觉”。

这款模型基于扩散模型技术,通过学习海量图像数据来理解视觉元素之间的关系,它不像有些模型只擅长特定风格,而是能驾驭从写实到二次元、从油画到像素画的多种风格。**Stable Diffusion 3.5 Medium的一大特点是对提示词的理解更精准**,就算你用比较口语化的描述,它也能get到重点,这点比我之前用过的老版本强太多。

Stable Diffusion 3.5 Medium核心功能有哪些

要说核心功能,第一个必须提的就是**高质量图像生成**,它支持最高2048x2048分辨率的输出,放大后细节也不会糊,比如生成人物时,头发丝的走向、衣服的纹理都能看得清清楚楚,我上次生成一张“古风侠客在雪山练剑”的图,侠客的披风被风吹起的褶皱,甚至雪粒落在剑穗上的质感都表现得很到位。

第二个功能是**风格迁移**,你可以上传一张自己拍的照片,让模型把它变成不同艺术风格,比如我把我家猫的照片变成了梵高画风,橘猫的毛像燃烧的星空,眼睛像旋涡,发朋友圈后好多人问我是不是找画家画的。**风格迁移时还能保留原图的主体结构**,不会把猫变成别的动物,这点很靠谱。

还有**图像修复与扩展**功能,有时候生成的图局部不满意,比如背景太单调,你可以用修复笔刷圈出区域,输入“添加飘落的樱花”,它就能无缝融入新元素,扩展功能更厉害,把一张正方形的图扩展成宽幅,左右两边会自动补充符合场景的内容,就像给图片“续上”了一样自然。

**模型轻量化优化**,虽然生成高质量图像需要算力,但Stable Diffusion 3.5 Medium对电脑配置的要求比同级别模型低一些,我用的笔记本是RTX 3060显卡,8G显存,生成一张1024x1024的图大概15秒,比之前用3.0版本快了快一倍,而且很少出现卡顿。

Stable Diffusion 3.5 Medium是AI图像生成模型如何生成高质量图像

Stable Diffusion 3.5 Medium的产品定价

目前官方暂无明确的定价,Stable Diffusion系列一直有开源免费的传统,个人非商业使用通常可以通过GitHub等平台下载模型文件,本地部署使用,不需要付费,但如果是商业用途,比如用生成的图像做广告、设计商品图案等,可能需要联系Stability AI获取商业授权,具体费用需要根据使用规模和场景来谈。

有些第三方平台会提供基于Stable Diffusion 3.5 Medium的在线服务,这类平台可能按生成次数收费,比如一张图1-5元不等,或者推出月卡、年卡套餐,我同学在某平台充了个月卡,30块钱能生成100张图,对偶尔用一下的人来说还挺划算的。

Stable Diffusion 3.5 Medium适用场景推荐

设计师用它再合适不过了,不管是做UI设计的素材图,还是海报的背景元素,都能快速生成,我认识一个做电商设计的姐姐,以前找参考图要翻半天素材网站,现在直接用模型生成几个方案,改改就能用,效率提高了不少。**尤其是需要多种风格备选时,它能一次性生成不同感觉的图**,省得来回沟通调整。

自媒体博主也能靠它提升内容质量,比如做穿搭博主的,想展示“复古学院风穿搭在秋天的公园”,直接生成场景图搭配自己的穿搭照,比单纯拍穿搭更有氛围感,游戏博主可以用它生成游戏角色同人图,粉丝互动率都变高了。

学生党做作业也用得上,美术课要画科幻场景,不会画?输入提示词“未来城市,悬浮建筑,飞行器,黄昏”,生成几张选一张交上去,老师还夸有创意,做PPT时缺插图,用它生成匹配主题的图表背景,瞬间让PPT看起来更专业。

还有手残党想给朋友画生日贺图,不会画画没关系,输入朋友的特征“戴眼镜,扎马尾,穿黄色毛衣,抱着猫咪,背景是蛋糕和气球”,生成出来的图虽然不算大师级,但心意满满,朋友收到感动得不行。

Stable Diffusion 3.5 Medium使用注意事项

版权问题一定要注意,用模型生成的图像,虽然是AI创作,但如果用于商业用途,最好确认是否有授权,之前看到有人用生成的图印在T恤上卖,结果因为图里包含了受版权保护的卡通形象,被起诉了,得不偿失。**非商业自用也要避免生成他人肖像或受保护的IP内容**,比如直接生成“蜘蛛侠在火星”,可能会有侵权风险。

硬件配置别忽视,虽然模型做了轻量化,但想流畅使用,显卡最好是NVIDIA的RTX系列,显存8G以上,内存16G,我之前用我 beteil的旧电脑(GTX 1050,4G显存)试,生成一张图要等5分钟,还经常报错,后来换了新电脑才体验到丝滑的感觉。

提示词要写清楚,别只说“画个美女”,模型不知道你要什么风格、什么场景,可以写“20岁女性,长卷发,穿白色连衣裙,站在薰衣草花田里,阳光从云层洒下来,侧脸微笑”,细节越多,生成的图越接近你的想法,我刚开始写提示词太简单,生成的“猫”结果是像猫又像狗的生物,后来慢慢学会加细节,效果才好起来。

别过度依赖AI,虽然模型很强大,但它偶尔也会“翻车”,比如生成的手有六根手指,或者眼睛不对称,这时候需要手动修复,或者多生成几张选最好的,我有次急着交图,没仔细看,结果图里人物的手是畸形的,被老师指出来,尴尬得想找地缝钻进去。

Stable Diffusion 3.5 Medium和同类工具比有啥优势

和Midjourney比,Stable Diffusion 3.5 Medium的优势在于**开源免费和本地部署**,Midjourney需要付费订阅,而且必须在线使用,生成的图还会默认进入公共图库,Stable Diffusion 3.5 Medium可以下载到自己电脑上用,生成的图完全归自己所有,不用担心隐私问题,我一个做设计的朋友,客户要求保密的项目,肯定选本地部署的Stable Diffusion,不敢用在线工具。

和DALL-E 3比,它的**自定义程度更高**,DALL-E 3虽然生成效果好,但对提示词的限制比较多,有些风格化的要求很难实现,Stable Diffusion 3.5 Medium支持加载各种自定义模型(Checkpoint)、LoRA插件,比如你想生成特定动漫风格,只要下载对应的模型包,就能精准控制风格,我之前想生成“原神风格的角色”,加载了原神的LoRA模型,出来的图和游戏里的角色风格几乎一致。

和开源的Stable Diffusion 3.0比,3.5 Medium的**生成速度更快,细节更丰富**,同样生成1024x1024的图,3.0版本需要25秒左右,3.5 Medium只要15秒,而且头发、皮肤的质感更真实,我对比过同一个提示词在两个版本的输出,3.5 Medium生成的人物眼睛更有神,连眼睫毛的层次感都更清晰。

和国内的一些AI绘画工具比,它的**风格兼容性更强**,国内工具很多擅长国风、二次元,但生成写实风格或欧美风时效果一般,Stable Diffusion 3.5 Medium在各种风格上都比较均衡,无论是油画、水彩,还是赛博朋克、蒸汽波,都能驾驭,上次帮国外的朋友生成“文艺复兴风格的自画像”,他说比他用过的其他工具都像真的油画。

Stable Diffusion 3.5 Medium生成高质量图像教程

第一步,准备工具,你需要先在电脑上安装Stable Diffusion的WebUI(比如Automatic1111版本),然后下载Stable Diffusion 3.5 Medium的模型文件,放进models文件夹里,我当时是跟着B站教程一步步弄的,不难,跟着点鼠标就行,大概半小时搞定。

第二步,打开WebUI,选择模型,在左上角的模型下拉框里找到“Stable Diffusion 3.5 Medium”,点击加载,这时候界面会刷新一下,等状态栏显示“模型加载完成”就可以开始了。

第三步,写提示词,这是最关键的一步,我一般会分两部分写:主体描述和风格参数,比如我想生成“一个穿着汉服的少女在桃花树下弹琴”,主体描述就写“18岁少女,身穿粉色汉服,坐在桃花树下,手弹古琴,微风拂过,花瓣飘落”;风格参数写“8k分辨率,超写实,细节丰富,柔和光线,电影级画质”。**提示词前面可以加“best quality, masterpiece”这样的标签,让模型优先生成高质量图像**。

第四步,调整参数,采样方法选DPM++ 2M Karras,这个方法生成速度和效果都不错;采样步数设30-50,步数太少细节不够,太多浪费时间;CFG值设7-9,数值越高模型越严格按提示词生成,但太高会显得生硬,我一般用30步,CFG值7,综合效果最好。

第五步,点击生成,耐心等十几秒,图像就出来了,如果不满意,可以点击“生成变体”让模型基于这张图再生成几张,或者修改提示词重新生成,我上次生成汉服少女图,第一次花瓣太少,我在提示词里加了“大量桃花花瓣”,第二次就完美了,少女的裙摆上还沾了几片花瓣,特别生动。

第六步,后期调整,如果生成的图有小瑕疵,比如手指有点怪,可以用WebUI里的“修复”功能,框选瑕疵区域,输入“正常的手,5根手指”,点击修复就行,最后导出图片保存,一张高质量图像就搞定啦。

常见问题解答

Stable Diffusion 3.5 Medium需要什么电脑配置才能用啊?

至少得有个NVIDIA的显卡吧,显存8G以上比较稳,像RTX 3060、3070这些都行,内存16G,硬盘留个几十G空间放模型和生成的图,我同桌用他爸的旧电脑,显卡是GTX 1050Ti,显存4G,生成一张图卡了快十分钟,还老报错,后来换了RTX 3050就好多了,十几秒一张图,流畅得很!要是你电脑配置不够,也可以试试在线平台,就是要花钱啦。

用Stable Diffusion 3.5 Medium生成的图片能商用吗?

这个得分情况!如果你是自己随便画画玩,发朋友圈、做头像啥的,完全没问题,但要是想拿去卖钱,比如印在T恤上、做广告图,就得小心了,官方说非商业使用免费,但商业用途需要授权,具体多少钱得问他们,我表哥上次用生成的图做网店海报,没授权,结果被平台警告了,差点罚款,后来赶紧联系官方办了授权才没事,所以商用前最好先查清楚版权问题,别踩坑!

Stable Diffusion 3.5 Medium和3.0比,到底好在哪儿啊?

差别可大了!我之前用3.0生成“赛博朋克城市”, buildings边缘糊成一团,霓虹灯颜色也脏脏的,换3.5 Medium后, buildings的玻璃反光、街道上的积水倒影都看得清清楚楚,连广告牌上的小字都能辨认,速度也快了好多,3.0生成1024x1024的图要25秒,3.5 Medium只要15秒,而且生成失败的概率低了,以前十张里总有两张歪瓜裂枣,现在基本八九张都能看,对了,3.5 Medium对提示词的理解也更准,我说“可爱的柯基犬戴墨镜”,3.0老生成戴帽子的,3.5 Medium一次就成了,超可爱!

不会写提示词,用Stable Diffusion 3.5 Medium能生成好看的图吗?

当然能!刚开始我也不会,写“画个风景”,结果出来一片模糊的绿,后来我学了个小技巧:去网上搜“Stable Diffusion提示词模板”,照着改就行,比如模板里有“[主体], [环境], [风格], [画质参数]”,我就填“小猫, 趴在窗台晒太阳, 水彩风格, 8k分辨率, 柔和光影”,生成的图超治愈!还可以用“提示词生成器”,输入简单描述,它会帮你扩展细节,多试几次就会了,我现在写提示词越来越溜,连美术课代表都问我咋生成的图这么好看。

Stable Diffusion 3.5 Medium能生成动画或者视频吗?

直接生成完整视频不行,但能生成图片序列,然后用其他软件合成视频!我试过用它生成“花朵从含苞到盛开”的10张图片,每张之间变化一点点,然后用剪映把图片串起来,加上音乐,就成了小动画,发抖音还得了不少赞,不过这个比较麻烦,得手动调整每张图的提示词,让变化自然,听说后面可能会出专门的视频生成功能,到时候就方便啦!现在想做简单动画的话,可以试试这种图片序列的方法,不难,就是费点时间。

欢迎 发表评论:

请填写验证码

评论列表

暂无评论,快抢沙发吧~