记录一次 AI 绘图以及视频生成的简单尝试
AI 绘图
使用工具
- ComfyUI: 目前 AI 绘图最火的开源工具,毫无疑问就是
ComfyUI了,这些天也简单尝了个鲜。 - Civitai: 这是一个模型分享网站,里面有很多优秀的模型资源,可以直接下载使用。
名词记录
首次接触 AI 绘图,繁多且让人摸不到头的、没有正确翻译(骗你的,翻译了也看不懂)的名词实在令人头疼。从 stable diffusion,到 checkpoint,再到 LoRA、vae、clip、controlnet、sampler、embedding、hypernetwork 等等,实在是太多了。这里简单记录几个常见的名词,方便后续查阅:
Stable Diffusion: 这是一个开源的文本到图像生成模型,基于扩散模型(Diffusion Model)。它可以根据输入的文本描述生成高质量的图像。
由于其开源特性,往往提到 AI 绘图,大伙的第一反应就是 Stable Diffusion,不过事实上,Stable Diffusion 只是众多 AI 绘图模型中的一种,此外还有像是 DALL·E、Midjourney 等等,也是非常优秀的文本到图像生成模型。Diffusion Model: 扩散模型是一种生成模型,通过逐步添加噪声并学习如何去除噪声来生成数据。它们在图像生成任务中表现出色,能够生成高质量且多样化的图像。
这个词应该是某一篇论文里提出来的,有点类似于transformer这种概念,本质是一种向量处理的方式。Checkpoint: 这是模型的核心文件,包含了模型的权重参数。通常以
.ckpt或.safetensors结尾。
目前,大多数的 checkpoint 文件本质都是基于 Stable Diffusion 的变种模型,通过对某一方面的数据进行定向的训练和微调,使其在生成某一类图像时表现更好。LoRA (Low-Rank Adaptation): 这是一种用于微调大型预训练模型的技术。通过引入低秩矩阵,LoRA 可以在保持模型性能的同时,大幅减少需要调整的参数数量,从而降低计算资源的需求。LoRA 通常以
.safetensors结尾。
所谓低秩矩阵,就是小矩阵(?),反正大小肯定会比一般的 checkpoint 模型之类的小很多。将这玩意加到 checkpoint 这样的大模型上后,能够在一定程度上调整大模型的输出风格,这样就不需要从头开始重新训练一个大模型了。至于怎么加的,这个我就不清楚了,反正举例来说,就是如果某个 checkpoint 不会生成 NSFW 的图像,那么加上某个 LoRA 后,就能生成 NSFW 的图像了。VAE (Variational Autoencoder): 变分自编码器是一种生成模型,通过学习数据的潜在表示来生成新数据。VAE 通常用于图像生成任务,可以帮助提高生成图像的质量和多样性。在 ComfyUI 里,VAE 通常是可选的,主要用于提升图像质量。
说实在的,这个东西我也不太清楚,反正大多数教程就讲了,这玩意能够提升图像质量,将图片色彩变得更丰富。CLIP (Contrastive Language-Image Pretraining): CLIP 是 OpenAI 提出的一种多模态模型,能够理解图像和文本之间的关系。它通过对大量图像和文本对进行训练,学习到图像和文本的共同表示,从而实现图像分类、文本生成等任务。在 ComfyUI 里,CLIP 通常用于将文本提示转换为图像特征向量,帮助引导图像生成过程。
这玩意就相当于一个翻译器,本来图像生成模型只能理解图像向量,而不能直接理解文本,CLIP 就是负责把文本翻译成图像向量的。ControlNet: 这是一种用于增强图像生成模型控制能力的技术。通过引入额外的条件输入,ControlNet 可以帮助模型生成更符合用户期望的图像。在 ComfyUI 里,ControlNet 通常用于实现特定的图像生成效果,如线稿上色、姿势控制等。
不太清除,反正一般就是让工作流能够以某些特定的图像进行控制生成,例如纯线稿上色、姿势控制之类的。Inpainting: 这是一种图像修复技术,能够根据图像的上下文信息填补缺失或损坏的部分。在 ComfyUI 里,Inpainting 通常用于实现图像修复、对象移除等功能。
简单来说,就是给图片添加个蒙版遮罩,然后让 AI 根据周围的图像内容来填充这个蒙版区域。常用于修复图片中的瑕疵,或者移除图片中的不需要的对象。
ComfyUI 工作流
这玩意如果要做的很复杂,是能做出非常复杂的工作流的,不过我目前只能搞些简单的东西,一般模板里面也有,就直接拿来用,再复杂的感觉也不太用得到?
一般情况下,comfyui 中生成图片的流程就是:先到 civitai 网站中找喜欢的模型,下载后放到 models/checkpoints 目录下,然后打开 comfyui,选择对应的模型,设置好参数后,输入文本提示,运行工作流,就能生成图片了。
AI 视频生成
使用工具
- 可灵: 这是一个国产的 AI 视频生成工具,支持文本生成视频、图片生成视频、人物口型等功能。它的界面比较友好,适合新手使用。就是吃相太难看…
- 豆包: 这是另一个国产的 AI ,功能丰富。
基本工作流
简单的短视频,直接文本叫 AI 生成就是了。
如果是想生成长一点的,或是有剧情的,就需要分步骤进行了。首先,让 AI 生成剧本,然后根据剧本生成分镜头脚本,接着让 AI 生成每个分镜头的图片,最后使用生成的图片作为首帧或尾帧,使用 AI 生成视频功能生成视频。
之后再使用 AI 进行口型的调整,最后再进行一些后期处理。
- Title: 记录一次 AI 绘图以及视频生成的简单尝试
- Author: tada-zako
- Created at : 2025-09-05 00:00:00
- Updated at : 2025-10-05 20:39:32
- Link: https://blog.tada-zako.top/2025/记录/ai-generation-attempt/
- License: This work is licensed under CC BY-NC-SA 4.0.