记录一次 AI 绘图以及视频生成的简单尝试

AI 绘图

使用工具

ComfyUI: 目前 AI 绘图最火的开源工具，毫无疑问就是 ComfyUI 了，这些天也简单尝了个鲜。
Civitai: 这是一个模型分享网站，里面有很多优秀的模型资源，可以直接下载使用。

名词记录

首次接触 AI 绘图，繁多且让人摸不到头的、没有正确翻译（骗你的，翻译了也看不懂）的名词实在令人头疼。从 stable diffusion，到 checkpoint，再到 LoRA、vae、clip、controlnet、sampler、embedding、hypernetwork 等等，实在是太多了。这里简单记录几个常见的名词，方便后续查阅：

Stable Diffusion: 这是一个开源的文本到图像生成模型，基于扩散模型（Diffusion Model）。它可以根据输入的文本描述生成高质量的图像。
由于其开源特性，往往提到 AI 绘图，大伙的第一反应就是 Stable Diffusion，不过事实上，Stable Diffusion 只是众多 AI 绘图模型中的一种，此外还有像是 DALL·E、Midjourney 等等，也是非常优秀的文本到图像生成模型。
Diffusion Model: 扩散模型是一种生成模型，通过逐步添加噪声并学习如何去除噪声来生成数据。它们在图像生成任务中表现出色，能够生成高质量且多样化的图像。
这个词应该是某一篇论文里提出来的，有点类似于 transformer 这种概念，本质是一种向量处理的方式。
Checkpoint: 这是模型的核心文件，包含了模型的权重参数。通常以 .ckpt 或 .safetensors 结尾。
目前，大多数的 checkpoint 文件本质都是基于 Stable Diffusion 的变种模型，通过对某一方面的数据进行定向的训练和微调，使其在生成某一类图像时表现更好。
LoRA (Low-Rank Adaptation): 这是一种用于微调大型预训练模型的技术。通过引入低秩矩阵，LoRA 可以在保持模型性能的同时，大幅减少需要调整的参数数量，从而降低计算资源的需求。LoRA 通常以 .safetensors 结尾。
所谓低秩矩阵，就是小矩阵（？），反正大小肯定会比一般的 checkpoint 模型之类的小很多。将这玩意加到 checkpoint 这样的大模型上后，能够在一定程度上调整大模型的输出风格，这样就不需要从头开始重新训练一个大模型了。至于怎么加的，这个我就不清楚了，反正举例来说，就是如果某个 checkpoint 不会生成 NSFW 的图像，那么加上某个 LoRA 后，就能生成 NSFW 的图像了。
VAE (Variational Autoencoder): 变分自编码器是一种生成模型，通过学习数据的潜在表示来生成新数据。VAE 通常用于图像生成任务，可以帮助提高生成图像的质量和多样性。在 ComfyUI 里，VAE 通常是可选的，主要用于提升图像质量。
说实在的，这个东西我也不太清楚，反正大多数教程就讲了，这玩意能够提升图像质量，将图片色彩变得更丰富。
CLIP (Contrastive Language-Image Pretraining): CLIP 是 OpenAI 提出的一种多模态模型，能够理解图像和文本之间的关系。它通过对大量图像和文本对进行训练，学习到图像和文本的共同表示，从而实现图像分类、文本生成等任务。在 ComfyUI 里，CLIP 通常用于将文本提示转换为图像特征向量，帮助引导图像生成过程。
这玩意就相当于一个翻译器，本来图像生成模型只能理解图像向量，而不能直接理解文本，CLIP 就是负责把文本翻译成图像向量的。
ControlNet: 这是一种用于增强图像生成模型控制能力的技术。通过引入额外的条件输入，ControlNet 可以帮助模型生成更符合用户期望的图像。在 ComfyUI 里，ControlNet 通常用于实现特定的图像生成效果，如线稿上色、姿势控制等。
不太清除，反正一般就是让工作流能够以某些特定的图像进行控制生成，例如纯线稿上色、姿势控制之类的。
Inpainting: 这是一种图像修复技术，能够根据图像的上下文信息填补缺失或损坏的部分。在 ComfyUI 里，Inpainting 通常用于实现图像修复、对象移除等功能。
简单来说，就是给图片添加个蒙版遮罩，然后让 AI 根据周围的图像内容来填充这个蒙版区域。常用于修复图片中的瑕疵，或者移除图片中的不需要的对象。

ComfyUI 工作流

这玩意如果要做的很复杂，是能做出非常复杂的工作流的，不过我目前只能搞些简单的东西，一般模板里面也有，就直接拿来用，再复杂的感觉也不太用得到？

一般情况下，comfyui 中生成图片的流程就是：先到 civitai 网站中找喜欢的模型，下载后放到 models/checkpoints 目录下，然后打开 comfyui，选择对应的模型，设置好参数后，输入文本提示，运行工作流，就能生成图片了。

AI 视频生成

使用工具

可灵: 这是一个国产的 AI 视频生成工具，支持文本生成视频、图片生成视频、人物口型等功能。它的界面比较友好，适合新手使用。就是吃相太难看…
豆包: 这是另一个国产的 AI ，功能丰富。

基本工作流

简单的短视频，直接文本叫 AI 生成就是了。

如果是想生成长一点的，或是有剧情的，就需要分步骤进行了。首先，让 AI 生成剧本，然后根据剧本生成分镜头脚本，接着让 AI 生成每个分镜头的图片，最后使用生成的图片作为首帧或尾帧，使用 AI 生成视频功能生成视频。
之后再使用 AI 进行口型的调整，最后再进行一些后期处理。