









DeepFloyd IF 是一个最先进的开源文本到图像模型,在照片真实感和语言理解方面具有很高的水平。它是一个模块化的,由一个冻结的文本编码器和三个级联的像素扩散模块组成:一个基础模型根据文本提示生成 64x64 像素的图像,以及两个超分辨率模型,每个模型设计用于生成更高分辨率的图像:256x256 像素和 1024x1024 像素。
DeepFloyd IF 可以通过本地笔记本、与 Hugging Face Diffusers 的集成或在本地运行代码使用。使用时需要设置环境,安装必要的库,并将模型加载到 VRAM 中。

