GLIGEN用户界面,精确 AI 图像合成Mix Lab味知实验室关注共 3930字,需浏览 8分钟 ·2024-04-11 23:48 通过Gligen生成的图像,凭借其令人难以置信的精确度,使您能够在图片中选择单个元素的位置。底层是ComfyUI的用户界面将提升AI图像生成的创造力和控制水平。让我们来探索如何下载和安装这些工具! 目录 介绍 Gligen UI 教程安装图像合成 总结 介绍 GLIGEN,即基于语言的图像生成(Grounded-Language-to-Image Generation),是一种相对较新的从文本中创建图像的方法,简单且有效。与仅使用文本的旧方法不同,GLIGEN允许您在描述中添加额外的细节,称为基准输入(grounding inputs),从而使您对图像的最终组成有更多的控制。 这就是GLIGEN的特殊之处:它允许您在文本中包含额外的信息,比如 框:您可以说明物体在图片中应该放置在哪里。 图像:您甚至可以使用另一张图片来影响风格或外观。 其他输入:它可以使用不同类型的细节,如关键点或深度图,用于特殊效果。 通过将文本与这些额外的细节混合在一起,比如通用的文本提示,GLIGEN可以更好地生成与您想要的相符的图片,将元素准确地放置在您想要的位置上。 那么使用GLIGEN可以得到什么? 更多控制:GLIGEN让您可以完全决定图片的最终效果。 更好的创造力:在单张图片中结合多个不同的元素。 这确实非常有用,特别是在复杂的构图中,您通常可能依赖冗长而复杂的文本提示来描述所需的图片中的一切。此外,仅使用文本在图像中定位物体可能具有挑战性,因为稳定扩散可能不容易理解复杂的指令。 通过使用框来指定特定位置生成元素,GLIGEN简化了将您的文字转化为图片的过程。虽然这种方法可能看起来有些抽象,但我们可以通过一个实际的例子来深入探讨如何使用这种技术。 Gligen UI 教程 GLIGEN发布于2023年1月,但直到最近有一个新的gligen-ui,我才意识到之前没有一个好用的用户界面可以使用这种技术。我对此感到很好奇,决定尝试一下,并将向您介绍如何开始进行实验。 这个新鲜而全新的用户界面可以在 https://github.com/mut-ex/gligen-gui 下载。 在开始之前,请确保您的计算机上已经启动并运行了ComfyUI。您可以使用默认的工作流程保持ComfyUI处于打开状态;只需确保您拥有基于Stable Diffusion 1.5的扩散模型。如果您需要关于ComfyUI的帮助,请查看往期教程。 安装 让我们开始吧:下载Gligen模型并将其放置在以下目录中:ComfyUI\models\gligen 您可以在此链接中找到HuggingFace上的模型 https://huggingface.co/comfyanonymous/GLIGEN_pruned_safetensors/tree/main 假设您已经安装了Python和Git,您可以按照README中概述的步骤开始操作。已创建了一个Python虚拟环境,以将该工具与其他Python库隔离开来。 conda create -n gligen conda activate gligen 然后,要安装实际的用户界面,您需要在终端中执行以下命令: pip install flask git clone https://github.com/mut-ex/gligen-gui.git cd gligen-gui flask --app "gligen_gui:create_app(8188)" run --port 5000 最后一个命令是实际启动应用程序的命令。请确保在最后的命令中使用双引号,否则可能会出现错误。如果在终端中看到这一行,表示您的应用程序已准备就绪。 Go to: http://127.0.0.1:5000/port/8188. 现在,打开一个浏览器并导航到上面提到的URL。用户界面应该会加载在页面上。 . 图像合成 首先,您需要在脑海中有一个图像的想法。然后,在画布的左上部分拖动鼠标以绘制边界框。接下来,通过在右侧表格中的相应文本输入中输入提示来为这些框进行标注。建议一开始保持这些提示简单,这样您可以更好地理解工具的功能。 如果您希望提供有关您的图像的其他详细信息,您可以使用名为“POSITIVE”的文本输入框。然而,为了获得最佳结果,建议您坚持使用与所需风格和图像质量相关的标签。 确保从下拉菜单中选择一个检查点。然后,当所有的框都准备好时,点击“Queue prompt”。请记住,第一次尝试生成的图像可能不完美;您需要进行实验以了解框是如何相互作用和融合内容的。有时,一个框可能生成一张与其余组合不太匹配的图像,所以根据需要随时删除和替换框。这些是我在使用相同提示进行实验后所做的更改: 我需要将天空和日落的框变小,增加重叠,并简化文本提示,直到我获得了一个我认为非常好的结果。 最好在框中指定一个非常具体的项目。通过将“a storm”替换为“thunder”,我在那个位置得到了我想要的结果。然后,我在一般的POSITIVE提示中包含了风暴的概念,我认为这样做效果更好。有时,甚至将该字段留空也会产生良好的结果,所以这不是必须的,但它可能有助于获得更一致的结果。 这个用户界面还很新,但我已经发现它非常强大。这是一个使用Gligen进行实验的简单方法。您可以使用稳定扩散的许多常用参数,并且它甚至与LORAs兼容。 您使用的基础模型也会显著影响您输出的质量。请密切关注Git存储库,因为随着时间的推移,可能会频繁更改并可能添加新功能。 总结 Gligen是一种已经为人所知的技术,通过指定您想要在特定区域创建的内容,使您能够以细致的控制来组合AI图像。它不仅仅是通过文本提示进行控制,还涉及空间信息。最新的gligen-ui简化了这种技术的实施,使其更加易于使用。 原文: aiguildhub.com/gligen-ui-stable-diffusion/ 备注:comfyui 浏览 11点赞 评论 收藏 分享 手机扫一扫分享分享 举报 评论图片表情视频评价全部评论推荐 StableStudioStability AI 开发的 AI 工具用户界面DreamStudio是StabilityAI开发的基于AI的在线绘图工具用户界面,它是一个基于Web的应用程序,允许用户创建和编辑生成的图像。StableStudio则是DreamStudio的开源UIforETWETW 用户界面UIforETW 是用于记录和管理 ETW (Event Tracing for Windows) UIforETWETW 用户界面UIforETW是用于记录和管理ETW(EventTracingforWindows)跟踪的用户界面。它更容易控制,比使用批处理文件和微软wprui要好得多。UIforETW还能解决很多ETW跟踪问题图像合成与图像融合小白学视觉0Inquirer.jsNode.js 命令行用户界面Inquirer是常规交互式命令行用户接口的集合,提供给Node.js一个方便嵌入,漂亮的命令行接口。Inquirer会简化询问终端用户问题,解析,验证答案,提供错误反馈等等功能。安装:npm insHueHadoop 图形化用户界面Hue是运营和开发Hadoop应用的图形化用户界面。Hue程序被整合到一个类似桌面的环境,以web程序的形式发布,对于单独的用户来说不需要额外的安装。DBSignupViewController用户注册界面DBSignupViewController提供一个类似Foursquareapp(3.2.1)的用户注册界面.DBSignupViewController用户注册界面DBSignupViewController 提供一个类似 Foursquare app (3.2.ZUSSZK用户界面样式表ZUSS(ZK用户界面样式表)是对CSS的扩展。ZUSS是向后兼容使用CSS的,同时延长了它的变量,混入,嵌套规则,表达式,条件内容,并与现有的CSS语法的Java方法。ZUSS(ZKUser-intjXUL用户界面框架jXUL这个开源项目旨在将XUL语言集成到Java平台中。这种集成可以采用多种方式。事实上,这个项目将扩展它的成员来发现新的方式,以集成这两种技术。点赞 评论 收藏 分享 手机扫一扫分享分享 举报