stihl не предоставил(а) никакой дополнительной информации.
В последние месяцы новые модели генеративных ИИ стали появляться с завидной регулярностью. Большинство таких моделей — проприетарные, как, например, новый генератор картинок ChatGPT; некоторые можно скачать, но для их работы нужны профессиональные видеокарты с 80 Гбайт видеопамяти. Я же хочу рассказать о двух новых моделях, которые можно запустить на обычном компьютере с обычной видеокартой.
или Зарегистрируйся». Не буду повторяться, тем более что с тех пор интерфейс SwarmUI практически не изменился.
Для просмотра ссылки Войдиили Зарегистрируйся модель можно с Для просмотра ссылки Войди или Зарегистрируйся.
Для просмотра ссылки Войдиили Зарегистрируйся
Скачанный файл с расширением .safetensors нужно положить в папку SwarmUI\Models\Stable-Diffusion, после чего обновить список моделей. Загрузить модель можно, нажав на три точки справа от ее иконки и выбрав Load Now.
Для просмотра ссылки Войдиили Зарегистрируйся
Модель чувствительна к выбору CFG, семплера и шедулера. Мои настройки показаны на скриншоте.
Для просмотра ссылки Войдиили Зарегистрируйся
Модель поддерживает разрешения до 2К (то есть можно генерировать картинки размером порядка 1440 на 1440, включая другие стандартные варианты соотношения сторон).
Помимо Euler, поддерживаются и некоторые другие семплеры; здесь открыто поле для экспериментов. Так, хорошо работает (и выдает более контрастные и детализированные изображения) семплер DPM++ 2M.
Для просмотра ссылки Войдиили Зарегистрируйся
В общем‑то, больше настраивать нечего. Модель легковесная, негативные ключевые слова поддерживает, но есть нюанс: управление ведется через полноценный LLM Gemma-2-2B, и принцип построения запросов к нему подчиняется правилам работы с LLM, а не с более простыми текстовыми декодерами. Разработчики рекомендуют начинать запрос приблизительно следующим образом:
От слов — к делу. Посмотрим, на что способна модель.
Начнем с простого: китайской акварели. Так работает модель с CFG = 7.
Для просмотра ссылки Войдиили Зарегистрируйся
Для просмотра ссылки Войдиили Зарегистрируйся
А тут CFG = 3, но разрешение — 1440 на 1440.
Для просмотра ссылки Войдиили Зарегистрируйся
Симпатично. Добавим котенка, и рисунок пусть будет на старом холсте.
Для просмотра ссылки Войдиили Зарегистрируйся
Попробуем готическую даму.
Для просмотра ссылки Войдиили Зарегистрируйся
Для просмотра ссылки Войдиили Зарегистрируйся
На картинку маслом похоже не очень. Обрати внимание на низкую детализацию лица.
Для просмотра ссылки Войдиили Зарегистрируйся
Это можно исправить сегментированием. Напомню, синтаксис такой:
<segment:face:0.3,0.5>текстовый запрос, описывающий сегмент
Результат:
Для просмотра ссылки Войдиили Зарегистрируйся
Сегментирование работает, огрехи исправляются.
Попробуем гламур.
Для просмотра ссылки Войдиили Зарегистрируйся
Сразу видна проблема с пальцами. Исправить ее сегментированием не удалось; относительно беспроблемный вариант, у которого сегментированием вышло исправить пальцы рук, получился только с третьей попытки.
Для просмотра ссылки Войдиили Зарегистрируйся
Попробуем черно‑белое стрит‑фото.
Для просмотра ссылки Войдиили Зарегистрируйся
Хороший контраст и композиция, лицо при желании можно исправить сегментированием.
Теперь стилизация — Модильяни и Ван Гог.
Для просмотра ссылки Войдиили ЗарегистрируйсяДля просмотра ссылки Войди или Зарегистрируйся
Где‑то в промежутке от «совсем не похоже» до «сойдет».
Теперь попробуем сгенерировать фотографию женщины‑пилота (в этой и следующих картинках семплер — DPM++ 2M):
Для просмотра ссылки Войдиили Зарегистрируйся
И чуть менее гламурно.
Для просмотра ссылки Войдиили Зарегистрируйся
Попробуем в документальном стиле.
Для просмотра ссылки Войдиили Зарегистрируйся
Отмечу, что детализация не дотягивает до уровня SDXL из статьи «Для просмотра ссылки Войдиили Зарегистрируйся».
А что у нас с текстом? Попробуем многократно описанный постер.
Для просмотра ссылки Войдиили Зарегистрируйся
Для просмотра ссылки Войдиили Зарегистрируйся
Комментарии излишни.
Попробуем сделать картинку попроще, но тоже с текстом.
Для просмотра ссылки Войдиили Зарегистрируйся
И снова результат отрицательный. Я сгенерировал больше десятка изображений, и ни разу текст не был пропечатан без ошибок. Возможно, существуют какие‑то комбинации параметров, при которых модель начнет лучше генерировать текст, но мне их найти не удалось.
Зато вот такую обложку модель сгенерировала вполне прилично по достаточно сложному запросу.
Для просмотра ссылки Войдиили Зарегистрируйся
Модель Для просмотра ссылки Войдиили Зарегистрируйся (доступно Для просмотра ссылки Войди или Зарегистрируйся) произвела эффект, подобный тому, который мы наблюдали в момент релиза Flux. Модель демонстрирует не только исключительную точность следования запросам, но и поддержку разнообразных стилей. Качество изображений, насколько его можно оценить по доступным источникам, не уступает Flux и на голову превосходит Stable Diffusion 3.5.
Разработчики HiDream решили раз и навсегда закрыть вопрос с распознаванием текстовых запросов, использовав не один или два, а сразу четыре декодера. В новой модели применяются декодеры OpenCLIP ViT-bigG, OpenAI CLIP ViT-L и T5-XXL от Google, а кроме того — еще и языковая модель Llama-3.1-8B-Instruct от Meta.
Декодеры CLIP-G и CLIP-L (как в SDXL) позволяют быстро декодировать короткие фразы и ключевые слова, перечисляемые через запятую; T5-XXL (как у Flux и Stable Diffusion 3.5) улучшает распознавание связного текста. Вишенкой на торте стало использование большой языковой модели Llama-3.1-8B-Instruct, которая по уровню понимания текста значительно лучше, чем T5-XXL.
Кстати, VAE здесь использован от Flux.1 Schnell, и это на сегодняшний день лучший VAE из имеющихся.
Все три модели Flux распространяются с разными лицензиями. Полная версия Flux.1 Pro доступна исключительно для генерации в режиме онлайн; Flux.1 Dev распространяется в виде дистиллированной модели с достаточно жесткой лицензией, которая ограничивает коммерческое использование. Наконец, Flux.1 Schnell (аналог версии Fast) также доступна в дистиллированном виде, но лицензия здесь уже Apache 2.0.
Что касается HiDream, то все три модели распространяются с максимально открытой лицензией MIT, которая не запрещает ничего и разрешает все, включая коммерческие применения. Сообщество разработчиков радостно потирает руки в ожидании выхода инструментов для обучения модели.
Версия Full — действительно полная, и только в ней поддерживаются негативные ключевые слова. Для генерации изображения модель требует 50 шагов. Работает так же, как и все другие модели, поддерживает параметр CFG.
Из‑за необходимости обсчитывать cond и uncond каждый шаг занимает вдвое больше времени; дистиллированные версии, соответственно, вдвое быстрее при том же числе шагов, но и самих шагов требуют меньше.
Использовать «полную» модель, вероятно, есть смысл лишь тогда, когда без негативного промпта не обойтись; качество картинки у дистиллированных моделей не хуже, а временами и лучше. Это в целом аналог Flux.pro (которая доступна только онлайн).
Версия Dev — дистиллированная; она работает вдвое быстрее полной, при этом требует 28 шагов; не поддерживает негативные ключевые слова. Качество картинки не уступает полной версии. Рекомендую начать изучение именно с этой версии. Аналог Flux.dev.
Версия Fast еще немного ускоряет генерацию по сравнению с Dev, но падение качества становится заметным. Стоит использовать только в случаях, когда время генерации критично. Изображения создаются за 16 шагов. Аналог Flux Schnell.
Если тебе не терпится протестировать новую модель, то о полной версии bf16/fp16 можно забыть: для их использования нужно намного больше видеопамяти, чем доступно даже в самых мощных современных видеокартах.
Впрочем, разработчики практически моментально переняли опыт пользователей Flux и выпустили сразу несколько десятков квантованных версий. На видеокартах с 12–16 Гбайт видеопамяти можно попробовать запустить версии fp8, Q6, Q5 или Q4 (у каждой из которых, в свою очередь, тоже несколько разновидностей). Я попробовал варианты hidream_i1_dev с квантованием fp8, Q6_K и Q4_K_M. Первые две модели работали, но полностью в 16 Гбайт видеопамяти не поместились.
Результат:
Dev-Q6_K скромнее и почти помещается в 16 Гбайт видеопамяти, но и механизм квантования здесь более сложный — видеокарте постоянно приходится тратить время на распаковку.
Вариант Q4_K_M работает наиболее стабильно; с ним утилизация видеопамяти не превышала 14 Гбайт.
Есть и другие варианты с еще более сильным сжатием, но падение качества в них уже становится заметным на глаз.
Выбрав модель, можно приступать к экспериментам.
Во‑вторых, все изображения сгенерированы в один проход (в отличие от ранее протестированных моделей, у которых вторым проходом убираются многочисленные мелкие дефекты), а результирующее разрешение — всего 1 Мп. Таким образом, оценивать результаты мы будем по параметрам точности следования запросу, композиции и соответствия заданному стилю.
Во всех изображениях, кроме тех, где это отмечено отдельно, использовалась модель hidream-i1-dev-Q4_K_M.gguf, 28 шагов, Euler BETA, CFG = 1. Все запросы формировались в стиле LLM и в большей части совпадали с запросами к Lumina (в некоторых случаях я убирал «присказку» в духе «you are an artist...», но модель работает и так, и так).
Для начала сгенерируем «китайскую» акварель.
Для просмотра ссылки Войдиили Зарегистрируйся
Тот же запрос, но с моделью с квантованием nf4.
Для просмотра ссылки Войдиили Зарегистрируйся
Получилось интересно. Добавим котенка.
Для просмотра ссылки Войдиили Зарегистрируйся
Хорошо прорисованное лицо и руки (мелкие огрехи уйдут на втором проходе).
Попробуем черно‑белую фотографию.
Для просмотра ссылки Войдиили ЗарегистрируйсяДля просмотра ссылки Войди или Зарегистрируйся
Аналогично; руки отрисованы хорошо, второй проход или сегментирование легко доведут их до совершенства. А вот фотография летчицы времен начала XX века.
Для просмотра ссылки Войдиили Зарегистрируйся
Она же, только чуть менее гламурно.
Для просмотра ссылки Войдиили Зарегистрируйся
Вполне неплохо для быстрой генерации. Попробуем сгенерировать картины Модильяни и Ван Гога.
Для просмотра ссылки Войдиили ЗарегистрируйсяДля просмотра ссылки Войди или Зарегистрируйся
Какое‑то представление о стилях художников у модели есть, но...
Теперь проверим работу с текстом.
Для просмотра ссылки Войдиили Зарегистрируйся
Отлично! Даже шрифт именно такой, который требовался. И количество пальцев на руках — ровно десять штук! А что на одной руке их шесть, а на другой четыре — деталь совершенно незначительная.
Попробуем сгенерировать обложку для фэнтезийного романа в иллюстративном стиле (здесь квант nf4 из проекта Для просмотра ссылки Войдиили Зарегистрируйся).
Для просмотра ссылки Войдиили Зарегистрируйся
И другой стиль (квант Q4_K_M).
Для просмотра ссылки Войдиили Зарегистрируйся
Вполне убедительно с первой же попытки. Усложним задачу (снова квант nf4).
Для просмотра ссылки Войдиили Зарегистрируйся
Тоже отлично. Здесь обрати внимание на такую деталь, как хват: с тем, как именно персонаж держит объекты, у SDXL проблемы просто катастрофического уровня.
Добавим дракона для обложки юмористического фэнтези (в последний раз квант nf4).
Для просмотра ссылки Войдиили Зарегистрируйся
Смотрится вполне забавно, а главное — свежо и совершенно непохоже на 99,9% современных обложек. Желаемый текст на месте и без ошибок. Работа с текстом действительно впечатляет: модель прекрасно работает с оформлением и не допускает ошибок.
Для просмотра ссылки Войдиили Зарегистрируйся
Наконец, попробуем сделать постер.
Для просмотра ссылки Войдиили Зарегистрируйся
В целом неплохо, но в разных частях плаката появился лишний текст «подпись неразборчиво». Что интересно, убрать его помогла фраза «with no watermarks», просто добавленная в запрос. Картинка получилась красивой, но текст вышел с небольшими ошибками.
Для просмотра ссылки Войдиили Зарегистрируйся
Избавиться от мелких огрехов помогло только переключение на модель с меньшим сжатием (в предыдущей картинке использовалась модель Q4_K_M, в картинке ниже — fp8).
Для просмотра ссылки Войдиили Зарегистрируйся
Приблизительно таким образом и проявляются артефакты сжатия.
Составить однозначное мнение о модели Lumina 2.0 сложнее. С одной стороны, модель заметно легче HiDream; генерация происходит заметно быстрее, а утилизация видеопамяти редко переваливала за порог 8 Гбайт. Точность следования запросу очень хорошая, композиция и поддержка стилей тоже на уровне. Но дальше начинаются минусы.
Работа с текстом в Lumina 2.0 реализована плохо; мне не удалось добиться ни одной корректной генерации. Лица и руки генерируются с огрехами, которые (не всегда) можно исправить сегментной прорисовкой. В целом модель интересна; ее качество превосходит Stable Diffusion 3.5, но отстает от Flux (впрочем, и высоких требований к железу модель не предъявляет).
У Lumina 2.0 огромный потенциал; это отличный кандидат на замену устаревшей архитектуры SDXL с прекрасным VAE и текстовым декодером. Я уверен, что эту модель смогло бы доработать сообщество, но большого интереса к обучению и выпуску ремиксов на основе Lumina 2.0 я пока не наблюдаю. Точнее говоря, их просто нет.
Похоже, к сегодняшнему дню мы достигли точки, когда для создания новых моделей нужен только большой (а лучше — огромный) набор хорошо аннотированных картинок и много машинного времени. И то и другое доступно, хоть и не бесплатно, а такие вещи, как текстовый декодер, архитектура и даже VAE, можно свободно, легально и совершенно бесплатно брать уже готовыми у монстров индустрии.
Несмотря на это, результаты разных команд разработчиков разительно отличаются. Мы же можем выбрать подходящую модель, исходя из собственных запросов.
Lumina 2.0
Эта модель использует полноценный LLM Gemma-2-2B и архитектуру VAE от Flux. Число параметров модели — 2,6 миллиарда, что, с одной стороны, немного (в SDXL столько же), а с другой — позволяет запускать ее на слабом железе. Для сравнения: у Flux — 12 миллиардов параметров, и запускать ее на локальном железе уже затруднительно. SD3.5 Large обладает 8 миллиардами параметров (и работает достаточно быстро), а число параметров у SD3.5 Medium — тоже 2,6 миллиарда, что делает ее самой легковесной из современных моделей (впрочем, с ее качеством это особо не помогает). У HiDream — 17 миллиардов параметров.Установка и использование модели
Для работы с Lumina 2.0 мы будем использовать SwarmUI, уже знакомый тебе по статье «Для просмотра ссылки ВойдиДля просмотра ссылки Войди
Для просмотра ссылки Войди
Скачанный файл с расширением .safetensors нужно положить в папку SwarmUI\Models\Stable-Diffusion, после чего обновить список моделей. Загрузить модель можно, нажав на три точки справа от ее иконки и выбрав Load Now.
Для просмотра ссылки Войди
Модель чувствительна к выбору CFG, семплера и шедулера. Мои настройки показаны на скриншоте.
Для просмотра ссылки Войди
Модель поддерживает разрешения до 2К (то есть можно генерировать картинки размером порядка 1440 на 1440, включая другие стандартные варианты соотношения сторон).
Помимо Euler, поддерживаются и некоторые другие семплеры; здесь открыто поле для экспериментов. Так, хорошо работает (и выдает более контрастные и детализированные изображения) семплер DPM++ 2M.
Для просмотра ссылки Войди
В общем‑то, больше настраивать нечего. Модель легковесная, негативные ключевые слова поддерживает, но есть нюанс: управление ведется через полноценный LLM Gemma-2-2B, и принцип построения запросов к нему подчиняется правилам работы с LLM, а не с более простыми текстовыми декодерами. Разработчики рекомендуют начинать запрос приблизительно следующим образом:
Не стоит воспринимать этот запрос буквально. Модель прекрасно понимает запросы вроде «You are an artist drawing illustrations for a children’s book», которые можно гибко менять в зависимости от задачи (это работает, можно экспериментировать).You are an assistant designed to generate superior images with the superior degree of image-text alignment based on textual prompts or user prompts. <Prompt Start>
От слов — к делу. Посмотрим, на что способна модель.
Lumina 2.0: результаты тестирования
Поскольку модель использует LLM, я буду приводить запросы целиком. Большую часть из них я составлял вручную, но некоторые я попросил сгенерировать ChatGPT.Начнем с простого: китайской акварели. Так работает модель с CFG = 7.
Для просмотра ссылки Войди
А так — с CFG = 3.you are a Chinese painter. mixing oil paint and watercolor, draw a painting of a tranquil Chinese village, with white houses overlooking a river channel, and a boat floating along the river
Для просмотра ссылки Войди
А тут CFG = 3, но разрешение — 1440 на 1440.
Для просмотра ссылки Войди
Симпатично. Добавим котенка, и рисунок пусть будет на старом холсте.
Для просмотра ссылки Войди
Проблемы с лицом, небольшие проблемы с руками. Котят два.you are a Chinese painter. mixing oil paint and watercolor, draw a painting of of a little girl wearing traditional Chinese hanfu dress, playing with a kitten. In background, there is a tranquil Chinese village, with white houses overlooking a river channel, and a boat floating along the river. canvas is old traditional media
Попробуем готическую даму.
Для просмотра ссылки Войди
То же самое, но маслом.you are a modern artist. create hyperrealistic art of a Victorian-era gothic woman standing elegantly, wearing a wide-brimmed black hat and a long flowing Victorian dress with intricate lace details and a tight corset, pale skin, all-black clothing, dark and mysterious atmosphere, her expression calm yet haunting, standing in front of a dimly lit Victorian mansion, high contrast between her pale skin and dark attire, cinematic, medium shot, detailed face and fabric, side view, gothic elegance, eerie mood, outdoors, dark, night, fantasy, masterpiece, best quality
Для просмотра ссылки Войди
На картинку маслом похоже не очень. Обрати внимание на низкую детализацию лица.
Для просмотра ссылки Войди
Это можно исправить сегментированием. Напомню, синтаксис такой:
<segment:face:0.3,0.5>текстовый запрос, описывающий сегмент
Результат:
Для просмотра ссылки Войди
Сегментирование работает, огрехи исправляются.
Попробуем гламур.
Для просмотра ссылки Войди
Сразу видна проблема с пальцами. Исправить ее сегментированием не удалось; относительно беспроблемный вариант, у которого сегментированием вышло исправить пальцы рук, получился только с третьей попытки.
Для просмотра ссылки Войди
Попробуем черно‑белое стрит‑фото.
Для просмотра ссылки Войди
Хороший контраст и композиция, лицо при желании можно исправить сегментированием.
Теперь стилизация — Модильяни и Ван Гог.
Для просмотра ссылки Войди
Где‑то в промежутке от «совсем не похоже» до «сойдет».
Теперь попробуем сгенерировать фотографию женщины‑пилота (в этой и следующих картинках семплер — DPM++ 2M):
Для просмотра ссылки Войди
И чуть менее гламурно.
Для просмотра ссылки Войди
Попробуем в документальном стиле.
Для просмотра ссылки Войди
Отмечу, что детализация не дотягивает до уровня SDXL из статьи «Для просмотра ссылки Войди
А что у нас с текстом? Попробуем многократно описанный постер.
Для просмотра ссылки Войди
Сравни с результатом работы Flux.you are a Pixar artist creating a cover for a new movie in Pixar style. Render the following cover. Title: Display the title "The Crazy Adventure of the Kung-Fu Chicken" in bold and playful text at the top or center of the poster.
Main Character: Depict a dynamic and charismatic ninja chicken in a heroic karate pose, wearing a traditional karate outfit, while still showing chicken features like feathers and a beak.
Background: Include a colorful and exciting backdrop with elements like a mystical forest, a bustling city, and an ancient temple to hint at various adventures. The background is vibrant and engaging.
Supporting Characters: Add a few quirky and fun supporting characters such as a wise old turtle, a mischievous squirrel sidekick, and a villainous fox.
Pixar Branding: Incorporate the Pixar logo at the bottom or top of the poster to establish it as an official Pixar movie.
Tagline: Include a tagline that reads: "A Kung-Fu Adventure" prominently on the poster.
Visual Style: Ensure the overall visual style is consistent with Pixar’s signature animation look: bright colors, expressive characters, and a touch of whimsy.
Для просмотра ссылки Войди
Комментарии излишни.
Попробуем сделать картинку попроще, но тоже с текстом.
Для просмотра ссылки Войди
И снова результат отрицательный. Я сгенерировал больше десятка изображений, и ни разу текст не был пропечатан без ошибок. Возможно, существуют какие‑то комбинации параметров, при которых модель начнет лучше генерировать текст, но мне их найти не удалось.
Зато вот такую обложку модель сгенерировала вполне прилично по достаточно сложному запросу.
Для просмотра ссылки Войди
Добавлю, что ни одной модели SDXL этот запрос (как и его вариации) оказался не под силу. Корректно справились с ним лишь ChatGPT, Lumina 2.0 и HiDream.you are an artist drawing a book cover. the cover depicts a proud knight in the foreground, wearing a full closed helmet, ornate engraved armor, holding a triangular shield with a heraldic lion emblem, bold stance.
behind him stands a dark elf woman, a drow warrior, white flowing hair, sharp predatory face, light leather armor, holding a bow, two curved swords on her back,
on the side, another human fighter in simple armor, carrying a spear and a round shield, alert and ready.
all characters in heroic pose, standing together like a battle party.
background shows ruined stone, broken columns, desolate wasteland, soft light and dust in the air,
fantasy adventure, medieval warriors, epic team, detailed faces and armor, rich textures, dynamic composition, high fantasy, cinematic lighting, illustration style, cover art, ultra detailed, 4k, concept art, dark tones, character focus
HiDream: три текстовых декодера и LLM в придачу
Изначально я собирался писать только о Lumina 2.0, но несколько дней назад появилась еще одна новая архитектура. «Очередная проходная модель», — подумал я, и оказался неправ: картинки, создаваемые энтузиастами, получаются даже более приличными, чем те, что в свое время создавались Flux.Модель Для просмотра ссылки Войди
Разработчики HiDream решили раз и навсегда закрыть вопрос с распознаванием текстовых запросов, использовав не один или два, а сразу четыре декодера. В новой модели применяются декодеры OpenCLIP ViT-bigG, OpenAI CLIP ViT-L и T5-XXL от Google, а кроме того — еще и языковая модель Llama-3.1-8B-Instruct от Meta.
Декодеры CLIP-G и CLIP-L (как в SDXL) позволяют быстро декодировать короткие фразы и ключевые слова, перечисляемые через запятую; T5-XXL (как у Flux и Stable Diffusion 3.5) улучшает распознавание связного текста. Вишенкой на торте стало использование большой языковой модели Llama-3.1-8B-Instruct, которая по уровню понимания текста значительно лучше, чем T5-XXL.
Кстати, VAE здесь использован от Flux.1 Schnell, и это на сегодняшний день лучший VAE из имеющихся.
info
VAE — это модель, отвечающая за перевод данных из латентного пространства в пространство пикселей и обратно; от ее качества напрямую зависит качество картинки.Три версии и лицензия MIT License
Так же как и в свое время Flux, HiDream-I1 доступна в трех версиях: Full, Dev и Fast, однако на этом сходство с Flux заканчивается.Все три модели Flux распространяются с разными лицензиями. Полная версия Flux.1 Pro доступна исключительно для генерации в режиме онлайн; Flux.1 Dev распространяется в виде дистиллированной модели с достаточно жесткой лицензией, которая ограничивает коммерческое использование. Наконец, Flux.1 Schnell (аналог версии Fast) также доступна в дистиллированном виде, но лицензия здесь уже Apache 2.0.
Что касается HiDream, то все три модели распространяются с максимально открытой лицензией MIT, которая не запрещает ничего и разрешает все, включая коммерческие применения. Сообщество разработчиков радостно потирает руки в ожидании выхода инструментов для обучения модели.
Версия Full — действительно полная, и только в ней поддерживаются негативные ключевые слова. Для генерации изображения модель требует 50 шагов. Работает так же, как и все другие модели, поддерживает параметр CFG.
Из‑за необходимости обсчитывать cond и uncond каждый шаг занимает вдвое больше времени; дистиллированные версии, соответственно, вдвое быстрее при том же числе шагов, но и самих шагов требуют меньше.
Использовать «полную» модель, вероятно, есть смысл лишь тогда, когда без негативного промпта не обойтись; качество картинки у дистиллированных моделей не хуже, а временами и лучше. Это в целом аналог Flux.pro (которая доступна только онлайн).
Версия Dev — дистиллированная; она работает вдвое быстрее полной, при этом требует 28 шагов; не поддерживает негативные ключевые слова. Качество картинки не уступает полной версии. Рекомендую начать изучение именно с этой версии. Аналог Flux.dev.
Версия Fast еще немного ускоряет генерацию по сравнению с Dev, но падение качества становится заметным. Стоит использовать только в случаях, когда время генерации критично. Изображения создаются за 16 шагов. Аналог Flux Schnell.
HiDream: варианты квантования
Предварительная поддержка модели уже появилась в интерфейсе Comfy и, как следствие, в SwarmUI. В Comfy замечательный механизм управления памятью, позволяющий запускать даже самые тяжелые модели на видеокартах с 6–8 Гбайт видеопамяти, а новая модель — исключительно тяжелая; по умолчанию в видеопамять загружается и текстовый декодер Llama (используется его квантованная до fp8 версия, если ничего не менять), и весовые коэффициенты генератора изображений.Если тебе не терпится протестировать новую модель, то о полной версии bf16/fp16 можно забыть: для их использования нужно намного больше видеопамяти, чем доступно даже в самых мощных современных видеокартах.
Впрочем, разработчики практически моментально переняли опыт пользователей Flux и выпустили сразу несколько десятков квантованных версий. На видеокартах с 12–16 Гбайт видеопамяти можно попробовать запустить версии fp8, Q6, Q5 или Q4 (у каждой из которых, в свою очередь, тоже несколько разновидностей). Я попробовал варианты hidream_i1_dev с квантованием fp8, Q6_K и Q4_K_M. Первые две модели работали, но полностью в 16 Гбайт видеопамяти не поместились.
Результат:
- hidream_i1_dev_fp8.safetensors: 2 мин, 92,83 с, 46,95 с, 59,55 с;
- hidream-i1-dev-Q6_K.gguf: 84,89 с, 85 с, 66,95 с;
- hidream-i1-dev-Q4_K_M.gguf: 53,48 с, 44,22 с, 66,05 с, 52,64 с, 51,06 с.
Dev-Q6_K скромнее и почти помещается в 16 Гбайт видеопамяти, но и механизм квантования здесь более сложный — видеокарте постоянно приходится тратить время на распаковку.
Вариант Q4_K_M работает наиболее стабильно; с ним утилизация видеопамяти не превышала 14 Гбайт.
Есть и другие варианты с еще более сильным сжатием, но падение качества в них уже становится заметным на глаз.
Выбрав модель, можно приступать к экспериментам.
HiDream: результаты тестирования
Перед тем как оценивать результаты, прими во внимание следующее. Во‑первых, тестировалась не полная, а дистиллированная версия модели, да еще и квантованная всего до 4 бит, что само по себе не может не влиять на качество (скажем, Flux.1 Schnell в таком виде выдает откровенно плохой результат).Во‑вторых, все изображения сгенерированы в один проход (в отличие от ранее протестированных моделей, у которых вторым проходом убираются многочисленные мелкие дефекты), а результирующее разрешение — всего 1 Мп. Таким образом, оценивать результаты мы будем по параметрам точности следования запросу, композиции и соответствия заданному стилю.
Во всех изображениях, кроме тех, где это отмечено отдельно, использовалась модель hidream-i1-dev-Q4_K_M.gguf, 28 шагов, Euler BETA, CFG = 1. Все запросы формировались в стиле LLM и в большей части совпадали с запросами к Lumina (в некоторых случаях я убирал «присказку» в духе «you are an artist...», но модель работает и так, и так).
Для начала сгенерируем «китайскую» акварель.
Для просмотра ссылки Войди
Тот же запрос, но с моделью с квантованием nf4.
Для просмотра ссылки Войди
Получилось интересно. Добавим котенка.
Для просмотра ссылки Войди
Хорошо прорисованное лицо и руки (мелкие огрехи уйдут на втором проходе).
Попробуем черно‑белую фотографию.
Для просмотра ссылки Войди
Аналогично; руки отрисованы хорошо, второй проход или сегментирование легко доведут их до совершенства. А вот фотография летчицы времен начала XX века.
Для просмотра ссылки Войди
Она же, только чуть менее гламурно.
Для просмотра ссылки Войди
Вполне неплохо для быстрой генерации. Попробуем сгенерировать картины Модильяни и Ван Гога.
Для просмотра ссылки Войди
Какое‑то представление о стилях художников у модели есть, но...
Теперь проверим работу с текстом.
Для просмотра ссылки Войди
Отлично! Даже шрифт именно такой, который требовался. И количество пальцев на руках — ровно десять штук! А что на одной руке их шесть, а на другой четыре — деталь совершенно незначительная.
Попробуем сгенерировать обложку для фэнтезийного романа в иллюстративном стиле (здесь квант nf4 из проекта Для просмотра ссылки Войди
Для просмотра ссылки Войди
И другой стиль (квант Q4_K_M).
Для просмотра ссылки Войди
Вполне убедительно с первой же попытки. Усложним задачу (снова квант nf4).
Для просмотра ссылки Войди
Тоже отлично. Здесь обрати внимание на такую деталь, как хват: с тем, как именно персонаж держит объекты, у SDXL проблемы просто катастрофического уровня.
Добавим дракона для обложки юмористического фэнтези (в последний раз квант nf4).
Для просмотра ссылки Войди
Смотрится вполне забавно, а главное — свежо и совершенно непохоже на 99,9% современных обложек. Желаемый текст на месте и без ошибок. Работа с текстом действительно впечатляет: модель прекрасно работает с оформлением и не допускает ошибок.
Для просмотра ссылки Войди
Наконец, попробуем сделать постер.
Для просмотра ссылки Войди
В целом неплохо, но в разных частях плаката появился лишний текст «подпись неразборчиво». Что интересно, убрать его помогла фраза «with no watermarks», просто добавленная в запрос. Картинка получилась красивой, но текст вышел с небольшими ошибками.
Для просмотра ссылки Войди
Избавиться от мелких огрехов помогло только переключение на модель с меньшим сжатием (в предыдущей картинке использовалась модель Q4_K_M, в картинке ниже — fp8).
Для просмотра ссылки Войди
Приблизительно таким образом и проявляются артефакты сжатия.
Выводы
Несмотря на то что модель HiDream пока поддерживается в SwarmUI в тестовом режиме, результат вдохновляет. Отличный уровень следования запросу, удачная композиция, минимальные проблемы с руками и идеальная работа с текстом даже в квантованной дистиллированной версии — все это очень вдохновляет. Моделью можно и нужно пользоваться.Составить однозначное мнение о модели Lumina 2.0 сложнее. С одной стороны, модель заметно легче HiDream; генерация происходит заметно быстрее, а утилизация видеопамяти редко переваливала за порог 8 Гбайт. Точность следования запросу очень хорошая, композиция и поддержка стилей тоже на уровне. Но дальше начинаются минусы.
Работа с текстом в Lumina 2.0 реализована плохо; мне не удалось добиться ни одной корректной генерации. Лица и руки генерируются с огрехами, которые (не всегда) можно исправить сегментной прорисовкой. В целом модель интересна; ее качество превосходит Stable Diffusion 3.5, но отстает от Flux (впрочем, и высоких требований к железу модель не предъявляет).
У Lumina 2.0 огромный потенциал; это отличный кандидат на замену устаревшей архитектуры SDXL с прекрасным VAE и текстовым декодером. Я уверен, что эту модель смогло бы доработать сообщество, но большого интереса к обучению и выпуску ремиксов на основе Lumina 2.0 я пока не наблюдаю. Точнее говоря, их просто нет.
Похоже, к сегодняшнему дню мы достигли точки, когда для создания новых моделей нужен только большой (а лучше — огромный) набор хорошо аннотированных картинок и много машинного времени. И то и другое доступно, хоть и не бесплатно, а такие вещи, как текстовый декодер, архитектура и даже VAE, можно свободно, легально и совершенно бесплатно брать уже готовыми у монстров индустрии.
Несмотря на это, результаты разных команд разработчиков разительно отличаются. Мы же можем выбрать подходящую модель, исходя из собственных запросов.
Краткий путеводитель по генеративным моделям
В обилии генеративных моделей легко запутаться, а их число только растет. Попробую разложить их по полочкам.- Stable Diffusion 1.5 (SD 1.5) — устаревшая архитектура, которая в силу своей нетребовательности к ресурсам получила второе дыхание в виде приложений для мобильных устройств. Для SD 1.5 продолжают выходить новые модели, среди которых достаточно весьма неплохих. Запускать SD 1.5 на компьютере, однако, смысла нет: SDXL обходит эту модель по всем параметрам.
- Stable Diffusion XL (SDXL) — старая, но отлично отлаженная архитектура, на которой ежедневно появляются новые модели, подавляющее большинство из которых имеет рейтинг 18+.
- Flux — архитектура, по сути, одной модели. Многочисленные ремиксы за единичными исключениями в виде дедистиллированных версий не улучшают базовую модель, а делают только хуже. Чрезвычайно требовательна к ресурсам, имеет невысокую скорость генерации, что компенсируется высоким качеством картинок и достаточно точным следованием запросам. Хорошо работает с надписями.
- Lumina 2.0 — очень интересная архитектура и базовая модель с открытой лицензией. LLM на входе позволяет модели еще более точно следовать запросам. В то же время Lumina 2.0 — именно базовая модель, которая нуждается в дополнительном обучении и микшировании; в нынешнем состоянии получение качественных картинок требует некоторого труда. Текстовые надписи поддерживаются скорее в теории; на практике получить надпись без ошибок тяжело.
- HiDream-I1 — вероятно, самая мощная на сегодняшний день модель из числа тех, что могут работать локально. Превосходит Flux по ряду параметров. Будем следить за развитием событий!