ИИ, нейросеть в работе

А зачем? Вроде бы на рынке труда полно безработных верстальщиков, готовых задешево делать качественные верстки.
Если я правильно понимаю, то прогресс этой технологии не очень-то связан со спросом на профессии. Программистов тоже хоть убавляй, иллюстраторов там разных. Однако это никак не повлияло на развитие способностей нейросетей к написанию кода и генерации иллюстраций разной степени красоты и упоротости.
 
развитие способностей нейросетей к написанию кода и генерации иллюстраций разной степени красоты и упоротости.
Очень большой плюс/минус. Приблизительный результат, который выдает ИИ должен привести в порядок специалист с большой экспертизой. Так что ИИ - это просто инструмент для такого специалиста.
 
Пробую сейчас модель QWEN IMAGE 2512 (запускаю в ComfyUI), очень качественно генерирует картинки, если подробно расписать промт (можно писать по-русски), то результат поражает (типо, сверху то-то, снизу то-то, слева сё, справа то). Модель заточена под несколько видов разрешения, но я пробовал задавать произвольные - работает. Правда работает довольно долго, на RTX 4070 12гб (а в рекомендациях к модели написано, что желательно иметь 16гб видеопамяти) изображение 1400*1400 около 5 минут, 680*680 - чуть больше 1 минуты. Пишут что значительно улучшена генерация лиц, ландшафтов, природных явлений (туман, дождь, вода, листва, трава), что особо интересно - умеет хорошо работать с текстом (вроде пока только с латиницей), неплохо встраивает его в композицию.
Пока пробую стандартный форкфлоу, хочу попробовать добавить Upscale и изображение-референс.
 
Последнее редактирование:
Пробую сейчас модель QWEN IMAGE 2512
Очень интересно! Пробую делать то же самое, но с другими моделями. Пока исследовал Flux1_base. Нравится, как генерит людей, и категорически плохо пейзажи. Немного исследовал модель Wan2.1 Это для генерации видео. Тоже понравилась, но тут предметы - хорошо, люди - так себе.
Лежит еще загруженная Z-image для статичных картинок. Но, к ней пока только прикоснулся. Вроде, у нее с людьми неплохо.
 
как стало с версией 2512
ИИ говорит, что уже появляются Lora файлы на Hugging Face. Так что можете сделать свои генерации еще лучше! Я начинал с модели SDXL и заморачивался тренировкой через Kohya_ss. Способ работающий, но геморный, т.к. надо собирать датасет, потом проводить тренировку (2-3 суток). Результат, конечно впечатляет, но время....
 

Что такое Qwen‑Image на самом деле​

Qwen‑Image (например, Qwen‑Image‑2.5‑12B) — это мультимодальная трансформерная модель, а не диффузор. Она относится к семейству Qwen2.5, то есть:
  • архитектура — трансформер, как у LLM
  • работает с изображениями и текстом
  • может генерировать, понимать, редактировать изображения
  • использует autoregressive или flow‑based механизмы, а не диффузию
То есть она ближе к LLM‑моделям нового поколения, чем к Stable Diffusion, SDXL, Flux, Wan или CogVideoX.

🟢 Чем Qwen‑Image отличается от диффузных моделей​

СвойствоQwen‑ImageDiffusion (SD, SDXL, Flux)
Архитектуратрансформердиффузор
Генерацияautoregressive / flowпошаговая денойзинг‑диффузия
Скоростьбыстреемедленнее
Качествовысокое, особенно в пониманиивысокое в детализации
Обучение LoRAвозможно, но иначестандартное LoRA
VRAMвышениже
 
Хотя Flux вроде-бы тоже не дифузная модель.
Кстати, пробовал CogVideo, результат не понравился. Сразу перешел на Wan2.1
 
Google Whisk с простой бананой 30 апреля переезжает на Google flow (уже работает), где бесплатные банана 2, банана про и imagen 4, у ПРО ограничение порядка 25-30 генераций по 4 картинки, у других нет ограничений. Один минус, как по мне - генерит только вертикалки и горизонталки, квадрата нет, но это вкусовщина. Работает быстро. Можно видео генерировать, на них даётся 150 кредитов.
Скриншот 10.03.26_16.14.03.png

1773148623120.png
 
Последнее редактирование:
И да, Банана 2 - это новый продукт, старший брат простой бананы. Быстрее Про, порой результат существеннее лучше Про. По-русски понимает.
 
100 при регистрации и 50 ежедневно, только не знаю, сгорают ли в конце суток.
 
Пробую сейчас модель QWEN IMAGE 2512 (запускаю в ComfyUI), очень качественно генерирует картинки, если подробно расписать промт (можно писать по-русски), то результат поражает (типо, сверху то-то, снизу то-то, слева сё, справа то). Модель заточена под несколько видов разрешения, но я пробовал задавать произвольные - работает. Правда работает довольно долго, на RTX 4070 12гб (а в рекомендациях к модели написано, что желательно иметь 16гб видеопамяти) изображение 1400*1400 около 5 минут, 680*680 - чуть больше 1 минуты. Пишут что значительно улучшена генерация лиц, ландшафтов, природных явлений (туман, дождь, вода, листва, трава), что особо интересно - умеет хорошо работать с текстом (вроде пока только с латиницей), неплохо встраивает его в композицию.
Пока пробую стандартный форкфлоу, хочу попробовать добавить Upscale и изображение-референс.
Можно попробовать интерфейс WANGP, может чуть удобней чем комфи.
Flux, Qwen, Z-image поддерживает из коробки, правда дожидаться долго пока модели скачаются.
 

Не по теме:

Кто интересуется новой бананой - канал на тытрубе SeTka Project, всё только по делу и никаких продажь вебинаров и воды.

 
Последнее редактирование: