1 day ago

Большая история моих нейросетей по Лунтику


Глава 0 - Идея создания моделей

21 февраля 2024.В мою тупую голову пришла идея как можно обойти авторские права по Лунтику, что бы Мельница не возмущалась .

Об этом я написал в данном посте .

Пропустим половину поста и ссылку сфокусируемся на спрайтах.

Цитирую из поста данное предложение:

А если будут ругаться на похожих персонажей то добавить незначительные детали там лишнее пятно на теле слегка другой цвет...


Глава 1 - Первые шаги .Времена SD1.5

С самого начала были объявлены сборы спрайтов в данном посте .

В итоге было собрано 478 спрайтов.

Предоставили же данные для обучения данные люди:Глитчмен,Вламод,Войдмен,Мистер Мурзик(Спасибо вам).

Я мягко говоря забил на редактирование спрайтов что бы были они "Уникальные".

Первая лора была по Лунтику. Была обучена на 88 изображениях без подписей.Обучение заняла 1 эпоху 40 минут.

Первый показ модели был в данном посте .

Результаты были вот такие:

image-6-fkecrpca.png
image-8-jhuzffzh.png
00006-3490655937-nis4tqij.png

Позже была натренирована версия модели с ручными подписями и была показана в данном посте

Результат был вот такой:

image-15-8ahzzimk.png

Так же были обучены модели на объектах и фонах из Лунтика и на Кузе.На геймджолт результаты модели для Кузи не выкладывались,либо геймджолт снёс пост:

Кузя:

00044-3384435621.png

Объекты:

grid-0011.png
grid-0007.png
grid-0005.png

Фоны:

00108-186145184.png
00102-186145178.png
00100-186145176.png

Пост с результатами модели для фонов

Пост с результатами модели для объектов

Данные модели были натренированы на дообученой модели под аниме на основе SD1.5.

Stable Diffusion 1.5 вышла 2.5 года назад.

Моя личная оценка первых моделей за данный период

Данные модели в принципе не плохо генерируют для своего времени(Год назад).Но там они ужасные с технической части:

  1. В датасете для каждой модели(кроме одной) не было описаний.

  2. В датасетах было примерно половина некачественных данных.

Из-за данных критерий эти модели не очень хорошие.

Что же я сам научился

  1. Поверхностное понимание как тренировать такие модели

  2. Понятия как собирать датасеты минимального качества

Перейдём же к временам SDXL


Глава 2.Большие и маленькие модели.Времена SDXL

Первая моделька была для фонов.

Обученна на 51 фонов на улице.

Были добавлены короткие подписи сгенерированные blip.

Тренировка шла 4 часа.

Результаты:

00027-2012290489-bxa96gey.png
00028-2012290490-36tqc2sr.png
image_-_2024-05-16t064334-197-2uikhphw.png

Пост с результатами модели для фонов

Вторая лора была уже по Лунтику.

Обучалась 2 часа ,на 20 изображений .

Подписи были сгенерированы более нормальной моделью для тэгов: wd 14 tagger(Точно не знаю какой версии).

Результаты были неплохие:

image---2024-06-15t084534-051-ufuasnys.png
image---2024-06-15t091323-617-a9uuk2v3.png
8719e9f8-558f-43ad-ab1e-f68be17c2d5e.png

Пост с результатами модели по Лунтику

Следующая по списку было дообучение полноценной модели которая поддерживает большое количество персонажей .

Датасет около 300 изображений.Обучалась на 1 эпохе примерно 7 часов.

Датасет был прописан wd 14 tagger(Точно не знаю какой версии) ,но там были ошибки в описание которые я не проверял.

Результаты были плохими:

img_20240619_074220_655-7bwdm5qw.jpg
img_20240619_074221_074-bgfy4ix9.jpg
img_20240619_074214_339-dmg3xnn4.jpg

Пост с результами дообученной модели

Следующая модель была для объектов из Лунтика(Видимо только для растений).

Подписи делались с помощью wd 14 tagger(Точно не знаю какой версии)

Результаты:

image---2024-07-07t101607-589-vbu7fa3e.png
image---2024-07-07t101217-927-8um5hn9z.png
image---2024-07-07t101214-596-az4edezr.png

Пост с результатами модель для объектов

На подходе у нас модель для генерации Кузи.

Обученна на 20 изображениях с подписями от wd 14 tagger(Точно не знаю какой версии).

Результаты:

image-2-bbwrvrbv.png
image-82-2zqgi72r.png
image-1-qstb9jvk.png

Пост с результатами модель для Кузи

Снова дообученная модель на мультимодальных данных.А именно Luntik diffusion V2.

Обучение длилось 13 часов.

Датасет 422 изображений.

Описания были сгенерированы wd 14 tagger(Точно не знаю какой версии) и были в ручную подчищены .

Результаты:

00026-3303594182-jgekhf59.png
00060-2178412004-numwzfp9.png
00070-3024229157-8hjrmmhs.png
00012-1441850850-ekaipfuq.png

Пост с результатами Luntik diffusion V2

Идём теперь Luntik diffusion V3 .

Датасет 565 изображений,прописанные с помощью wd 14 tagger(Точно не знаю какой версии) и очищены вручную.

Тренировалась 18 часов,но хочу отметить что третья версия это ещё раз дообученная модель второй версии.

Так что чисто технически тренировка длилась 31 час.

Результаты :

00114-2871646464-cwatnke4.png
00149-951352933-djzqhcma.png
00209-3148717468-vpbaepma.png

Пост с результатами данной модели


Опять Luntik diffusion ,только V4.

Датасет вроде 565 изображений,прописанные с помощью wd 14 tagger(Точно не знаю какой версии) и очищены вручную.

Результаты(смотрите на последнее изображение в списке):

image---2024-08-18t183404-462-cmxd8cgv.png
image---2024-08-18t190004-503-hhge242y.png
image---2024-08-18t183931-854-pcaurvrv.png
image---2024-08-18t182921-112-crrs9r6i.png

Пост с результатами Luntik diffusion V4

Stable Diffusion XL 1.0 вышла год назад.

Моя личная оценка моделей на основе SDXL за данный период

Довольно не плохо.Большинство моделей хороши.Все отдельные лоры относительно прекрасные,первые мультимодальные модели Luntik diffusion V2 и V3 версии доказали что можно нейросеть обучить на мультимодальных данных и выглядит не дурно.

Конечно были ошибки:

  1. Не качественный датасет с шакальными спрайтами

  2. Обучение моделей персонажей чаще всего проводилось на просто спрайтах,без фона.Из-за этого не было разнообразных фонов.В Luntik diffusion немного это проблема было решена ,но криво.

За это период я понял:

  1. Как правильно почти по нормальному собирать, прописывать и чистить датасеты.

  2. Понял что в моих рамках дообучение основных моделей безполезно немного так как для лучшего качестов нужно больше данных.


Глава 3.Модели великолепного качества .Времена FLUX 1 dev

Первая модель была конечно же про Лунтика.Назвал я её LuntikFlux-V1(Позже это информация пригодится)

Обучалась на старом датасете ,который был создан во время моего периода SDXL .

Результаты:

00023-3565249531-rnesg4kq.png
2024-09-20_23-21-00-training-sample-1650-86-16-gfvyf6cr.jpg
00030-3447452402-tgxyfenv.png

Пост с результатами LuntikFlux-V1

Затем как я узнал что FLUX 1 dev поддерживает нормальный естественный язык .

Я решил и переделать модель и назвал LuntikFlux-V2.

В итоге сам датасет и к ниму подписи полностью были переделаны.

Подписи генерировались с помощью Florence-2-base-PromptGen-v1.5 и вроде чистились в ручную.

Результаты стали намного лучше:

00008-4041013368-wfqzkbhj.png
00017-3959195230-wvqiwwzx.png
00080-2706873719-axzfxqxr.png
00182-444419008-bg5p4vwd.png

Пост с результатами LuntikFlux-V2

За этой модель пошла моделька для фонов,а именно BackgroundLuntik_Flux-V1.

Датасет полностью новый,20 изображений ,подписи генерировались с помощью Florence-2-base-PromptGen-v1.5 и чистились в ручную.

Результаты:

00017-3498944006-q4x5curf.png
image_-_2024-09-25t023649-235-d5kenz6z.png
00011-4284648843-wcsyqigh.png

Пост с результатами BackgroundLuntik_Flux-V1

Следующая модель была мультимодальной.Обучалась на 40 изображениях Милы и Пчелёнка .

Подписи генерировались с помощью Florence-2-base-PromptGen-v1.5 и чистились в ручную

Результаты:

image---2024-09-28t081729-053-3zvjnkca.png
image---2024-09-28t120729-304-fypttqjb.png
image---2024-09-28t035608-253-myiyy3kc.png

Пост с результатами данной модели

Через месяц мне в мою голову пришла идея воскресить Luntik Diffusion ,но с новыми знаниями и новой нейросетью. Позже переименовал в Luntik Flux.После данного момента весь датасет в плане изображений глобально был переделан.

Об воскрешение Luntik Diffusion я писал в данном посте

Следующие модели пошли более тестовые для Luntik Flux

Следующая модель была по Шнюку.

Датасет 20 изображений.

Подписи генерировались вроде MiniCPM-V-2_6 и корректировались вручную .Был разработан Промт для улучшения качества описания.

Результаты:

00002-1481210571-rbeqpwkj.png
00008-1552591700-kx89vx9s.png
00000-3858064620-tycbfem7.png

Пост с результатами данной модели

Следующая модель была с Корнеем Корнеивичем.

Датасет 20 изображений и подписи генерировались вроде MiniCPM-V-2_6 и корректировались вручную .Использовался во время описанич тот же Промт что и в модели по Шнюку.

Результаты:

image---2024-11-17t021716-883-penk7ymi.png
image---2024-11-17t023515-432-xfvemktk.png
img_20241117_141938_747-fiepmt4h.jpg

Пост с результатами данной модели

На данный момент последняя модель из данного зоопарка это LuntikFlux-V3.

Обучена на новом датасте в 20 изображений .

Подписи были сгенерированы ChatGPT4o.

Во время генерации подписей был использован супер мега пупер друпер промты для улучшения качества описания

Результаты:

comfyui_09983_-jfpsskbf.png
comfyui_09970_-sp6vtvnj.png
comfyui_09952_-xrcd2yck.png
comfyui_09957_-yytbd2ap.png
comfyui_10010_-w6wpwbew.png
comfyui_10000_-qeyyrb6f.png

На данный момент это ещё не всё!

Тестовые модели для уже ЛИНЕЙКИ Luntik flux рабатываются(всего их примерно 30).

В линейке моделей Luntik flux будет много интересного и крутого.

Я так хочу сказать что я договорился с многими известными авторами на использование их высокачественных спрайтов.

Главная проблема с качеством подписей решена благодаря моему нормальному промту и модели Chatgpt 4o.

На данном моменте я заканчиваю данный пост .

Надеюсь в будущем мои модели станут ещё круче,так как они будут не тестовыми,а итоговыми вариантами



0 comments

Loading...

Next up

Тренировка тестовой модели началась!Молимся всем комьюнити Лунтика x что бы модель получилась удачная,как по оригинальной задумке

Небольшие новости про Luntik Flux.

как же давно я не чистил наборы данных

0044004c0043

Пиздец,страшнааа(Неудачная генерация)

фpl miи

С 8 марта!

Ну что ж,тестовая моделька для Luntik Flux готова.Особенности данной модели в артилке

Смотрите что я смастерил

???