Глава 0 - Идея создания моделей
21 февраля 2024.В мою тупую голову пришла идея как можно обойти авторские права по Лунтику, что бы Мельница не возмущалась .
Об этом я написал в данном посте .
Пропустим половину поста и ссылку сфокусируемся на спрайтах.
Цитирую из поста данное предложение:
„А если будут ругаться на похожих персонажей то добавить незначительные детали там лишнее пятно на теле слегка другой цвет...“
Глава 1 - Первые шаги .Времена SD1.5
С самого начала были объявлены сборы спрайтов в данном посте .
В итоге было собрано 478 спрайтов.
Предоставили же данные для обучения данные люди:Глитчмен,Вламод,Войдмен,Мистер Мурзик(Спасибо вам).
Я мягко говоря забил на редактирование спрайтов что бы были они "Уникальные".
Первая лора была по Лунтику. Была обучена на 88 изображениях без подписей.Обучение заняла 1 эпоху 40 минут.
Первый показ модели был в данном посте .
Результаты были вот такие:



Позже была натренирована версия модели с ручными подписями и была показана в данном посте
Результат был вот такой:

Так же были обучены модели на объектах и фонах из Лунтика и на Кузе.На геймджолт результаты модели для Кузи не выкладывались,либо геймджолт снёс пост:
Кузя:

Объекты:



Фоны:



Пост с результатами модели для фонов
Пост с результатами модели для объектов
Данные модели были натренированы на дообученой модели под аниме на основе SD1.5.
Stable Diffusion 1.5 вышла 2.5 года назад.
Моя личная оценка первых моделей за данный период
Данные модели в принципе не плохо генерируют для своего времени(Год назад).Но там они ужасные с технической части:
В датасете для каждой модели(кроме одной) не было описаний.
В датасетах было примерно половина некачественных данных.
Из-за данных критерий эти модели не очень хорошие.
Что же я сам научился
Поверхностное понимание как тренировать такие модели
Понятия как собирать датасеты минимального качества
Перейдём же к временам SDXL
Глава 2.Большие и маленькие модели.Времена SDXL
Первая моделька была для фонов.
Обученна на 51 фонов на улице.
Были добавлены короткие подписи сгенерированные blip.
Тренировка шла 4 часа.
Результаты:



Пост с результатами модели для фонов
Вторая лора была уже по Лунтику.
Обучалась 2 часа ,на 20 изображений .
Подписи были сгенерированы более нормальной моделью для тэгов: wd 14 tagger(Точно не знаю какой версии).
Результаты были неплохие:



Пост с результатами модели по Лунтику
Следующая по списку было дообучение полноценной модели которая поддерживает большое количество персонажей .
Датасет около 300 изображений.Обучалась на 1 эпохе примерно 7 часов.
Датасет был прописан wd 14 tagger(Точно не знаю какой версии) ,но там были ошибки в описание которые я не проверял.
Результаты были плохими:



Пост с результами дообученной модели
Следующая модель была для объектов из Лунтика(Видимо только для растений).
Подписи делались с помощью wd 14 tagger(Точно не знаю какой версии)
Результаты:



Пост с результатами модель для объектов
На подходе у нас модель для генерации Кузи.
Обученна на 20 изображениях с подписями от wd 14 tagger(Точно не знаю какой версии).
Результаты:



Пост с результатами модель для Кузи
Снова дообученная модель на мультимодальных данных.А именно Luntik diffusion V2.
Обучение длилось 13 часов.
Датасет 422 изображений.
Описания были сгенерированы wd 14 tagger(Точно не знаю какой версии) и были в ручную подчищены .
Результаты:




Пост с результатами Luntik diffusion V2
Идём теперь Luntik diffusion V3 .
Датасет 565 изображений,прописанные с помощью wd 14 tagger(Точно не знаю какой версии) и очищены вручную.
Тренировалась 18 часов,но хочу отметить что третья версия это ещё раз дообученная модель второй версии.
Так что чисто технически тренировка длилась 31 час.
Результаты :



Пост с результатами данной модели
Опять Luntik diffusion ,только V4.
Датасет вроде 565 изображений,прописанные с помощью wd 14 tagger(Точно не знаю какой версии) и очищены вручную.
Результаты(смотрите на последнее изображение в списке):




Пост с результатами Luntik diffusion V4
Stable Diffusion XL 1.0 вышла год назад.
Моя личная оценка моделей на основе SDXL за данный период
Довольно не плохо.Большинство моделей хороши.Все отдельные лоры относительно прекрасные,первые мультимодальные модели Luntik diffusion V2 и V3 версии доказали что можно нейросеть обучить на мультимодальных данных и выглядит не дурно.
Конечно были ошибки:
Не качественный датасет с шакальными спрайтами
Обучение моделей персонажей чаще всего проводилось на просто спрайтах,без фона.Из-за этого не было разнообразных фонов.В Luntik diffusion немного это проблема было решена ,но криво.
За это период я понял:
Как правильно почти по нормальному собирать, прописывать и чистить датасеты.
Понял что в моих рамках дообучение основных моделей безполезно немного так как для лучшего качестов нужно больше данных.
Глава 3.Модели великолепного качества .Времена FLUX 1 dev
Первая модель была конечно же про Лунтика.Назвал я её LuntikFlux-V1(Позже это информация пригодится)
Обучалась на старом датасете ,который был создан во время моего периода SDXL .
Результаты:



Пост с результатами LuntikFlux-V1
Затем как я узнал что FLUX 1 dev поддерживает нормальный естественный язык .
Я решил и переделать модель и назвал LuntikFlux-V2.
В итоге сам датасет и к ниму подписи полностью были переделаны.
Подписи генерировались с помощью Florence-2-base-PromptGen-v1.5 и вроде чистились в ручную.
Результаты стали намного лучше:




Пост с результатами LuntikFlux-V2
За этой модель пошла моделька для фонов,а именно BackgroundLuntik_Flux-V1.
Датасет полностью новый,20 изображений ,подписи генерировались с помощью Florence-2-base-PromptGen-v1.5 и чистились в ручную.
Результаты:



Пост с результатами BackgroundLuntik_Flux-V1
Следующая модель была мультимодальной.Обучалась на 40 изображениях Милы и Пчелёнка .
Подписи генерировались с помощью Florence-2-base-PromptGen-v1.5 и чистились в ручную
Результаты:



Пост с результатами данной модели
Через месяц мне в мою голову пришла идея воскресить Luntik Diffusion ,но с новыми знаниями и новой нейросетью. Позже переименовал в Luntik Flux.После данного момента весь датасет в плане изображений глобально был переделан.
Об воскрешение Luntik Diffusion я писал в данном посте
Следующие модели пошли более тестовые для Luntik Flux
Следующая модель была по Шнюку.
Датасет 20 изображений.
Подписи генерировались вроде MiniCPM-V-2_6 и корректировались вручную .Был разработан Промт для улучшения качества описания.
Результаты:



Пост с результатами данной модели
Следующая модель была с Корнеем Корнеивичем.
Датасет 20 изображений и подписи генерировались вроде MiniCPM-V-2_6 и корректировались вручную .Использовался во время описанич тот же Промт что и в модели по Шнюку.
Результаты:



Пост с результатами данной модели
На данный момент последняя модель из данного зоопарка это LuntikFlux-V3.
Обучена на новом датасте в 20 изображений .
Подписи были сгенерированы ChatGPT4o.
Во время генерации подписей был использован супер мега пупер друпер промты для улучшения качества описания
Результаты:






На данный момент это ещё не всё!
Тестовые модели для уже ЛИНЕЙКИ Luntik flux рабатываются(всего их примерно 30).
В линейке моделей Luntik flux будет много интересного и крутого.
Я так хочу сказать что я договорился с многими известными авторами на использование их высокачественных спрайтов.
Главная проблема с качеством подписей решена благодаря моему нормальному промту и модели Chatgpt 4o.
На данном моменте я заканчиваю данный пост .
Надеюсь в будущем мои модели станут ещё круче,так как они будут не тестовыми,а итоговыми вариантами
0 comments