2 years ago

Э вот короче микро помогалка с популярными архитектура для нейросетей :

Diffusion model (диффузионные модели)-Тупенькая архитектура ,но в самый раз подходит для генерации картинок .

Остальное в артикле


Отлично справляется когда генерируемый объект в данном случае картинка одна и не надо делать продолжение (анимирование)

Transformer Model (трансформер модели)-хорошо подходят для генерации текста и музыки (насчёт музыки немного я хз)Потому что transformer очень хорошо запоминает контекст

Diffusion transformer model (DIT)(Диффузионно трансформер не модели)-подходят очень хорошо для генерации видео и аудио.Потому что часть с transformer очень хорошо запоминает контекст а диффузия очень хорошо его генерирует



0 comments

Loading...

Next up

В крации там я уже без понятия то ли я ошибся в размерах датасета то ли автор что то наколдовал .Но примерно вышло файлов музыки на 5000-6000

Первая новость:Мне не удалось обучить музыкальную модель из-за ошибок в консоли и из-за того, что не удалось найти нужную версию Clap (фигня, которая описывает музыку).Вторая новость это моя теория насчёт stable audio tools

Мои предсказания по поводу "Какие открытые нейросети выйдут или уже будут доступны в начале 2025 году?"

Тест эффекта шагов

Эмм перед прочтение этого поста посмотрите этот пост :https://gamejolt.com/p/eman-ya-tupoy-ya-seychas-sizhu-i-dumayu-a…

Inverted Castle

Castlevania Symphony Of The Night fanart

Хотите рофл? Я нашёл датасет музыки с 7000 композиций с статусом общественным достоянием .И так же я потихоньку разбераюсь с stable audio tools .и надеюсь я сегодня буду обучать свою первую музыкальную модельку

Как вы знаете я главный на гж нейросетевой dungeon master пытаюсь сделать свою говно нейронку из этой https://github.com/Stability-AI/stable-audio-tools и вот просто знайте настолько мало легальных датасетов с музыкой и подписями к ней что мне придётся использовать.Дальше в артикле

Концептуальные эскизы для моих будущих серьёзных злодейских проектов.

Ну вкрации я такой поизучал нейронки stable audio (открытая) и sonauto ai (закрытая)и вот мои вердикты