1 year ago

Э вот короче микро помогалка с популярными архитектура для нейросетей :

Diffusion model (диффузионные модели)-Тупенькая архитектура ,но в самый раз подходит для генерации картинок .

Остальное в артикле


Отлично справляется когда генерируемый объект в данном случае картинка одна и не надо делать продолжение (анимирование)

Transformer Model (трансформер модели)-хорошо подходят для генерации текста и музыки (насчёт музыки немного я хз)Потому что transformer очень хорошо запоминает контекст

Diffusion transformer model (DIT)(Диффузионно трансформер не модели)-подходят очень хорошо для генерации видео и аудио.Потому что часть с transformer очень хорошо запоминает контекст а диффузия очень хорошо его генерирует



0 comments

Loading...

Next up

Относительно недавно у меня появилась странная вещь, связанная с нейросетями

Мои предсказания по поводу "Какие открытые нейросети выйдут или уже будут доступны в начале 2025 году?"

Хотите рофл? Я нашёл датасет музыки с 7000 композиций с статусом общественным достоянием .И так же я потихоньку разбераюсь с stable audio tools .и надеюсь я сегодня буду обучать свою первую музыкальную модельку

RUS: Всем привет! В связи с тем, что по игре целых !7 МЕСЯЦЕВ! не выходило никаких новостей, решил показать вам анимацию Лунтыша! :)

Как вам?

Первая новость:Мне не удалось обучить музыкальную модель из-за ошибок в консоли и из-за того, что не удалось найти нужную версию Clap (фигня, которая описывает музыку).Вторая новость это моя теория насчёт stable audio tools

no pain no gain

Как вы знаете я главный на гж нейросетевой dungeon master пытаюсь сделать свою говно нейронку из этой https://github.com/Stability-AI/stable-audio-tools и вот просто знайте настолько мало легальных датасетов с музыкой и подписями к ней что мне придётся использовать.Дальше в артикле

Ну вкрации я такой поизучал нейронки stable audio (открытая) и sonauto ai (закрытая)и вот мои вердикты

LX (my idea)

@Magic_4df5 глазами нейросетями