Давайте объясню почему.Во первых это наша любимая хоть и на половину диффузиа.Она быстрая и самое главное ,к ней можно прикрутить очень много вещей от Stable diffusion (генератора картинок) с адаптацией под музыку.К примеру LORA - Адаптация низкого ранга .Вам не требуется огромные вычислительные мощности для обучение модели ,с LORA вы затрагиваете только верхний и нижний слой ,поэтому обучение и быстрей и менее требовательней.На данный момент есть репозиторий на площадке Github который позволяет обучать и использовать LORA для музыки : GitHub - NeuralNotW0rk/LoRAW: Flexible LoRA Implementation to use with stable-audio-tools Скриншот:
Во вторых я сегодня обнаружил интересный вопрос с ответом про возможность генерации песен типа suno (генератор музыки с хорошим вокалом).И ПРЕДСТАВЛЯЕТЕ ВОЗМОЖНО ,но на данный момент сыровато .Это показано на видео .Вот первый текст песни :Because maybe /t You're gonna be the one that saves me \t And after all \t You're my wonderwall \t Because maybe \t You're gonna be the one that saves me \t And after all \t You're my wonderwall .К второй песни : 明月几时有 \t 把酒问青天 \t 不知天上宫阙 \t 今夕是何年 \t 我欲乘风归去 \t 又恐琼楼玉宇 \t 高处不胜寒 \t 起舞弄清影 \t 何似在人间' .Вокал следует текст почти правильно,случается неправильное позиционирование .Но это очень радует потому что можно в скором времени запустить аналог Suno на своём пк что бы он не бомбанул.Автор заявляет что на данный момент код не будет доступен пока он не решит проблему с вокалом. Ссылка на вопрос : Possibility of the generate songs like suno · Issue #65 · Stability-AI/stable-audio-tools · GitHub .
все оба проекта работают на половину но эти наброски тоже радуют.Такие доработки довольно круты и более занчительные чем у других открытых музыкальных генераторов по типу :musicgen. Стандартную модель stable audio open особо не предназначена для музыки хоть и на ней тоже обучалась ,она больше годится для сэмплов.И так вот если появится больше открытых музыкальных данных с нормальной открытых лицензией-хотя бы 20 тысяч песен.И кто то сделает файтюн модели ,то она станет очень хорошей и уже будет тоже годится для музыки .Потом доделают LORA и поддержку вокала и это будет самая лучшая открытая модель для генерации музыки.Так же в интерфейсе stable audio tools не хватает функции outpaint (продолжать музыку) и когда всё это сделают за 1-3 месяца и LORA и поддержка вокала и продолжение музыки и нормальный файтюн модели - это будет просто отлично и радостно
Файтюн _ дообучение модели на доп данных
2 comments