Отлично справляется когда генерируемый объект в данном случае картинка одна и не надо делать продолжение (анимирование)
Transformer Model (трансформер модели)-хорошо подходят для генерации текста и музыки (насчёт музыки немного я хз)Потому что transformer очень хорошо запоминает контекст
Diffusion transformer model (DIT)(Диффузионно трансформер не модели)-подходят очень хорошо для генерации видео и аудио.Потому что часть с transformer очень хорошо запоминает контекст а диффузия очень хорошо его генерирует
0 comments