В погоне за новыми моделя­ми вро­де Lumina 2.0 и HiDream-I1 сооб­щес­тво начало забывать про ста­рый доб­рый Flux, став­ший про­рывом мень­ше года назад. И как ока­залось, совер­шенно нап­расно: новей­ший алго­ритм поз­воля­ет соз­давать кар­тинки этой доволь­но тяжелой моделью все­го за четыре секун­ды — быс­трее, чем при помощи SDXL.
 

SVDQuant

Тех­нология сжа­тия ней­росете­вых моделей, получив­шая наз­вание SVDQuant, была соз­дана груп­пой раз­работ­чиков MIT HAN Lab из Мас­сачусет­ско­го тех­нологи­чес­кого инсти­тута. Раз­работ­чики опи­сыва­ют ее так.

SVDQuant — метод сжа­тия ней­рон­ных сетей, исполь­зующий син­гуляр­ное раз­ложение мат­риц (SVD) для сжа­тия модели до 4 бит без сущес­твен­ного ухуд­шения качес­тва. Модель FLUX.1 с 12 мил­лиар­дами парамет­ров уда­лось сжать в 3,6 раза, в резуль­тате чего модель умес­тилась в доволь­но скром­ный объ­ем виде­опа­мяти. Кста­ти, при помощи SVDQuant мож­но сжи­мать далеко не толь­ко модели для генера­ции кар­тинок; к при­меру, уже дос­тупна кван­тован­ная модель тек­сто­вого декоде­ра T5.

Да­лее в дей­ствие всту­пает инс­тру­мент Nunchaku, который исполь­зует­ся для генера­ции кар­тинок с при­мене­нием сжа­той модели. Nunchaku пот­ребля­ет в 3,5 раза мень­ше памяти, чем базовая 16-бит­ная модель Flux, и уско­ряет каж­дый шаг генера­ции в три раза по срав­нению даже с силь­но сжа­той моделью в фор­мате NF4 (с нее, напом­ню, началась прак­тика кван­тования моделей), сущес­твен­но опе­режая пос­леднюю по качес­тву кар­тинки.

На виде­окар­тах с неболь­шим объ­емом памяти модели SVDQuant работа­ют на порядок быс­трее нес­жатой вер­сии и как минимум втрое быс­трее, чем с кван­товани­ем fp8, Q8 или Q6. На кар­тах с 16 Гбайт виде­опа­мяти при­рост про­изво­дитель­нос­ти скром­нее, при­мер­но в 2,5 раза по срав­нению с вари­анта­ми GGUF или fp8.

Терминология

  • SVDQuant — наз­вание метода сжа­тия и фор­мата, в котором пред­став­лены сжа­тые модели.
  • Nunchaku — инс­тру­мент для работы с моделя­ми в фор­мате SVDQuant. Дос­тупен как в виде кода для раз­работ­чиков, так и в рас­ширени­ях для ComfyUI и SwarmUI.
  • DeepCompressor — инс­тру­мент для кван­тования (сжа­тия) моделей.
 

Установка и использование модели

Для работы с новыми моделя­ми мы будем исполь­зовать интерфейс SwarmUI, уже зна­комый тебе по нес­коль­ким пре­дыду­щим стать­ям.

Продолжение доступно только участникам

Материалы из последних выпусков становятся доступны по отдельности только через два месяца после публикации. Чтобы продолжить чтение, необходимо стать участником сообщества «Xakep.ru».

Присоединяйся к сообществу «Xakep.ru»!

Членство в сообществе в течение указанного срока откроет тебе доступ ко ВСЕМ материалам «Хакера», позволит скачивать выпуски в PDF, отключит рекламу на сайте и увеличит личную накопительную скидку! Подробнее

  • Подпишись на наc в Telegram!

    Только важные новости и лучшие статьи

    Подписаться

  • Подписаться
    Уведомить о
    0 комментариев
    Межтекстовые Отзывы
    Посмотреть все комментарии