Архитектура важнее размера: внедряем каузальные свертки в трансформер и получаем связный сторителлинг
Дело было вечером, делать было нечего. Я сидел за ноутом и разбирал новую идею Deepseek Engram: Лян Ванфень собрал вместе хеш‑таблицы и почти‑линейный трансформер — получилось дешево и сердито. Однако есть в Engram один недостаток — он требует много RAM (каламбурчик, хаха). А хотелось архитектуру,

Image: Habr
Дело было вечером, делать было нечего. Я сидел за ноутом и разбирал новую идею Deepseek Engram: Лян Ванфень собрал вместе хеш‑таблицы и почти‑линейный трансформер — получилось дешево и сердито.
Однако есть в Engram один недостаток — он требует много RAM (каламбурчик, хаха). А хотелось архитектуру, на инференс которой не придется скидываться всем поселком.
Читать далееОригинальная статья
Архитектура важнее размера: внедряем каузальные свертки в трансформер и получаем связный сторителлинг
Опубликовано Habr