Technology

Архитектура важнее размера: внедряем каузальные свертки в трансформер и получаем связный сторителлинг

Дело было вечером, делать было нечего. Я сидел за ноутом и разбирал новую идею Deepseek Engram: Лян Ванфень собрал вместе хеш‑таблицы и почти‑линейный трансформер — получилось дешево и сердито. Однако есть в Engram один недостаток — он требует много RAM (каламбурчик, хаха). А хотелось архитектуру,

H
Habr
1 мая 2026 г.·1 мин чтения
Архитектура важнее размера: внедряем каузальные свертки в трансформер и получаем связный сторителлинг

Image: Habr

Дело было вечером, делать было нечего. Я сидел за ноутом и разбирал новую идею Deepseek Engram: Лян Ванфень собрал вместе хеш‑таблицы и почти‑линейный трансформер — получилось дешево и сердито.

Однако есть в Engram один недостаток — он требует много RAM (каламбурчик, хаха). А хотелось архитектуру, на инференс которой не придется скидываться всем поселком.

Читать далее

Оригинальная статья

Архитектура важнее размера: внедряем каузальные свертки в трансформер и получаем связный сторителлинг

Опубликовано Habr

Читать полную статью