Классификация галлюцинаций LLM | «Врага нужно знать в лицо»

В этой статье я постарался выписать все то, что понял про «галлюцинации» LLM за время их изучения и практики борьбы с ними. Будучи архитектором по профессии и занудой по природе, я изначально их классифицировал и искал способы, как галлюцинации победить / укротить. В этой статье я хочу поделиться тем, что мне удалось накопать.

Сопоставимого по охвату практико-ориентированного материала на русском я не нашёл. На английском есть более полные академические обзоры, но они опубликованы на arXiv и написаны для ML-исследователей.

Без академичности, описано на живом языке, надеюсь, будет понятно всем, кто осилит объем. Кратко написать статью не вышло, все же нужно показать, чем одна категория отличается от другой, а также предложить «как с ними можно бороться».

Классификацию галлюцинаций я разбил на 5 групп, на фундаментальном уровне выделив «главных виноватых»:
— Проблема в весах, а виновато предобучение
— Проблема в промпте, а виноват пользователь
— Проблема в самой архитектуре LLM, виновата жизнь
— Проблема в дрессировке RLHF, а виноваты горе-учителя
— Проблема в окружении LLM, а виноваты все, кто это окружение разрабатывает / интегрирует