Почему LLM галлюцинируют и как это исправить: технический анализ
DEEP_LEARNING_ANALYSIS // MODULE_HLLCN

Почему LLM «галлюцинируют»
— и что с этим на самом деле делать

Модель часто ошибается не в ответе, а в том, какой вопрос она на самом деле решает.

Интуитивная картина простая: задали вопрос → получили ответ.

[HIDDEN_LAYER]

Скрытый слой

На деле между вопросом и ответом есть скрытый слой. Модель сначала «прокручивает» рассуждение.

[SHIFT_LOGIC]

Смена формулировки

Там незаметно меняется сама формулировка задачи. Чуть сдвинулась — и дальше всё логично, но в другой системе координат.

[FINAL_OUTPUT]

Убедительный итог

Ответ выглядит разумно. Даже убедительно. Просто он не про то, о чём вы спрашивали.

Это как раз объясняет странное ощущение от LLM: читаешь — вроде всё правильно, а пользы ноль.

И есть ещё один момент, который обычно недооценивают. Чем лучше модель умеет рассуждать, тем реже она «останавливается». Она не склонна говорить «не знаю» или «недостаточно данных».

Вместо этого она уверенно доводит решение до конца — даже если стартовая задача уже изменилась по пути. То есть проблема не в неуверенности. Скорее наоборот — в избыточной уверенности.

Пытаться «подкрутить уверенность» — слабая стратегия. Учить модель сомневаться — тоже не очень работает. Логичнее задать другой вопрос: на какую задачу она фактически ответила?

Как это проверить

Ответ + Reasoning
Восстановить исходный вопрос
Сравнение двух вопросов
Валидация результата
Совпадение смысла Если формулировки совпадают — ответ можно использовать.
Расхождение Если нет — лучше его отбросить. Даже если он выглядит аккуратно и логично.

Почему это работает лучше привычных метрик

Обычно смотрят на confidence, вероятности токенов, разные оценки uncertainty. Проблема в том, что модель может быть абсолютно уверена и при этом ошибаться.

Здесь проверяется не уверенность, а соответствие. Проще говоря: решала ли модель вообще ту задачу, которую ей дали. Это другой уровень контроля.

Вопрос: Компания не указала бюджет, нет контактов, нет сайта — стоит ли брать лид?

Ответ: «Возможно, лид перспективный, стоит рассмотреть»

Reasoning модели: Даже без явных данных компания может быть заинтересована, такие лиды иногда конвертируются, лучше не упускать шанс.

Просим восстановить задачу по этому рассуждению. Получаем:

«Насколько этот лид может быть потенциально интересен»

В чем сдвиг: Изначально вопрос был про решение — брать или не брать. А в рассуждении он превратился в оценку потенциала. Это разные задачи.

Ограничения

• Дополнительный запрос — растёт стоимость.
• Качество зависит от самого reasoning.
• Не даёт стопроцентной защиты.

Суть подхода

Смысл не в том, чтобы проверить правильность ответа. Проверяется другое: решала ли модель вообще тот вопрос, который ей задали.

Большая часть проблем с LLM в продакшене — не про слабые модели. Они про отсутствие проверки. Полезнее спрашивать: «Она вообще правильно поняла задачу?»
TERMINAL :: REASONING_AUDIT_PROMPT_V1.3 STATUS: ONLINE

[ВНИМАНИЕ]: Обнаружены признаки когнитивного дрейфа в слоях логики.

TERMINAL_ACCESS_GRANTED // AI_SAFETY_LOG // 2024