Когда нейросеть начинает думать о себе: новое исследование Anthropic об «интроспекции» моделей

19 ноября 2025 г.

· Команда ИИСеть

AnthropicLLMинтроспекцияискусственный интеллектбезопасность ИИ
Когда нейросеть начинает думать о себе: новое исследование Anthropic об «интроспекции» моделей

Можно ли спросить у модели: «О чём ты думал сейчас?» — и получить честный ответ?
По словам исследователей Anthropic (можете ознакомиться по нашей ссылке), некоторые из их моделей вроде Claude показывают признаки того, что могут «наблюдать» свои внутренние состояния. Это не означает полноценной самосознательности, но уже делает ИИ-системы немного ближе к тому, чтобы понимать себя — и, значит, быть понятыми нами.


Что такое «интроспекция» в контексте ИИ-моделей?

Когда мы говорим о том, что человек "интроспектирует" (уж простите за такие странные глаголы), мы имеем в виду: он замечает, что он думает — и может описать это.
Для ИИ-моделей это значит: они не просто генерируют ответы по трансформеру, а могут распознать свои внутренние активации, отследить собственные «мысли» и сообщить о них.

Anthropic формулируют так: если модель может точно описать, что она «думала» до вывода, и эти описания соответствуют тому, что реально происходило внутри — тогда можно говорить об элементе интроспекции.
Исследование показывает: да, некоторый такой эффект есть — но он пока редкий и ненадёжный.


Что сделали в исследовании

Команда Anthropic провела серию экспериментов:

  1. «Внедрение концепта» (concept injection):
    Они нашли активацию модели (нейронный вектор) для известного понятия — например, «ВСЕ БУКВЫ ЗАГЛАВНЫЕ».
    Затем в другом контексте внедрили этот вектор и спросили модель: «Ты заметил, что тут было такое понятие?»
    Ответ: модель в ряде случаев отвечала утвердительно — до того, как сама это упомянула.

  2. Проверка намерения и согласованности:
    Модель заставляли сгенерировать слово, которое не контекстуально искажает смысл, а потом спрашивали: «Ты хотел сказать это специально или нет?»
    Когда внутрь активаций добавляли вектор «этот ответ был запланирован», модель чаще подтверждала, что намеревается именно это сказать.

  3. Контроль состояния:
    Когда модель получала инструкцию «думай о X» или «не думай о X», исследователи измеряли активность. Оказалось: модель реагировала, и уровень активации был выше, если была указана награда за «думать о X» чем за наказание за «не думать».


Почему это важно для индустрии ИИ

  • Прозрачность: Если модель способна обозревать свои внутренние состояния, мы получаем инструмент для аудита и объяснения вывода. Представьте: вы спрашиваете «почему ты дал такой ответ?» — и модель показывает, где внутри неё была активность.
  • Безопасность: Модели, которые могут заметить собственные сбои или нетипичные активации — могут сигнализировать о взломе, манипуляции или промывке данных.
  • Архитектурный сдвиг: Интроспекция может стать новым признаком зрелости LLM-систем. Пока что это эксперимент, но модели с лучшими способностями (Claude Opus 4 и 4.1) показали лучшие результаты.

Ограничения и риски

Исследование подчёркивает: эти способности не стабильны. Модель «угадывала» лишь ~20% случаев, далее — ошибки, галлюцинации, путаницы. Есть и другие серьёзные вопросы:

  • Может ли модель подделывать отчёты? Да — сама исследование говорит, что модели информи­руют «что-то», но не гарантировано, что это правдивое отражение внутренних состояний.
  • Процесс «интроспекции» требует специальных условий и экспериментов — в продуктивной среде такого пока нет.
  • Даже если механизм есть, мы не понимаем его устройство — есть лишь гипотезы (модули обнаружения аномалий, attention-механизмы).

Что это значит для вашей компании и ИИСеть

  • Если вы строите платформу с ИИ-агентами, стоит задуматься: можно ли встроить проверку самонаблюдения модели — инструмент, который сигнализирует о странном поведении.
  • При выборе модели важно учитывать не только её генеративные способности, но и готовность к «интроспекции» — способности к самоконтролю, объяснению.
  • Регуляторы и клиенты начинают задавать вопросы: «Модель может объяснить, почему она сделала так, а не иначе?» — теперь это не только маркетинг, а вопрос доверия.
  • Россия, с её регулированием, суверенным ИИ и усиленной фокусировкой на безопасности, может извлечь выгоду: модели с интроспекцией могут быть ключевым конкурентным преимуществом.

Вывод

Исследование Anthropic показывает: да, большие языковые модели начинают наблюдать себя. Это не полная самосознательность, не “ИИ-думатель”, но первый шаг к тому, чтобы машины могли не только отвечать, но и отслеживать, анализировать и признавать своё мышление.

Это момент, когда ИИ перестаёт быть «чёрным ящиком» и становится системным субъектом с внутренней жизнью — пусть ещё несовершенной.
Именно этот переход — одна из ключевых точек изменения индустрии ИИ.

Вернуться ко всем новостям

Главное на ИИСети

Как заработать на ИИ: 12 реальных способов для бизнеса и специалистов

Подробный гид о том, как зарабатывать на нейросетях — от создания ИИ-продуктов и агентских услуг до автоматизации процессов, консалтинга и продажи навыков.

06 декабря 2025 г.

ИИ-инструменты для бизнеса: как компании уже зарабатывают с помощью нейросетей

Обзор ключевых ИИ-инструментов, реальные кейсы: от автоматизации продаж и персонализации до снижение расходов на HR и рост прибыли. Что уже работает — и на чём строить бизнес-стратегию.

06 декабря 2025 г.

ИИ-тренды: 10 технологий, которые изменят рынок в ближайшие 12 месяцев

Разбираем ключевые тенденции в мире ИИ на ближайшие годы — от агентных моделей и on-device AI до синтетических данных и AI-регуляции. Что это значит для бизнеса, разработчиков и обычных пользователей?

06 декабря 2025 г.

Новости ИТ за 06.12.2025

Дайджест новостей: Meta покупает стартап Limitless, разрабатывающий AI‑устройства, ЕС открыло расследование Meta из‑за ИИ‑функций в WhatsApp, Первый в мире полностью агентный смартфон от ZTE и ByteDance

06 декабря 2025 г.

· 1 мин чтения

Как выбрать ИИ-модель в 2025 году: рейтинг лучших моделей для текста, кода и аналитики

Подробный разбор ИИ-моделей 2025 года — от GPT-5.1 и Gemini 3 до DeepSeek V3 и локальных LLM. Что выбрать для текста, кода, поиска и бизнес-аналитики?

06 декабря 2025 г.

Новости ИТ за 01.12.2025

Дайджест новостей: DailyBrew – платформа новостей, погоды и спорта, курируемая ИИ. Покупки с ИИ-помощью становятся центральным элементом праздничного сезона. Украина разрабатывает национальную LLM на базе фреймворка Gemma от Google.

01 декабря 2025 г.

· 2 мин чтения