003 LeCun, Y. (2022). A Path Towards Autonomous Machine Intelligence

Изучаю статью “Путь к автономному машинному интеллекту” (A Path Towards Autonomous Machine Intelligence) написанная Яном Лекуном. Он предлагает путь к созданию автономного интеллекта через архитектуру, которая учится абстрактным представлениям мира, использует их для иерархического планирования и обучается через самоконтроль (SSL) без необходимости в размеченных данных или частых наград извне.

На текущий момент такая система не существует в виде готового, полностью функционирующего автономного интеллекта. Это видение будущего. Кому интересно, полностью статью можете скачать по ссылке.

Ниже зафиксирую часть, которая сейчас более актуальна для меня и к которой буду ссылаться в других работах.

Ян ЛеКун проводит прямую аналогию с классификацией Даниэля Канемана: Мода-1 соответствует «Системе 1» (интуитивное, быстрое мышление), а Мода-2 — «Системе 2» (медленное, сознательное, логическое мышление). Соответственно Мода-2 требует больше энергии для выполнения задач.

A Path Towards Autonomous Machine Intelligence Рисунок описывает общую системную архитектуру автономного интеллекта, ключевой особенностью которой является то, что все модули являются дифференцируемыми. Это означает, что градиенты функции стоимости могут распространяться через все компоненты системы, позволяя использовать эффективные методы градиентной оптимизации для обучения и планирования.

Вот детальное сравнение этих двух режимов:

Механизмы работы.
Мода-1 (Реактивное поведение): В этом режиме действия генерируются напрямую из оценки текущего состояния мира. Модуль восприятия кодирует состояние s, и специальный политический модуль (policy module) сразу выдает действие a. Этот процесс не требует предсказания будущего или оценки последствий через модель мира в реальном времени.
Мода-2 (Рассуждение и планирование): Этот режим работает по принципу прогнозирующего управления (Model-Predictive Control, MPC). Процесс включает несколько этапов:

Актор (Actor) предлагает последовательность действий.

Модель мира (World Model) симулирует возможные будущие состояния, к которым приведут эти действия.

Модуль стоимости (Cost Module) оценивает эти будущие состояния и вычисляет «энергию» (уровень дискомфорта/затрат).

Актор (Actor) оптимизирует последовательность действий, чтобы минимизировать эту прогнозируемую энергию.

Использование ресурсов и скорость.
Мода-1: Это быстрый и «дешевый» с вычислительной точки зрения процесс. Поскольку он требует только одного прохода через политический модуль, агент может иметь множество таких модулей, работающих параллельно для различных рутинных задач.
Мода-2: Этот режим является ресурсоемким («onerous»). Он мобилизует все ресурсы агента, включая единственный движок модели мира, который должен быть сконфигурирован под конкретную задачу. Поэтому, подобно людям, агент в Моде-2 может фокусироваться только на одной сложной задаче одновременно.

Оптимизация и обучение.
Мода-1: Градиенты функции стоимости не могут быть напрямую переданы через внешний мир (так как он недифференцируем), поэтому обучение в этом режиме (без помощи Моды-2) напоминает классическое обучение с подкреплением (policy gradient), которое является медленным и требует множества проб и ошибок.
Мода-2: Так как и модель мира, и функция стоимости являются дифференцируемыми, агент может использовать градиентные методы оптимизации прямо в процессе планирования («inference time»), чтобы найти оптимальное действие. Это позволяет находить решения без необходимости совершать опасные действия в реальности.

Взаимосвязь: Обучение новых навыков.
Ключевая идея архитектуры заключается в том, что Мода-2 используется для обучения Моды-1. Когда агент сталкивается с новой или сложной ситуацией, он использует Моду-2 для планирования оптимальной последовательности действий. Затем политический модуль (Мода-1) обучается имитировать это оптимальное поведение, минимизируя разницу между своим выходом и решением, найденным в Моде-2.

Таким образом, сложные навыки, требующие изначально тяжелых вычислений и планирования, со временем «компилируются» в быстрые реактивные рефлексы, что позволяет агенту действовать эффективно, не обращаясь постоянно к затратной модели мира.