Нейро-символическая когнитивная архитектура
Всем привет. Занимаюсь вайбкодингом около года. Пишу проект, которым хочу поделиться с вами, узнать мнение интересующихся и сведущих в тематике AI, ML-программирования.
# Когнитивная архитектура CORE: от прототипа к стабильной самообучающейся системе
*Как мы построили 27 000 строк кода, имитирующего работу мозга, и что из этого получилось*
---
## Введение
В этой статье я расскажу о текущем состоянии проекта **CORE** — когнитивной архитектуры, которая пытается воспроизвести принципы работы человеческого мозга в коде. Это не очередной чат-бот и не обёртка над LLM. Это система, у которой есть гиппокамп, базальные ганглии, мозжечок, таламус, интероцепция, эмоциональная модель и даже фазы сна NREM/REM.
За последние месяцы проект прошёл путь от нерабочего прототипа, падающего каждые 10 минут, до системы, способной стабильно работать сутками, снижая loss модели мира с 65 до 26 и самостоятельно ставя себе цели.
---
## 1. Что это за система
**CORE** — это нейро-символическая когнитивная архитектура, реализованная на Python (~27 000 строк кода). Она объединяет:
- **Глубокое обучение с подкреплением** (PPO, RSSM, Dreamer-подобные модели)
- **Нейро-символический вывод** (Knowledge Graph + SPARQL + LLM)
- **Био-вдохновлённые модули** (спайковые нейроны, STDP, клетки места/сетки)
- **Непрерывное обучение** (EWC, Fisher matrices)
- **Мета-обучение** (MAML/Reptile, FX-DARTS, NNI)
- **Эмоциональную регуляцию** (дофамин, серотонин, норэпинефрин, ацетилхолин)
### Ключевая идея
Вместо того чтобы тренировать одну гигантскую модель на всех данных мира (подход OpenAI/Google), мы строим **экосистему специализированных модулей**, которые взаимодействуют через глобальное рабочее пространство (Global Workspace Theory) и событийную шину.
---
## 2. Архитектура системы
AGI CONTROL CENTER │
├─────────────────────────────────────────────────────────────┤
│ КОРТИКАЛЬНЫЕ МОДУЛИ (высшая обработка) │
│ ┌──────┐ ┌──────┐ ┌──────┐ ┌──────┐ ┌───────────┐ │
│ │ V1 │ │ A1 │ │ MT │ │ PFC │ │ Reflective│ │
│ │зрение│ │слух │ │ассоц.│ │исполн│ │ рефлексия│ │
│ └──┬───┘ └──┬───┘ └──┬───┘ └──┬───┘ └─────┬─────┘ │
│ └────────┴────────┴────────┴───────────┘ │
│ │ │
│ GLOBAL WORKSPACE (внимание) │
│ │ │
│ ПОДКОРКОВЫЕ СТРУКТУРЫ │
│ ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐ │
│ │Basal Gang│ │Cerebellum│ │ Thalamus │ │Hippocampus│ │
│ │ D1/D2 │ │Пуркинье │ │релейные │ │клетки │ │
│ │ GPe/STN │ │гранулы │ │ядра │ │места/сетки│ │
│ └──────────┘ └──────────┘ └──────────┘ └──────────┘ │
│ │
│ МОДЕЛИ МИРА ПАМЯТЬ │
│ ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐ │
│ │EnsembleWM│ │Deep RSSM │ │MultiModal│ │NeuroScience│ │
│ │ (3 ens) │ │(Dreamer) │ │ WM │ │ Memory │ │
│ └──────────┘ └──────────┘ └──────────┘ └──────────┘ │
│ │
│ ВНЕШНИЙ МИР │
│ ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐ │
│ │PostgreSQL│ │ FAISS │ │ Redis │ │ Docker │ │
│ │ + pgvec │ │ index │ │ pubsub │ │ sandbox │ │
## 3. Текущее состояние (на основе лога работы)
### 3.1. Метрики стабильности
Система запущена **2026-07-01 в 00:59** и к моменту снятия лога (09:03) проработала **более 8 часов непрерывно**. Это первый раз, когда архитектура демонстрирует такую устойчивость.
**Ресурсы:**
- GPU: **~2 ГБ** из 8 ГБ (GTX 1070)
- RAM: **~50%** (стабильно)
- CPU: пики до 95%, в среднем 20-40%
### 3.2. Обучение модели мира
Самый впечатляющий показатель — **стабильное снижение loss**:
| Время | World Model Loss | TD Error |
|-------|-----------------|----------|
| 01:01 | 65.00 | 0.074 |
| 02:00 | 54.17 | 0.067 |
| 04:00 | 52.40 | 0.063 |
| 06:00 | 49.95 | 0.058 |
| 09:03 | **26.73** | 0.085 |
Loss снизился **в 2.4 раза** за 8 часов. Это говорит о том, что модель мира действительно учится предсказывать переходы состояний, а не просто переобучается на шум.
### 3.3. Управление целями
Система самостоятельно инициализировала 5 целей:
1. Оптимизировать использование памяти системы
2. Улучшить алгоритм поиска в векторной БД
3. Создать систему мониторинга производительности
4. Реализовать механизм A/B тестирования алгоритмов
5. Разработать систему автоматического восстановления
Прогресс по целям идёт через `HybridPlanner` и `PPOAgent`. Команды выполняются через встроенные хендлеры (`_optimize_memory`, `_improve_search`, `_create_monitoring`, `_explore_architecture`) или через генерацию кода в Docker-песочнице.
### 3.4. Память и консолидация
- **Эпизодическая память** работает, сохраняется в `checkpoints/episodic_memory_autosave.zstd`
- **Консолидация** запускается каждые 5 минут через `SleepScheduler`
- **HDBSCAN кластеризация** выявляет семантические группы эпизодов
- **LLM-суммаризация** сжимает кластеры в короткие описания
### 3.5. Уровень сознания (C)
Метрика `AGIConsciousnessMetric` (аппроксимация Φ по Tononi) показывает:
- **C = 0.19–0.34** — минимальное/активное бодрствование
- Система далека от "трансцендентного интеллекта" (C > 0.8), но демонстрирует базовую интеграцию информации
## 4. Что уже работает
✅ **Стабильный запуск и работа 8+ часов**
✅ **Обучение модели мира** (loss снижается с 65 до 26)
✅ **PPO-агент** проходит 100 эпизодов с наградой ~10
✅ **Управление целями** через HybridPlanner + LLM
✅ **Docker-песочница** для безопасного выполнения кода
✅ **PostgreSQL + FAISS** для векторного поиска
✅ **Консолидация памяти** через HDBSCAN + LLM
✅ **Внешний поиск** (GitHub, arXiv, DuckDuckGo)
✅ **Эмоциональная модуляция** гиперпараметров
✅ **Сон с фазами NREM/REM**
✅ **EWC** для непрерывного обучения
✅ **FX-DARTS** для поиска архитектур
---
## 5. Что ещё не работает или работает плохо
❌ **Физический движок Unity** — инициализация падает с таймаутом
❌ **Высокий уровень сознания** (C < 0.35)
❌ **Мульти-агентное взаимодействие** — только зачатки
❌ **Распределённое обучение** (Ray) — не тестировалось
❌ **Реальная самооптимизация кода** — MetaProgrammer генерирует, но редко улучшает
---
## 6. Прогноз развития
### Краткосрочный (1–3 месяца)
1. **Стабилизация RSSM** — довести loss до < 15 на стабильных данных
2. **Интеграция Unity** — заставить физический движок работать, обучить PPO на задачах reach/push
3. **Оптимизация памяти** — снизить потребление GPU до 1.5 ГБ
4. **Покрытие тестами** — написать unit-тесты для критических модулей
### Среднесрочный (3–6 месяцев)
1. **Масштабирование на 2 GPU** — разделить LLM и World Model
2. **Мульти-агентная среда** — 2–3 агента в одной симуляции
3. **Продвинутая нарративная память** — долгосрочная "автобиография"
4. **Transfer Learning** — перенос навыков между задачами
### Долгосрочный (6–12 месяцев)
1. **Полная автономность** — система ставит себе цели на недели вперёд
2. **Символический синтез программ** — реальный программный синтез через λ-исчисление
3. **Мета-эволюция** — система сама оптимизирует свою архитектуру через FX-DARTS
4. **Интеграция с реальным миром** — через API роботов или IoT
---
## 7. Технические выводы
### Что сработало
- **Модульная архитектура** — каждый компонент можно заменить независимо
- **Био-вдохновлённые модули** — базальные ганглии и мозжечок реально улучшают обучение
- **Глобальное рабочее пространство** — эффективный механизм внимания
- **EWC** — предотвращает катастрофическое забывание
### Что не сработало
- **Слишком много моделей мира одновременно** — EnsembleWM + RSSM + MultiModalWM = OOM
- **Спайковые нейроны (Norse)** — медленные и нестабильные, отключены
- **Распределённое обучение через Ray** — избыточно для одного ПК
---
## 8. Заключение
AGI Control Center 1.3.9 — это **первая стабильная версия** когнитивной архитектуры, которая действительно учится. За 8 часов работы loss модели мира снизился в 2.4 раза, система самостоятельно ставит и выполняет цели, консолидирует память и даже "спит" с фазами NREM/REM.
Это ещё не AGI. Но это уже **не прототип**. Это рабочая система, которую можно запустить и оставить на ночь, зная, что утром она будет работать и станет немного умнее.
Следующий шаг — **физический мир**. Когда система научится управлять виртуальными объектами в Unity так же уверенно, как сейчас управляет своей памятью, мы сможем говорить о настоящем прорыве.