Объём базы

Сколько всего актов в РФ — и сколько в нашей выборке. Без обещаний полноты.

Масштаб судебной системы РФ (2024-2026)

Всего судебных дел в РФ
130 000 000
Опубликовано на sudact.ru
~36 000 000 (28%)
Релевантных к нашим 11 вопросам
~2 900 000 (2.2%)
Целевое наполнение (full corpus)
800 000 (0.6%)
Сейчас в нашей базе
1167 (0.146% от цели)

Числа РФ-уровня — оценки на основе ежегодных отчётов Судебного департамента ВС РФ. Sudact.ru — primary источник публичных актов (~95% АС, ~70% СОЮ).

Динамика: вынесено судами и добавлено в базу

По нашей выборке (не вся РФ). Источник: case_date для актов, вынесенных судом; fetched_at для наших импортов.

Вынесено судами по дням (последние 30 дней)

Daily cron на vitrina добавляет акты порциями (sudact polite-rate ~1.5 сек/req → 700-1500 актов/сутки потенциально). JSON API: /api/v1/trends?metric=case_date, ?metric=fetched_at.

Потолок выборки по категориям

Сколько актов реально можно собрать через текущие источники, сколько при разблокировке ГАС «Правосудие», сколько всего вынесено по РФ за 2025 год.

▎В нашей БД ▎Достижимо через текущие источники ▎При разблокировке bsr.sudrf.ru ▎Federal total 2025 (оценка ВС РФ)
Жалобы на следователя (125 УПК) upk_125_complaint
12,000
48,955
1100
56
5.1%
от достижимого
Налоговые споры — НДС (ВНП) tax_vat
7,000
54,132
300
25
8.3%
от достижимого
Налоговые споры — Налог на прибыль (ВНП) tax_profit
7,000
7,000
300
84
28.0%
от достижимого
Субсидиарка КДЛ — снятие/освобождение subsidiarka_kdl
4,500
86,617
300
115
38.3%
от достижимого
Дробление бизнеса (ст. 54.1 НК) tax_54_1
3,000
3,000
300
49
16.3%
от достижимого
Возврат уголовного дела прокурору (237 УПК) upk_237_return
2,500
51,238
350
66
18.9%
от достижимого
Уклонение от налогов (ст. 199 УК) criminal_199
600
600
350
54
15.4%
от достижимого
ЖКХ — абонент vs управляющая компания zhkh_consumer
120,000
120,000
300
115
38.3%
от достижимого
СИЗО — экономика (Москва) moscow_sizo_economic
60,000
60,000
5300
25
0.5%
от достижимого

Известные ограничения источников

  • Sudact pagination ограничивает 10 актов/query → ~150-300 актов реально через month/week-iter
  • Mos-gorsud — только Москва + только апелляции (не первичные акты районных судов)
  • bsr.sudrf.ru — заблокирован для всех наших FVDS
  • Региональные СОЮ субдомены — нет integration (80+ субъектов)

JSON: /api/v1/coverage/ceilings. Federal-оценки — публичные отчёты Судебного департамента ВС РФ за 2024 год (proxy для 2025); sudact-search-hits — реальный отклик sudact на наши узкие запросы (может включать нерелевантные акты).

Прогресс по 11 каноническим вопросам

Вопрос В базе Цель Прогресс
Налоговые ВНП — НДС (2025) 6 500
1.2%
Налоговые ВНП — Налог на прибыль (2025) 84 500
16.8%
Дробление бизнеса (ст. 54.1 НК) — 2025 47 300
15.7%
ЖКХ — абонент vs управляющая компания (2025) 101 300
33.7%
Возврат уголовного дела прокурору (ст. 237 УПК) — 2025 62 200
31.0%
Приговоры по ст. 199 УК (уклонение от налогов) — 2025 36 200
18.0%
Жалобы по ст. 125 УПК — 2025 55 300
18.3%
СИЗО — экономика (Москва, 2025) 11 200
5.5%
Субсидиарка КДЛ — снятие/освобождение (2025) 114 300
38.0%
Банкротство физлиц — освобождение от долгов (2025) 35 300
11.7%
Трудовые споры — восстановление на работе (2025) 26 300
8.7%

План наполнения базы

ЭтапАктовСрокЧто отвечает
Сейчас 1167 3/11 вопросов с индикативной статистикой
MVP-1 5 000 1 неделя 5/11 робастно (с подключённого 27.05 daily cron)
MVP-2 50 000 1 месяц 11/11 робастно, региональная heatmap
MVP-3 200 000 3 месяца Динамика по месяцам, графики
Full corpus 800 000 12 месяцев Полное покрытие 2024-2026 + Phase 2 incremental

Daily cron на vitrina FVDS подтягивает ~700-800 актов/день (sudact polite-rate 1.5 sec/req).

Что для этого нужно

  • Disk: 50 GB на full corpus (сейчас 54 GB свободно → достаточно до Phase 3, потом upgrade до 200 GB)
  • RAM: 16 GB для pgvector HNSW + Postgres working set (текущий 8 GB → upgrade перед Phase 3 month 6)
  • LLM: ~$316 one-time + ~$200/год recurring (DeepSeek V4-flash extraction). Для сравнения: Casebook PRO $3,300/год на одного юриста.
  • Время: sudact rate-limit 1.5 sec/req → max 700-1500 актов/день. Full corpus за 12 месяцев реалистично.

Подробно: методология.