100% accuracy / asymptotic quality / marketing positioning

System-level topic про достижимость точности AI-pipeline и позиционирование её в коммуникации (внешний бенчмарк, инвесторам, врачам, пациентам). Research / multiple ongoing transcripts — placeholder для синтеза.

Контекст

Команда обсуждает топик несколько дней подряд (multiple transcripts). Из этого выходят ключевые маркетинговые решения. Пересекаются:

Внешние бенчмарки — Stanford MedBenchmark / NOHARM / Harvard
Внутренний evaluation — наши тестовые наборы, Артуровские валидированные кейсы

Базовая математика — error compounding

Если на одном шаге pipeline 2% ошибок, на другом 5% — итоговая ~10% (1 - 0.98×0.95). Итеративный повтор шага снижает его ошибку, но не до нуля — асимптотический подход.

100% accuracy недостижимо в multi-step LLM pipeline. Похожий compounding в LOINC mapping (см. loinc-harmonization-pipeline).

Что обсуждается

Что значит “100% на бенчмарке” (наш bloodgpt результат)
Можно ли достичь 100% и насколько это reliable (Stanford MedBenchmark — да; NOHARM показывает что best models делают 11.8 severe errors на 100 cases)
Как позиционировать асимптоту в коммуникации внешним аудиториям
Как обосновать “достаточно хорошо” клинически (пересекается с regulatory: FDA Purolea precedent)

Apr 9 2026 — debate Ильдар vs Vasilii

Ильдар (#ai-engineering): «AI-агенты в кодинге не бьют 100% по бенчмаркам, но изменили индустрию. Может, в медицине тоже можно как третье мнение?»

Vasilii: «Врач может ошибаться, а прибор нет. Мы прибор. Я расстраиваюсь, потому что как только врач так расстраивается, он перестает со мной общаться. Много отношений было проебано за счёт таких ошибок.»

Итог: Ильдар принял аргументацию. Vasilii подчеркнул что это не его личное требование, а требование рынка. Консенсус: работаем на 100% консистентность. То есть positioning не как “AI-third-opinion-tool”, а как “instrument-grade tool”.

Это влияет на architectural choices: сильное cross_check_llm_judge (см. recognition и fact-based-recognition Apr 23 model split — pro для cross-check), focus на консистентность output между runs, нон-нашатывание разных интерпретаций.

Открытые вопросы

Synthesis из multi-day transcripts — какие конкретно решения вышли по маркетингу
Текущий target accuracy на наших internal cases (Артур: 50-100 валидированных пар input/output)
Связь с NOHARM benchmark — runs on our architecture (см. llm-safety-in-medicine [О1])
Theoretical maximum с учётом dataset errors (Mimic4 имеет известные artefacts)

Связано

reference-ranges — error compounding пример из reference range pipeline
loinc-harmonization-pipeline — LOINC mapping error compounding
llm-safety-in-medicine — NOHARM bench, regulatory positioning
patient-summary — accuracy на FHIR benchmark (Stanford)

Источники

Источники: ¹ ² ³.

2026-03-18 “Обсуждаем прогресс по бенчмарку FHIR” (105 мин, deep technical), accessed 2026-05-17, https://github.com/Realai-plus/meeting-digests/blob/main/data/digest/2026/03/2026-03-18T08%3A59%3A18.000Z_Обсуждаем_прогресс_по_бенчмарку_FHIR_01KM02QE1QSR5SAZP6YE2NP9Z1.md — 2026-03-21 “Про fhir бенчмарки” — https://github.com/Realai-plus/meeting-digests/blob/main/data/digest/2026/03/2026-03-21T09%3A24%3A41.000Z_Про_fhir_бенчмарки_01KM7VC2N0NXBS9HFDQTDX2JHV.md
2026-04-17 “эти липопротеины б” ([С1] 100% accuracy debate Катя/Ильдар) — https://github.com/Realai-plus/meeting-digests/blob/main/data/digest/2026/04/2026-04-17T10%3A01%3A00.000Z_эти_липопротеины_б_01KPDE5R6GGZJ8MTZ0W7H2S3R2.md.

Сноски

Multiple transcripts (carry-over: найти и синтезировать): обсуждения проходили несколько дней. Кандидаты для ingest: ↩
NOHARM paper: arXiv:2512.01241, accessed 2026-05-17, https://arxiv.org/abs/2512.01241. ↩
2026-04-09 Slack thread (Ильдар vs Vasilii, #ai-engineering), accessed 2026-05-17, https://realaicorp.slack.com/archives/C094GRT3CBY/p1775760474288549. ↩

Quartz 4

Explorer