System-level topic про достижимость точности AI-pipeline и позиционирование её в коммуникации (внешний бенчмарк, инвесторам, врачам, пациентам). Research / multiple ongoing transcripts — placeholder для синтеза.
Контекст
Команда обсуждает топик несколько дней подряд (multiple transcripts). Из этого выходят ключевые маркетинговые решения. Пересекаются:
- Внешние бенчмарки — Stanford MedBenchmark / NOHARM / Harvard
- Внутренний evaluation — наши тестовые наборы, Артуровские валидированные кейсы
Базовая математика — error compounding
Если на одном шаге pipeline 2% ошибок, на другом 5% — итоговая ~10% (1 - 0.98×0.95). Итеративный повтор шага снижает его ошибку, но не до нуля — асимптотический подход.
100% accuracy недостижимо в multi-step LLM pipeline. Похожий compounding в LOINC mapping (см. loinc-harmonization-pipeline).
Что обсуждается
- Что значит “100% на бенчмарке” (наш bloodgpt результат)
- Можно ли достичь 100% и насколько это reliable (Stanford MedBenchmark — да; NOHARM показывает что best models делают 11.8 severe errors на 100 cases)
- Как позиционировать асимптоту в коммуникации внешним аудиториям
- Как обосновать “достаточно хорошо” клинически (пересекается с regulatory: FDA Purolea precedent)
Apr 9 2026 — debate Ильдар vs Vasilii
Ильдар (#ai-engineering): «AI-агенты в кодинге не бьют 100% по бенчмаркам, но изменили индустрию. Может, в медицине тоже можно как третье мнение?»
Vasilii: «Врач может ошибаться, а прибор нет. Мы прибор. Я расстраиваюсь, потому что как только врач так расстраивается, он перестает со мной общаться. Много отношений было проебано за счёт таких ошибок.»
Итог: Ильдар принял аргументацию. Vasilii подчеркнул что это не его личное требование, а требование рынка. Консенсус: работаем на 100% консистентность. То есть positioning не как “AI-third-opinion-tool”, а как “instrument-grade tool”.
Это влияет на architectural choices: сильное cross_check_llm_judge (см. recognition и fact-based-recognition Apr 23 model split — pro для cross-check), focus на консистентность output между runs, нон-нашатывание разных интерпретаций.
Открытые вопросы
- Synthesis из multi-day transcripts — какие конкретно решения вышли по маркетингу
- Текущий target accuracy на наших internal cases (Артур: 50-100 валидированных пар input/output)
- Связь с NOHARM benchmark — runs on our architecture (см. llm-safety-in-medicine [О1])
- Theoretical maximum с учётом dataset errors (Mimic4 имеет известные artefacts)
Связано
- reference-ranges — error compounding пример из reference range pipeline
- loinc-harmonization-pipeline — LOINC mapping error compounding
- llm-safety-in-medicine — NOHARM bench, regulatory positioning
- patient-summary — accuracy на FHIR benchmark (Stanford)
Источники
- 2026-03-18 “Обсуждаем прогресс по бенчмарку FHIR” (105 мин, deep technical), accessed 2026-05-17, https://github.com/Realai-plus/meeting-digests/blob/main/data/digest/2026/03/2026-03-18T08%3A59%3A18.000Z_Обсуждаем_прогресс_по_бенчмарку_FHIR_01KM02QE1QSR5SAZP6YE2NP9Z1.md — 2026-03-21 “Про fhir бенчмарки” — https://github.com/Realai-plus/meeting-digests/blob/main/data/digest/2026/03/2026-03-21T09%3A24%3A41.000Z_Про_fhir_бенчмарки_01KM7VC2N0NXBS9HFDQTDX2JHV.md
- 2026-04-17 “эти липопротеины б” ([С1] 100% accuracy debate Катя/Ильдар) — https://github.com/Realai-plus/meeting-digests/blob/main/data/digest/2026/04/2026-04-17T10%3A01%3A00.000Z_эти_липопротеины_б_01KPDE5R6GGZJ8MTZ0W7H2S3R2.md.
Сноски
-
Multiple transcripts (carry-over: найти и синтезировать): обсуждения проходили несколько дней. Кандидаты для ingest: ↩
-
NOHARM paper: arXiv:2512.01241, accessed 2026-05-17, https://arxiv.org/abs/2512.01241. ↩
-
2026-04-09 Slack thread (Ильдар vs Vasilii,
#ai-engineering), accessed 2026-05-17, https://realaicorp.slack.com/archives/C094GRT3CBY/p1775760474288549. ↩