System-level topic про достижимость точности AI-pipeline и позиционирование её в коммуникации (внешний бенчмарк, инвесторам, врачам, пациентам). Research / multiple ongoing transcripts — placeholder для синтеза.

Контекст

Команда обсуждает топик несколько дней подряд (multiple transcripts). Из этого выходят ключевые маркетинговые решения. Пересекаются:

  • Внешние бенчмарки — Stanford MedBenchmark / NOHARM / Harvard
  • Внутренний evaluation — наши тестовые наборы, Артуровские валидированные кейсы

Базовая математика — error compounding

Если на одном шаге pipeline 2% ошибок, на другом 5% — итоговая ~10% (1 - 0.98×0.95). Итеративный повтор шага снижает его ошибку, но не до нуля — асимптотический подход.

100% accuracy недостижимо в multi-step LLM pipeline. Похожий compounding в LOINC mapping (см. loinc-harmonization-pipeline).

Что обсуждается

  • Что значит “100% на бенчмарке” (наш bloodgpt результат)
  • Можно ли достичь 100% и насколько это reliable (Stanford MedBenchmark — да; NOHARM показывает что best models делают 11.8 severe errors на 100 cases)
  • Как позиционировать асимптоту в коммуникации внешним аудиториям
  • Как обосновать “достаточно хорошо” клинически (пересекается с regulatory: FDA Purolea precedent)

Apr 9 2026 — debate Ильдар vs Vasilii

Ильдар (#ai-engineering): «AI-агенты в кодинге не бьют 100% по бенчмаркам, но изменили индустрию. Может, в медицине тоже можно как третье мнение?»

Vasilii: «Врач может ошибаться, а прибор нет. Мы прибор. Я расстраиваюсь, потому что как только врач так расстраивается, он перестает со мной общаться. Много отношений было проебано за счёт таких ошибок.»

Итог: Ильдар принял аргументацию. Vasilii подчеркнул что это не его личное требование, а требование рынка. Консенсус: работаем на 100% консистентность. То есть positioning не как “AI-third-opinion-tool”, а как “instrument-grade tool”.

Это влияет на architectural choices: сильное cross_check_llm_judge (см. recognition и fact-based-recognition Apr 23 model split — pro для cross-check), focus на консистентность output между runs, нон-нашатывание разных интерпретаций.

Открытые вопросы

  • Synthesis из multi-day transcripts — какие конкретно решения вышли по маркетингу
  • Текущий target accuracy на наших internal cases (Артур: 50-100 валидированных пар input/output)
  • Связь с NOHARM benchmark — runs on our architecture (см. llm-safety-in-medicine [О1])
  • Theoretical maximum с учётом dataset errors (Mimic4 имеет известные artefacts)

Связано

Источники

Источники: 1 2 3.

Сноски

  1. Multiple transcripts (carry-over: найти и синтезировать): обсуждения проходили несколько дней. Кандидаты для ingest:

  2. NOHARM paper: arXiv:2512.01241, accessed 2026-05-17, https://arxiv.org/abs/2512.01241.

  3. 2026-04-09 Slack thread (Ильдар vs Vasilii, #ai-engineering), accessed 2026-05-17, https://realaicorp.slack.com/archives/C094GRT3CBY/p1775760474288549.