Безопасность LLM в медицине

Центральный вопрос: при каких условиях LLM безопасно использовать для обработки медицинских данных. Что говорят исследования. Что требует регулятор. На 2026-04-25 у нас две прочные опоры — empirical (NOHARM paper) и regulatory (FDA Purolea letter).

Контекст FDA 2026 — mixed picture

FDA в 2026 идёт в двух направлениях одновременно:

Jan 6, 2026 (CES Las Vegas): Commissioner Marty Makary объявил deregulation для low-risk: enforcement discretion для single-recommendation CDS, exempt-status для non-medical-grade wearables. Stated goal — “at Silicon Valley speed”.
April 2, 2026 (Purolea Cosmetics Lab warning letter): принуждение к соблюдению существующих требований cGMP (current Good Manufacturing Practices — действующие правила надлежащей производственной практики, регулирующие производство лекарств / медицинских продуктов в США), когда ИИ используется в регулируемом процессе без проверки человеком (QA review).

Для нас (medical AI в regulated слое) доминирует второй вектор. Jan 6 — про consumer wearables и low-risk CDS. Purolea — про наш sector.

Факты [Н]

[Н1] NOHARM (Dec 2025): omissions = 76.6% всех clinical-LLM harm-errors

Title: “First, do NOHARM: towards clinically safe large language models” (Wu D. et al., 54 соавтора; lead — Stanford). arXiv:2512.01241, submitted 2025-12-01, revised 2025-12-17. PDF локально: /home/i/vault/wiki/bloodgpt/raw/noharm-2025.pdf (44 страницы).

Институции (17+ unique organizations, Stanford-dominant):

Stanford University (multiple departments) + Harvard Medical School + Mass General Brigham + UCSF + Cambridge Health Alliance + Beth Israel Deaconess + Brigham and Women’s Hospital + Massachusetts General Hospital + UT MD Anderson + University of Michigan + Wisconsin-Madison + Broad Institute of MIT and Harvard + MIT Institute for Medical Engineering and Science + University of British Columbia + University of Alberta + One X Group (Singapore) + Stanford Clinical Excellence Research Center.

Corresponding author: Jonathan H. Chen (jonc101@stanford.edu).

Конфигурация:

100 real primary-care-to-specialist eConsult cases (Stanford Health Care)
29 врачей с board-сертификацией + субспециалисты для разметки (12 747 экспертных оценок, 95.5% совпадений между разметчиками)
4,249 clinical management options across 10 medical specialties
31 LLMs: Gemini 2.x, Claude 3.7/4.5, GPT-4o/5, o1/o3/o4 mini, DeepSeek R1/V3.1, Llama 3/4, Qwen3, Mistral, Grok, Kimi K2, AMBOSS LiSA 1.0, Glass Health 4.0
10 board-certified internal medicine physicians для head-to-head (на 30% subset cases)

Метрики: Safety (severity-weighted harm avoidance), Completeness (recall of appropriate actions), Restraint (precision against equivocal actions), NNH (Number Needed to Harm).

Ключевые findings:

Errors of omission = 76.6% всех severe harm-errors (95% CI: 76.4–76.8%). Random chance baseline omission rate — 63.9%, paper-models statistically выше (FDR P<0.001). Это primary failure mode.
22.2% случаев показали potential for severe harm (worst model). Best model (Gemini 2.5 Flash) — 11.8 severe errors. Все LLMs делают harm на nontrivial rates.
Top-5 моделей statistically indistinguishable (Dunnett’s FDR P>0.05): Gemini 2.5 Flash, AMBOSS LiSA 1.0, Claude Sonnet 4.5, Gemini 2.5 Pro, DeepSeek R1.
Bottom 3: GPT-4o mini, o4 mini, o3 mini.
Безопасность слабо коррелирует с медицинскими benchmark-ами знаний: r=0.61 (GPQA-Diamond), r=0.64 (LMArena), r=0.51 (MedQA). Хороший балл по USMLE ≠ безопасный клинический совет.

Carry-over (отдельная заметка нужна): эта тема — про разные виды медицинских benchmark’ов и их предсказательную ценность для клинической безопасности. Стоит выделить в свою page (TBD) — что измеряют GPQA-Diamond / LMArena / MedQA / USMLE / NOHARM, какие есть, какие используем мы для собственной оценки, какие не подходят.
Топовые LLM опережают врачей-терапевтов на +9.7% (CI 7.0–12.5%). В среднем LLM лучше людей по полноте на +15.6% (CI 11.4–19.9%). Это neraz часть aргументационной базы — AI в медицинском use-case уже on-par или выше generalist уровня по полноте действий, при этом проблема в omissions и safety calibration, не в knowledge gap.
Multi-agent (Advisor + Guardian) добавляет +8.0% safety vs solo (CI 4.0–12.1%). Top config: open-source Llama 4 Scout (Meta) + Gemini 2.5 Pro (Google) + LiSA 1.0 (RAG, AMBOSS). Diversity = formula.
Safety-Restraint inverted-U: модели, gaming high precision (OpenAI o3 mini, Gemini 3 Pro), жертвуют safety. “Стать осторожнее” увеличивает omissions. Контр-интуитивный finding.
“No Intervention” baseline (всегда reassurance only) — ХУЖЕ всех LLMs. 29 severe errors, NNH 3.5. Worst LLM (GPT-4o mini, NNH 4.5) — всё равно безопаснее, чем “ничего не делать”. Critical для “compared to what?” product framing.

Свидетельство Василия (fireflies digest 2026-04-23 [Н2]):

«Самая большая проблема получается в том, что он не то, что он замечает, в том, что он забывает и не говорит.»

Совпадает с 76.6% omission-errors. Insight подтверждён эмпирически.

Quantitative inaccuracies в Vassily-пересказе (для протокола): 31 LLM (не 35), 29 врачей-аннотаторов на 100 cases (не 100 врачей). Качественный insight тот же.

Important COI flag: AMBOSS LiSA 1.0 — топовая модель в рейтинге, и сотрудники AMBOSS — соавторы статьи (это и значит COI = Conflict of Interest, конфликт интересов: авторы оценивают свою же модель). Это дисклеймер раскрыт в секции Competing Interests статьи (стандартная практика в академических публикациях), но полная независимость рейтинга требует осторожности — модели от authors могут benefit от lookahead bias / промпт-настройки. Glass Health 4.0 — другая коммерческая RAG в статье, тоже среди авторов.

Public benchmark + code:

→ Можем прогнать нашу архитектуру на этом dataset, получить Safety / Completeness / Restraint scores в одной шкале с frontier models. См. [О1].

[Н2] FDA Jan 6, 2026 (CES Makary) — relaxation для low-risk

Commissioner Marty Makary, address at Consumer Electronics Show, Las Vegas. Не press release, а speech-driven policy announcement.

CDS software с single-recommendation outputs → enforcement discretion (no FDA review нужен, если другие CDS criteria met)
Non-medical-grade wearables → exempt from regulation
Stated rationale: “at Silicon Valley speed” + investor-friendly

STAT News headline (Jan 6): “FDA pulls back oversight of AI-enabled devices, wearables — could allow unregulated generative AI tools into clinical workflows”.

Для нас: Jan 6 deregulation не applies — мы medical-grade interpretation. Остаёмся в regulated слое, где доминирует следующий [Н3].

[Н3] FDA Purolea warning letter (April 2, 2026) — first AI-misuse cGMP citation

Letter ID MARCS-CMS 722591 / Ref 320-26-58, issuing office CDER (Center for Drug Evaluation and Research). Recipient: Maria N. Mattina, owner of Purolea Cosmetics Lab (Livonia, MI). Inspection 28-30 Oct 2025; warning issued 2 Apr 2026.

Контекст компании: OTC homeopathic drug products маркируемые как лечение shingles и genital herpes (“Dermveda Extra Strength…”). Unapproved new drugs (§ 505(a) FD&C Act). Несколько категорий нарушений: insanitary conditions, microbial testing missing, component testing missing, и AI misuse.

AI-секция (отдельным violation-блоком):

“Inappropriate Use of Artificial Intelligence in Pharmaceutical Manufacturing”

Что компания делала: использовала AI agents для генерации drug product specifications, procedures, master production / control records, batch records — “to be in compliance with FDA requirements”. Failed to review.

Verbatim FDA-positions:

“If you use AI as an aid in document creation, you must review the AI generated documents to ensure they were accurate and actually compliant with CGMP. Your failure to do so is a violation of 21 CFR 211.22(c).”

“Overreliance on artificial intelligence for your drug manufacturing operations was also documented during the inspection.”

“You replied that you were not aware of the legal requirement, as the AI agent you used (b)(4), never told you it was required.”

“Any output or recommendations from an AI agent must be reviewed and cleared by an authorized human representative of your firm’s QU in accordance with section 501(a)(2)(B) of the FD&C Act.”

Cited regulatory framework:

21 CFR 211.22(c) — Quality Unit responsibilities, document review
21 CFR 211.100 — process validation prior to distribution
§ 501(a)(2)(B) FD&C Act — adulteration when CGMP not followed

Что precedent устанавливает:

AI ≠ регуляторный авторитет. “AI didn’t tell me” (AI мне не сказал) — explicitly отвергается как защита со стороны компании если случается ошибка/нарушение. То есть нельзя свалить ответственность на ИИ: «AI не выдал предупреждение, значит мы не виноваты». FDA позиция (Purolea letter): authorized human representative должен clear AI outputs, иначе компания несёт responsibility сама. Защита “ИИ не предупредил” — не работает в регулируемом контексте.
AI-сгенерированные документы → require human review by Quality Unit. Это regulatory requirement, не nice-to-have.
Process validation pre-deployment — обязательна; AI не освобождает.
“Inappropriate AI use” = stand-alone cGMP deficiency. FDA не сваливает в общее “inadequate quality system” — выделяет отдельной violation-секцией.

Reconcile с Vassily-пересказом:

✅ “Требования, не рекомендации” → подтверждено для regulated workflow
✅ “Ответственность на компании, не LLM vendor” → explicit FDA position
✅ “Human-in-the-loop” → требование “authorized human representative of QU”
⚠️ “SOC2, TIS2” — не в этом letter; вероятно partner / payer requirements, не FDA direct
⚠️ Дата “Apr 2026” → действительно Apr 2 (конкретный warning letter, не general clarification)

Следствия для BloodGPT

(Черновик — требует валидации Ильдаром.)

Primary failure mode = omission (NOHARM 76.6%) + AI-omission не освобождает от accountability (Purolea). Pipeline-design должен HAVE coverage check (поймать omission empirically) И documented Quality Unit-equivalent review (formalize accountability). “AI пропустил” — не оправдание ни perceptually, ни юридически.
MedQA-скоры не предсказывают safety (r ≤ 0.64). Если мы используем medical-knowledge benchmarks как evidence of safety для investor / partner — это misleading. NOHARM-like benchmark или explicit gap.
Multi-agent + RAG + diverse organizations = top safety config (NOHARM). Наша pipeline-архитектура — formally validated paper-ом. Reportable advantage в pre-sales / due diligence.
“No Intervention” baseline хуже всех LLM (NNH 3.5 vs 4.5–11.5; меньше NNH = больше вреда). Это значит: если бы пациент не получил вообще никакого совета — потенциальный harm выше чем после совета любого LLM (даже худшего). Логика “Compared to what?” — сравнивай не с идеальным врачом (который во многих странах недоступен / дорог / есть очередь на месяцы), а с реальной альтернативой нашего пользователя = absence of care (никакого медицинского совета вообще). На underserved markets (страны без широкого доступа к врачам, или ситуация когда визит недоступен прямо сейчас) — даже неидеальный AI лучше чем ничего. Это сильный argument для positioning: мы competing с тишиной, не с топовым endocrinologist’ом.
Safety-Restraint inverted-U → don’t over-tune for refusal. Если модель “слишком осторожна”, она производит больше silent omissions. Балансируем coverage и accuracy, не оптимизируем safety через restraint.
“Authorized human representative of QU” = formal role, не handwave. В нашей team подразумевает: clinical lead с named authority подписывать validation / retraining / deployment + documented review steps для major prompt / template / output design changes + audit trail (версии промптов, outputs reviewed, sign-off dates).
Process validation pre-deployment = hard requirement в regulated context. Документировать: какие cases прогоняли pre-launch, какой error-rate threshold passed, какой clinical sign-off получен. Без этого — мы в зоне риска Purolea-like enforcement если попадём under FDA jurisdiction.
Public NOHARM benchmark — strategic asset. Прогон даёт: (a) Safety/Completeness scores в одной шкале с Gemini 2.5 Pro / Claude Sonnet 4.5; (b) data для investor / regulatory dialogue; (c) gap analysis (где наша pipeline недостаточна — signal для R&D).

Открытые вопросы [О]

[О1] Прогон NOHARM на нашей архитектуре

Public dataset: github.com/HealthRex/noharm. Прогнать наш pipeline (multi-agent, single-agent, RAG-on/off) против benchmark. Сравнить с paper top-5 (Gemini 2.5 Flash / LiSA 1.0 / Claude Sonnet 4.5 / Gemini 2.5 Pro / DeepSeek R1).

Оценка трудозатрат: 1–2 недели инжиниринга + дни анализа. Output: Safety / Completeness / Restraint scores нашей архитектуры в одной шкале с frontier. Использовать в investor pitch + regulatory positioning. (Это направление подтверждено как интересное.)

[О2] Quality Unit role в нашей команде

Что значит “authorized human representative of QU” в нашем org-context? Кто это (clinical director / specially appointed clinician-overseer / process-defined committee), и как documenting? Это organisational change, не only technical.

[О3] Внутренний investor-doc / safety policy

Ильдар упоминал docx в Screenshots-папке про нашу regulatory position. Не нашли автоматически. Нужен точный путь — затем ингестим как [Н4] / отдельную concept page.

Источники

Источники: ¹ ² ³ ⁴ ⁵ ⁶ ⁷ ⁸ ⁹ ¹⁰.

Сноски

NOHARM paper, accessed 2026-05-17, https://arxiv.org/abs/2512.01241. ↩
NOHARM benchmark + code, accessed 2026-05-17, https://github.com/HealthRex/noharm. ↩
NOHARM interactive leaderboard, accessed 2026-05-17, https://bench.arise-ai.org/. ↩
Stanford HAI context, accessed 2026-05-17, https://hai.stanford.edu/news/holistic-evaluation-of-large-language-models-for-medical-applications. ↩
AMBOSS press release, accessed 2026-05-17, https://www.amboss.com/us/newsroom/noharm-study. ↩
FDA Jan 6 2026 deregulation (STAT), accessed 2026-05-17, https://www.statnews.com/2026/01/06/fda-pulls-back-oversight-ai-enabled-devices-wearables/. ↩
FDA Purolea warning letter, accessed 2026-05-17, https://www.fda.gov/inspections-compliance-enforcement-and-criminal-investigations/warning-letters/purolea-cosmetics-lab-722591-04022026. ↩
Pro Pharma analysis (Purolea AI section), accessed 2026-05-17, https://www.propharmagroup.com/thought-leadership/ai-cgmp-fdas-1st-warning-letter-non-compliant-manufacturing. ↩
RAPS analysis, accessed 2026-05-17, https://www.raps.org/resource/fda-warns-firm-for-inappropriate-use-of-ai-in-drug-manufacturing.html. ↩
Дайджест встречи, 2026-04-23, https://github.com/Realai-plus/meeting-digests/blob/main/data/digest/2026/04/2026-04-23T11%3A58%3A47.000Z_%D0%9F%D1%80%D0%BE_FDA%3F_01KPX39YPADYSZX7281KJM0Y0F.md — Fireflies digest «Про FDA?» 2026-04-23: `. ↩

Quartz 4

Explorer