Карта связей биомаркеров (biomarker graph)

Структура где для каждого биомаркера зафиксированы: препараты влияющие на него, связанные заболевания, межбиомаркерные взаимодействия. В команде называют «карта связей» / «карты связи биомаркеров»; в технической имплементации — JSON-графы.

Это не справочник референсных диапазонов и не каталог биомаркеров — это медицинская семантика отношений, на которой строится интерпретация. Когда биомаркер аномальный, граф даёт связанные биомаркеры и контекст, которые надо учесть при объяснении и при формулировке рекомендации.

Зачем нужно

Старый алгоритм генерации описывает панель только по биомаркерам внутри неё — соседние из других панелей в LLM-контекст не подаются. Из-за этого межпанельные корреляции в отчёт не попадают (учитываются только в test overview, и то не гарантированно).

Новая архитектура (Apr 9, Вася): из FHIR загружаются все данные пациента, дальше каждый биомаркер обрабатывается отдельным запросом в LLM по своей карте связей. Количество биомаркеров не имеет значения — они параллельны. Один input → один output, консистентность встроена.

Это то, что Катя обнаружила при тестировании демо-пациентов: связи между биомаркерами реализованы только в версии для Ашуты, в B2C/обычной версии этого нет.

Что попадает в граф для одного биомаркера

Препараты, которые на него влияют (и в какую сторону)
Заболевания, при которых уровень меняется
Другие биомаркеры, с которыми есть прямая зависимость
Ссылки на медицинские источники для каждой связи
(новое) Клиническое обоснование для каждой связи — добавлено Артуром после первичной разметки

Объём для полного покрытия — оценочно ~2400 связей.

Технический формат

Раньше — Markdown для каждого биомаркера.
Перевод на JSON-графы (Артур, апрель 2026). LLM на этапе обработки определяет домен биомаркера и подтягивает связанные по графу.
Топ-100 биомаркеров описаны конкретно. Остальные — на уровне домена (липопротеиды, гормоны щитовидки и т.д.) — для них работает доменное описание, не индивидуальное.

Кто и как делает

Катя строит карты вручную с Claude по своим гайдансам — медицинская валидация и собственно семантика. Один раздел (гематология, 7 биомаркеров) → ~500 строк → 2.5–3 часа чистой работы.
Артур — инженерная инфраструктура: формат JSON, LLM-судьи, тесты консистентности, оптимизация пайплайна. Apr 8 ему поручено наблюдать за работой Кати и искать где помочь инструментами.
Финальная медицинская валидация — от Кати только после подтверждения технической консистентности (≥20 прогонов).

Automation infrastructure

Поиск источников делегирован агенту с PubMed MCP (corporate connection): индекс peer-reviewed литературы с собственным поиском, без скачивания PDF. Агент формирует список ссылок для каждого биомаркера; Катя апрувит / реджектит через UI с объяснениями. Реджект-объяснения возвращаются в промпт как материал для итерации.

Качество источников стало с peer-reviewed уровня вместо StatPirus, без ручного отбора Катей — это снимает прежнее ограничение для medical-device позиционирования (см. medical-sources).

Bottleneck сместился с поиска на валидацию: Катя теперь не ищет источники, а проверяет найденное. Текущий reject rate ≈ 25%; снижение через итерацию промптов на основе reject reasons.

Carry-over: измерить новый темп через 1-2 недели и обновить snapshot ниже. Сравнить с прежним 1-2 биомаркера/день.

Состояние (snapshot ~Apr 20 2026)

Готово: десятки биомаркеров для демо-пациентов + 6 панелей сделанных ранее.
Темп — 1–2 биомаркера в день.
Цель — выйти на ~40 в неделю или 200 за 2 недели.
Тестирование консистентности завершено: 5 прогонов × 12 биомаркеров — консистентность отличная. Судья интерпретаций готов, судья для связей ещё надо прогонять отдельно.
В B2C-пайплайн карты не интегрированы. Используются в Ашуте.

Carry-over: цифры (количество готовых биомаркеров, темп) меняются — обновлять при следующем readback. Фиксированные характеристики (формат, объём в ~2400, top-100 конкретно + остальные по доменам, разделение Катя↔Артур) живут дольше.

Решения которые с этим связаны

Для normal-параметров — базовая интерпретация без подтягивания графа. Связи нормалов пропускаются: их информация всё равно попадает в контекст когда обрабатывается аномальный связанный биомаркер. Apr 20 daily.
Сегмент дома престарелых — медицинские кейсы для Техасского заказчика строятся через демонстрацию важности трендов и карт связей для пожилых.

Стратегическая роль

Вася (Apr 9): «такого уровня детализации с ссылками на источники в публичных платформах нет» — это уникальный артефакт. Возможность проследить всю историю биомаркера со ссылкой на конкретный гайдлайн — аргумент перед FDA и перед врачами. Этап 3 исследования с Ашутой — построение медицински валидированных карт связей с 100% точностью и консистентностью.

Открытые вопросы

Когда карты связей попадают в B2C-пайплайн (сейчас только Ашута).
~~Как ускорить темп~~ — частично адресовано через PubMed MCP automation (Apr 27). Bottleneck сместился с поиска на валидацию Катей. Конкретный новый темп — TBD.
Прогон судьи связей отдельно от судьи интерпретаций.
Покрытие за пределами топ-100 — доменное описание работает или нужны конкретные карты для следующих сотен.
Для каких клиентов / сегментов уровень детализации карт нужен полный, а где достаточно доменного.
Reject rate стабилизация (Apr 27 ≈ 25%) — что считаем приемлемым long-term, и как итерация промптов это снижает.

Связано

reference-ranges — соседняя сущность, не путать: ranges — границы нормы, graph — семантика отношений
loinc — биомаркер идентифицирован LOINC-кодом, а карта связей навешивается поверх
medical-sources — иерархия источников; PubMed MCP перевёл автоматический поиск на peer-reviewed уровень
100-percent-accuracy-debate — точность и консистентность карт связей — отдельная цель Этапа 3 Ашуты
medical-as-instrument-not-recommendation — карта связей как опора позиционирования «прибор», обоснованного источниками
recognition-enrichment-hourglass — карты подключаются на нижнем конусе (enrichment) при интерпретации
biomarker-analysis-pipeline — Diagnostic + Retriever + Generator потребляет граф для каждого биомаркера
team-dynamics — масштаб валидации (контекст про объём работы Кати)

Источники

Источники: ¹ ² ³ ⁴.

Сноски

2026-04-08 «Kate-V-N intro» (масштаб валидации: 22 панели × 200–400 строк, не 90 биомаркеров; контекст препаратов, заболеваний, межбиомаркерных взаимодействий), accessed 2026-05-17, https://github.com/Realai-plus/meeting-digests/blob/main/data/digest/2026/04/2026-04-08T12%3A30%3A00.000Z_Kate_-_V_-_N_intro_01KNPBDE52HS5F6EHCTGPYXFZQ.md. ↩
2026-04-09 «Беклог проектов» (новая архитектура — карта связей на каждый биомаркер, параллельная обработка; стратегическая ценность для FDA), accessed 2026-05-17, https://github.com/Realai-plus/meeting-digests/blob/main/data/digest/2026/04/2026-04-09T14%3A08%3A50.000Z_Беклог_проектов_01KNS960XNDSP0BK956RBTV6DE.md. ↩
2026-04-13 «Про тестирование генерации для Кати» (старый алгоритм panel-internal vs новый с межпанельными связями; тренд-анализ только по своему параметру), accessed 2026-05-17, https://github.com/Realai-plus/meeting-digests/blob/main/data/digest/2026/04/2026-04-13T13%3A19%3A58.000Z_Про_тестирование_генерации_для_Кати._01KP3FZDSN35F2R7F9M7KN72C8.md. ↩
2026-04-20 daily (~Apr 20 snapshot: 23 биомаркера + 6 панелей, темп 1–2/день, цель 40+/неделю; для normal-параметров граф не подтягивается; формат JSON-графы, top-100 + остальные по доменам; консистентность 5×12 отлично; судья связей не прогнан), accessed 2026-05-17, https://github.com/Realai-plus/meeting-digests/blob/main/data/digest/2026/04/2026-04-20T08%3A00%3A00.000Z_Daily_%2B_Sprint_Review%26Planning_01KP3FYH87ETE2EHJN755ZTRWW.md. ↩

Quartz 4

Explorer