Установка Ильдара принята Apr 1, реализация раскатывается через скилл auto-verify и Agent Browser. Полностью замкнутый цикл (LLM пишет → LLM тестирует → человек получает отчёт) ещё не достигнут.
Контекст
LLM пишет код быстро и дёшево — задачи разрастаются, в одну фичу запихивается 10 улучшений. Тестирование руками не поспевает: сквозной автоматизированный прогон команда ещё не построила. Apr 1 Артём поднял это как корень выгорания (см. выгорание-системное-не-личное) и параллельно — как недоверие к LLM-тестированию: когда LLM пишет код и LLM же тестирует, страшно — нет гарантии что покрыты реальные failure modes.
Выбрали: ручное тестирование — анти-паттерн
Если начинаешь тестировать руками — значит делаешь что-то не так, как и с написанием кода руками.
«если я тестирую что-то руками, я начинаю делать что-то не так, как с кодом было. Если я пишу код руками, я делаю что-то не так.» — Ильдар, Apr 1
Направление — увеличивать долю токенов на автоматизацию проверок относительно разработки. Ручное тестирование признаётся симптомом провала автоматизации, а не нормальной работой инженера.
Почему
- При темпе fast-shipping LLM-кода ручной прогон становится ботлнеком — задержка между «фича написана» и «фича проверена» растёт.
- Воспроизводимость: автоматический прогон по сценарию даёт одинаковый результат каждый раз; ручной — зависит от того, какие пути инженер вспомнил проверить.
- Снимает нагрузку с инженеров — прямой вклад в системное выгорание.
- Соответствует позиционированию medical-as-instrument-not-recommendation: прибор подразумевает воспроизводимость, ручная проверка её не даёт.
Следствия
- Скилл
auto-verify— два режима (DESIGN: что проверять, RUN: typecheck + curl + Inngest + Agent Browser + Bruno). - Agent Browser через Vercel — основная поверхность UI-тестов.
- Скриншоты + логи + отчёты в Telegram — как канал доставки результата проверки человеку.
- Confidence score / отчёт для LLM-кодящих изменений (по аналогии с CodeRabbit) предложен Артёмом, не реализован — мог бы повысить доверие к автоматическим проверкам.
Известные ограничения автоматизации
- Blindspot описания. Если разработчик при постановке задачи LLM что-то не упомянул — LLM не будет знать про этот сценарий, напишет тест, который пройдёт успешно, и проблема останется незамеченной до ручной проверки. Vlad, Apr 23: «если ты сам не проверишь и сам досконально все не опишешь и про что-то забудешь, то LLM не будет знать про то, что ты это забудешь. И будет думать и проверять, и говорить, что все хорошо, пока ты сам глазами не посмотришь». Это системный риск автогенерации тестов — установка про красный флаг ручного тестирования не отменяет необходимость широкого описания scope при постановке задачи.
Открытые вопросы
- Что делать когда автоматический прогон падает на флаки — не разрешает ли это «временно прогнать руками» в обход установки.
- Граница: сложные UI-сценарии (мульти-тенант, 5 шагов опросника, медицинские edge cases) сейчас покрывает Agent Browser, но не везде стабильно.
- Кто проверяет что автоматический отчёт реально проверил то что нужно — или это сводится к наблюдению Артёма «страшно, потому что нет гарантии».
- Как смягчить blindspot описания — checklist для постановки задач LLM? coverage-meta-judge который проверяет что задание само по себе достаточно покрыто?
Связано
- team-dynamics — установка как ответ на выгорание и недоверие к LLM-тестированию
- medical-as-instrument-not-recommendation — позиционирование, к которому установка относится
- уроки — методологический урок
Источники
Сноски
-
2026-04-01 «Портирование LOINC» ([Н8] разрастание задач — тестирование не поспевает; [Н9] недоверие к тестированию LLM; [Р3] ручное тестирование = красный флаг), accessed 2026-05-17, https://github.com/Realai-plus/meeting-digests/blob/main/data/digest/2026/04/2026-04-01T11%3A07%3A08.000Z_портирование_loinc_01KN4BKJSP8PSGBSN23VFZ25M0.md. ↩
-
2026-04-23 «Про FDA?» ([Н4] LLM-тесты blindspot — Vlad о невозможности покрыть незаявленные сценарии), accessed 2026-05-17, https://github.com/Realai-plus/meeting-digests/blob/main/data/digest/2026/04/2026-04-23T11%3A58%3A47.000Z_Про_FDA%3F_01KPX39YPADYSZX7281KJM0Y0F.md. ↩