Ручное тестирование = красный флаг

Установка Ильдара принята Apr 1, реализация раскатывается через скилл auto-verify и Agent Browser. Полностью замкнутый цикл (LLM пишет → LLM тестирует → человек получает отчёт) ещё не достигнут.

Контекст

LLM пишет код быстро и дёшево — задачи разрастаются, в одну фичу запихивается 10 улучшений. Тестирование руками не поспевает: сквозной автоматизированный прогон команда ещё не построила. Apr 1 Артём поднял это как корень выгорания (см. выгорание-системное-не-личное) и параллельно — как недоверие к LLM-тестированию: когда LLM пишет код и LLM же тестирует, страшно — нет гарантии что покрыты реальные failure modes.

Выбрали: ручное тестирование — анти-паттерн

Если начинаешь тестировать руками — значит делаешь что-то не так, как и с написанием кода руками.

«если я тестирую что-то руками, я начинаю делать что-то не так, как с кодом было. Если я пишу код руками, я делаю что-то не так.» — Ильдар, Apr 1

Направление — увеличивать долю токенов на автоматизацию проверок относительно разработки. Ручное тестирование признаётся симптомом провала автоматизации, а не нормальной работой инженера.

Почему

При темпе fast-shipping LLM-кода ручной прогон становится ботлнеком — задержка между «фича написана» и «фича проверена» растёт.
Воспроизводимость: автоматический прогон по сценарию даёт одинаковый результат каждый раз; ручной — зависит от того, какие пути инженер вспомнил проверить.
Снимает нагрузку с инженеров — прямой вклад в системное выгорание.
Соответствует позиционированию medical-as-instrument-not-recommendation: прибор подразумевает воспроизводимость, ручная проверка её не даёт.

Следствия

Скилл auto-verify — два режима (DESIGN: что проверять, RUN: typecheck + curl + Inngest + Agent Browser + Bruno).
Agent Browser через Vercel — основная поверхность UI-тестов.
Скриншоты + логи + отчёты в Telegram — как канал доставки результата проверки человеку.
Confidence score / отчёт для LLM-кодящих изменений (по аналогии с CodeRabbit) предложен Артёмом, не реализован — мог бы повысить доверие к автоматическим проверкам.

Известные ограничения автоматизации

Blindspot описания. Если разработчик при постановке задачи LLM что-то не упомянул — LLM не будет знать про этот сценарий, напишет тест, который пройдёт успешно, и проблема останется незамеченной до ручной проверки. Vlad, Apr 23: «если ты сам не проверишь и сам досконально все не опишешь и про что-то забудешь, то LLM не будет знать про то, что ты это забудешь. И будет думать и проверять, и говорить, что все хорошо, пока ты сам глазами не посмотришь». Это системный риск автогенерации тестов — установка про красный флаг ручного тестирования не отменяет необходимость широкого описания scope при постановке задачи.

Открытые вопросы

Что делать когда автоматический прогон падает на флаки — не разрешает ли это «временно прогнать руками» в обход установки.
Граница: сложные UI-сценарии (мульти-тенант, 5 шагов опросника, медицинские edge cases) сейчас покрывает Agent Browser, но не везде стабильно.
Кто проверяет что автоматический отчёт реально проверил то что нужно — или это сводится к наблюдению Артёма «страшно, потому что нет гарантии».
Как смягчить blindspot описания — checklist для постановки задач LLM? coverage-meta-judge который проверяет что задание само по себе достаточно покрыто?

Связано

team-dynamics — установка как ответ на выгорание и недоверие к LLM-тестированию
medical-as-instrument-not-recommendation — позиционирование, к которому установка относится
уроки — методологический урок

Источники

Источники: ¹ ².

Сноски

2026-04-01 «Портирование LOINC» ([Н8] разрастание задач — тестирование не поспевает; [Н9] недоверие к тестированию LLM; [Р3] ручное тестирование = красный флаг), accessed 2026-05-17, https://github.com/Realai-plus/meeting-digests/blob/main/data/digest/2026/04/2026-04-01T11%3A07%3A08.000Z_портирование_loinc_01KN4BKJSP8PSGBSN23VFZ25M0.md. ↩
2026-04-23 «Про FDA?» ([Н4] LLM-тесты blindspot — Vlad о невозможности покрыть незаявленные сценарии), accessed 2026-05-17, https://github.com/Realai-plus/meeting-digests/blob/main/data/digest/2026/04/2026-04-23T11%3A58%3A47.000Z_Про_FDA%3F_01KPX39YPADYSZX7281KJM0Y0F.md. ↩

Quartz 4

Explorer