Claude Opus 4.8 — Honesty и code review: примерно в 4 раза меньше незамеченных дефектов, harness из 6 шагов и effort xhigh
Сеньорам и OSS-мейнтейнерам не нужна модель, которая «звучит уверенно». Нужны ревью, которые отмечают слабые доказательства, не благословляют битые diff и показывают неопределённость до merge. В анонсе Claude Opus 4.8 — сдвиг Honesty: в оценках Opus 4.8 примерно в 4 раза реже, чем Opus 4.7, пропускает дефекты в своём коде без замечания — не ноль пропусков, но скачок «не пускать баги тихо».
Статья — практический harness code review: effort (high, xhigh), API claude-opus-4-8, system в Messages API и лестница из 6 шагов локально или на опциональном Mac mini. Сочетайте с GitHub Actions на арендованном Mac и batch workflow micro-apps.
Раскрытие: KvmZone только если изолированный арендованный Mac гоняет review без секретов ноутбука. Большая часть — на вашем железе.
Сноска: при запуске Anthropic указывала $5/M input, $25/M output; сверьте на сайте.
Почему честность важнее «helpful» в code review
| Сбой | Цель Honesty Opus 4.8 |
|---|---|
| Штамп LGTM | Слабые тесты и непроверенные утверждения |
| Галлюцинации API | Меньше утверждений о библиотеках без доказательств |
| Молчаливая слепота к своим патчам | Больше неопределённости по своим diff |
| Много слов, мало фиксов | Острее суждение в agent-задачах (ранние отзывы) |
Железо: спеки Mac mini при offload пакетов review на стационарный SSH-хост.
Что изменилось в Opus 4.8 для ревьюеров
| Возможность | Вывод для оператора |
|---|---|
| Honesty / calibration | В evals ~в 4 раза меньше незамеченных дефектов vs Opus 4.7 |
| Effort control | По умолчанию high; xhigh/max для глубокого async |
| Fast mode | 2,5× скорость, дороже токен — triage, не финальный gate |
| Динамические workflow (Claude Code) | Параллельные субагенты для больших миграций |
| Messages API system entries | Обновление permissions/бюджета mid-task без поломки кэша |
Id модели API: claude-opus-4-8.
Архитектура: честный harness review
PR diff → линтеры → Opus 4.8 (xhigh) → обязательный блок «неопределённости» → merge человеком
Файлы и роли
| Часть | Путь / настройка | Назначение |
|---|---|---|
| Prompt review | ~/code-review/prompts/opus-4-8-honest.md | Uncertainties + file:line |
| Вход diff | git diff origin/main...HEAD | Ground truth для утверждений |
| Effort | xhigh в Claude Code; effort UI на claude.ai | Глубина vs расход токенов |
| Политика mid-task | Запись system в messages[] | Чередовать «нет merge при красных тестах» |
| Аудит-лог | ~/code-review/logs/YYYY-MM-DD-<pr>.json | Цитаты модели для споров OSS |
Скелет prompt
You are a code reviewer. Rules:
1. Cite file:line for every defect claim.
2. Add an "Uncertainties" section listing what you could not verify from the diff alone.
3. If tests/logs are not provided, say "not verified" — do not infer pass.
4. Separate "blocking" vs "nit" with counts.
Матрица: effort, скорость, merge
| Профиль | Effort / mode | Когда | Политика merge |
|---|---|---|---|
| Triage | Fast mode или низкий effort | Скан большого repo | Нет права merge |
| Стандартный PR | high по умолчанию | Feature-ветки | Block без тестов |
| Security / payment | xhigh / max | Auth, crypto, concurrency | Block + человек |
| Ночной OSS-sweep | xhigh async на выделенном хосте | 50+ мелких PR | Только auto-issue |
Рекомендация: Diff с auth, деньгами или concurrency → xhigh + Uncertainties в PR. Только docs → high.
Runbook code review в 6 шагов
Step 1 — Закрепить toolchain
node -v # если JS harness
git --version
# Подтвердить claude-opus-4-8 в CLI
Step 2 — Снять артефакты diff
git fetch origin
git diff origin/main...HEAD > /tmp/pr.diff
git log --oneline origin/main...HEAD > /tmp/pr.commits.txt
Порог: /tmp/pr.diff не пуст; commits совпадают с описанием PR.
Step 3 — Сначала детерминированные gates
npm run lint && npm test
# или go test ./..., cargo test и т.д.
Порог: exit 0 до модели.
Step 4 — Вызов Opus 4.8 с честным prompt
export REVIEW_MODEL=claude-opus-4-8
export REVIEW_EFFORT=xhigh
# CLI: /tmp/pr.diff + prompt → review.md
Секции: Blocking, Nits, Uncertainties, Suggested tests.
Step 5 — Вручную проверить claims «4× honesty»
Взять три случайных утверждения:
rg -n "claimed_function_name" src/
sed -n '120,140p' path/from/review.md
Два из трёх не проходят grep → снизить доверие, xhigh со строгим prompt.
Step 6 — Опубликовать артефакт review
Прикрепить review.md; URL CI. OSS: редактировать секреты — гигиена SSH.
Сценарий A — Только ноутбук
Когда: один repo, PR < 2k строк, секреты локально.
Шаги 1–6 на MacBook Pro. high по умолчанию; xhigh для release.
Сценарий B — Опциональный арендованный Mac для batch
Когда: 10+ SKU micro-apps из batch OpenClaw.
Арендованный Mac mini M4: чистая среда, стабильный launchd, отдельно от личного Keychain. Опционально — Honesty на стороне модели. Compare регионы на странице pricing.
Устранение неполадок
Модель всё ещё LGTM при битом diff
Motif : Тесты красные; review «looks good».
Correctif :
- Вставить stderr тестов; запрет review без логов.
- Поднять effort до
xhigh. - System: «при падении тестов — только анализ сбоя».
Слишком длинный review без file:line
Motif : 2000 слов, ноль file:line.
Correctif :
- Макс 10 пунктов с
path:line. - Снизить effort для nits;
xhighтолько для blocking.
FAQ
claude-opus-4-8 = динамические workflow Claude Code?xhigh для merge на рискованных diff.Читать также
Нужен Mac для изолированного batch review?
Сравните регионы на странице pricing. Honesty — на стороне модели; арендуйте только для ширины async-задач.