Agentiskt arbetsflöde

Agentroller och modellroutning

Arkitekt, testförfattare, redaktör, verifierare, granskare — och vilken modell var och en kör.

Maskinöversatt från engelska — källa: agent-roles-and-model-routing.md.

Implementeringsstatus: Designanteckning — beskriver den tilltänkta arbetsdelningen mellan agenter och modeller för PRD-till-PR-pipelinen. Ingen av de fem namngivna rollerna existerar som agent-promptfiler idag; kolumnen "Närmaste analog idag" listar den befintliga ytan som fyller varje roll manuellt.

Byggt idag: de tre granskande underagenterna — resolver-reviewer, dashboard-reviewer, perf-reviewer — spårade i .claude/agents/*.md (åter-inkluderade via en .gitignore-negation) och anropade från steg 5 i pipelinen. Befintliga prompts för engineering-teamet i be-agent-service/agents/prompts/engineering/* (orchestrator, backend-specialist, frontend-specialist, db-architect-specialist, infrastructure-specialist, ux-designer-specialist, senior-code-reviewer, verification-specialist) är scope-färgade analoger till Editor-/Verifier-rollerna, inte de namngivna rollerna i sig.

Mål-tillägg: architect.md, test-writer.md, editor.md, verifier.md, reviewer-feedback.md under be-agent-service/agents/prompts/engineering/, var och en routad via modelladaptern som beskrivs i model-and-vendor-agnosticism.md.

De fem rollerna

Roll Steg den äger Standardmodell Varför Närmaste analog idag
Architect 1 (läs PRD), 2 (spec) Reasoning-klass (Opus / motsvarande) En dyr körning som producerar en spec resten av pipelinen kan luta sig mot. Dyr men sällsynt. Människa + Cursor Composer / Claude Code (Opus) som skriver PRD:n direkt under wiki/plans/; ingen wiki/specs/<feature>.md produceras ännu.
Test-writer 3 Mid (Sonnet) Skriver misslyckande tester från specen. Mekaniskt när specen är bra — behöver inte Opus. Editor-agenten (Composer / Claude Code) skriver tester inline som del av samma iteration; ingen påtvingad "tester måste falla först"-grind.
Editor 4 Mid (Sonnet) Itererar på diffen tills tester går grönt. Många anrop, varje billigt. Kostnadsdrivaren. Cursor Composer eller Claude Code i en worktree (./scripts/git/worktree-add.sh); MAX_ITERATIONS är människopålagt.
Verifier 5–6 (självgranskning + dossier) Mid (Sonnet) Kör granskande underagenter, kör testsviten, fångar dossiern. Behöver tillförlitlighet, inte djup. Manuell yarn type-check && yarn lint && yarn test:dashboard-stack + de tre granskande underagenterna; dossierer under docs/dossiers/<feature>/ är handgjorda.
Reviewer 7 Mid (Sonnet) Pollar Codex- / CodeRabbit-kommentarer och kör Editorn igen. Tillståndslös per körning. Människan läser Codex-kommentarer efter varje push (minnesregeln feedback_codex_review_loop.md) och pingar agenten att köra igen.

Uppdelningen är Aiders architect/editor-mönster: en dyr reasoning-körning, många billiga edit-körningar. Branschbenchmarkar (Aider polyglot, R1+Sonnet) placerar architect/editor-uppdelningen på ungefär 64 % polyglot SOTA till ~1/14 av kostnaden av att köra allt på reasoning-modellen.

Kostnadsmotivering

Pipeline-form Tokens spenderade Kvalitet Bedömning
Kör allt på reasoning-modellen Architect-kvalitet överallt Bäst För dyrt vid den kadens vi vill ha.
Kör allt på edit-modellen En körning; edit-modellens spec-kvalitet Missar ofta arkitekturella villkor Billigt, frekventa regressioner.
Architect/editor-uppdelning (detta avsnitts val) Reasoning en gång, edit N gånger Architect-kvalitet i beslut, edit-kvalitet i output Rätt för stabil leverans.

De granskande underagenterna (resolver-reviewer, dashboard-reviewer, perf-reviewer) körs idag på samma edit-modell. Så länge specen för arkitektur-intentionen vidare fångar edit-modellens granskning den drift som editorn introducerar — och granskningskostnaden är en liten bråkdel av totala tokens eftersom granskare inte skriver kod.

Varför modelloberoende är icke-förhandlingsbart

Se model-and-vendor-agnosticism.md. Kort version: tabellen ovan listar Anthropic-modeller eftersom det är vad vi använder idag. Pipelinen måste fortsätta fungera när "standard" roterar till OpenAI, Gemini eller en OSS-modell — det är visionsåtagande (b). Implementation: varje roll pratar med en modell-adapter, aldrig direkt med en leverantörs SDK.

Per-rolls ansvar (konkret)

Architect

Test-writer

Editor

Verifier

Reviewer (återkopplingsloop)

Granskar-underagentkarta

Fil som rörs Underagenter att köra
apps/dashboard-server/src/graphql/resolvers/** resolver-reviewer + perf-reviewer (om loopar/listor)
apps/dashboard/src/** dashboard-reviewer
Allt med en list-resolver, fält-resolver eller for (const x of prismaResults) perf-reviewer
Allt annat Inget — Verifier kör fortfarande type-check + lint + tester.

Dessa underagenter dokumenteras i claude-agents-and-skills.md.

Korsreferenser