Agentiskt arbetsflöde

Agentiskt arbetsflöde för funktionsleverans

Så levererar CAIRE mjukvara utan att skala upp antalet medarbetare. Åtta steg från PRD till mergad PR.

Maskinöversatt från engelska — källa: README.md.

Implementeringsstatus: Designanteckning — delar av denna pipeline är på plats; den hands-free-loop som tar en funktion från PRD till PR med bevis i ena änden är inte komplett. Detta avsnitt dokumenterar den målarkitektur som varje komponent byggs mot.

Byggt idag: worktree-skript (scripts/git/worktree-add.sh + worktree-remove.sh), tre granskande underagenter spårade i .claude/agents/{resolver,dashboard,perf}-reviewer.md (åter-inkluderade via en .gitignore-negationsregel), GitHub Merge Queue (.github/workflows/pr-checks.yml triggar på merge_group:), Darwin-runtime på localhost:3010 (be-agent-service/apps/server), 30 namngivna agenter i be-agent-service/agents/prompts/, det sammansatta nattliga arbetsflödet (launchd 22:30 + 23:00).

Mål-tillägg: namngivna agenter för Architect / Test-writer / Editor / Verifier / Reviewer-feedback, ändpunkten POST /api/prd-to-pr/<feature>, dossier-buntare, polling-loop för Codex/CodeRabbit, Telegram→pipeline-routing i interface-agent. Se Darwins komponentkarta för hela listan och prioriterad ordning.

Detta avsnitt är wikins instansiering av vision och mandat: skala Caires output 1000× utan att skala upp antalet människor, genom att göra agentexekvering till standardvägen för att leverera funktioner. Människor skriver PRD:er och godkänner bevis; agenter sköter allt däremellan.

Verklighet kontra design — i korthet

Komponent Status
Worktree-skript (scripts/git/worktree-{add,remove}.sh) Byggt
Tre granskande underagenter (resolver-reviewer, dashboard-reviewer, perf-reviewer) Byggt
GitHub Merge Queue (merge_group:-trigger; dashboard-server-tester krävs för merge) Byggt
Darwin-runtime (localhost:3010, SQLite-tillstånd, launchd-slots) Byggt
Sammansatt nattligt arbetsflöde (scripts/compound/auto-compound.sh) Byggt
wiki/plans/<feature>-YYYY-MM-DD.md-konvention för PRD Byggt
Manuella docs/dossiers/<feature>/-mappar Delvis — handgjorda, ingen buntare
Agenter för Architect / Test-writer / Editor / Verifier / Reviewer-feedback Endast design
POST /api/prd-to-pr/<feature>-ändpunkt + pipeline-runner Endast design
Automatiserad dossier-buntare (trace.zip + summary.json) Endast design
Polling-loop för Codex / CodeRabbit Endast design
Telegram → orkestrerar-routing i interface-agent Endast design
Modelladapter (leverantörsoberoende) Endast design
Skala-eller-stäng-av / GrowthBook-rampning Endast design

Den fullständiga komponent-för-komponent-kartan (engineering-vertikal / parkerade vertikaler / saknat) finns i darwin-component-map.md.

Mänskliga gränssnitt

Tre nivåer som alla anropar samma framtida pipeline. L0 fungerar idag; L1 och L2 finns på gap-listan.

L0 — Idag (filbaserat, ingen ny kod)

Rekommenderad väg just nu:

  1. Skriv wiki/plans/<feature>-YYYY-MM-DD.md med PRD-frontmatter och ett statuscallout (se SCHEMA.md).
  2. Skapa en worktree: ./scripts/git/worktree-add.sh <slug> {feat|fix|chore|docs}/<domain>/<slug>.
  3. Öppna PRD:n i Cursor Composer eller anropa Claude Code i worktreet. Agenten läser PRD:n, skriver tester, implementerar, kör de tre granskande underagenterna, öppnar en PR.
  4. Verifiera före merge genom att granska PR-diffen + den (för närvarande handgjorda) dossier-mappen under docs/dossiers/<feature>/ på GitHub. Godkännande = en vanlig GitHub-PR-granskning.

L1 — Nästa steg (Darwins webformulär på localhost:3010)

Det första objektet på gap-listan att bygga. POST /api/prd-to-pr/<feature> accepterar en PRD-sökväg, startar pipelinen, och ett litet formulär på Dashboarden visar progress + dossiern inline. Godkänn / avvisa blir en knapp på Dashboarden.

L2 — Mål (Telegram via interface-agent)

Beskrivs i darwin-as-orchestrator.md. interface-agent routar PRD-meddelanden till samma /api/prd-to-pr/<feature>-ändpunkt; dossier-skärmbild postas tillbaka till Telegram; svara med "approve" för att merga. Byggs efter att L1 landat och delar samma backend.

De åtta stegen

0. Intag           (orkestreraren normaliserar chatt / .cursor-plan / PRD)
   ↓
1. PRD             (människa eller accepterad plan)
   ↓
2. Spec + tester   (Architect-agent → Test-writer-agent)
   ↓
3. Implementation  (Editor-agent, tills tester går grönt)
   ↓
4. Självgranskning (resolver-reviewer / dashboard-reviewer / perf-reviewer underagenter)
   ↓
5. Verifiering     (Verifier-agent — type-check, lint, tester, Playwright-dossier)
   ↓
6. Granskningsloop (Codex / CodeRabbit-kommentarer → Editor-agent kör igen)
   ↓
7. Bevis + PR      (Dossier bifogad, auto-merge köad, skärmbild för människan)

Sidor i detta avsnitt

  1. vision-and-mandate.md — riktmärket. Hela jobbeskrivningen för "CTO – AI Systems & Agent Workforce". Varje annan sida går tillbaka till ett av dess fyra åtaganden.
  2. prd-to-pr-pipeline.md — vad varje steg producerar, var artefakter bor (wiki/plans/<feature>-YYYY-MM-DD.md, wiki/specs/<feature>.md, docs/dossiers/<feature>/).
  3. agent-roles-and-model-routing.md — Architect / Test-writer / Editor / Verifier / Reviewer-roller, och vilken modell var och en kör.
  4. model-and-vendor-agnosticism.md — visionsåtagande (b). Routnings-matris; rotationskadens; adapterform.
  5. spec-as-contract.md — Thoughtworks SDD-mönster: PRD kompileras till spec; tester genereras från specen; specen är koordinationsobjektet.
  6. verification-and-evidence.md — failure-dossier-mönstret (Playwright Agents 1.56). Dossiern ÄR bevis-artefakten som bifogas PR:n.
  7. reviewer-feedback-loop.md — polling av gh api .../pulls/<n>/comments; P1/P2 från Codex som misslyckade tester; återinträde i Editor.
  8. scale-or-kill.md — visionsåtagande (c). Skala automatiskt det som fungerar; stäng automatiskt av det som regresserar. Handsfree.
  9. throughput-and-business-signals.md — visionsåtagande (d). Funktioner per sekund per token; intäkt/kostnad/kassa som systeminmatningar; matematikern väljer modellroutning inom kassabudgeten.
  10. darwin-as-orchestrator.md — vägen till att ersätta den mänskliga CTO:n med agent-CTO enligt visionen. Telegram → Darwin → 4-stegs pipeline → PR med skärmbild.
  11. skills/humanizer.md — återanvändbar färdighet för att skala bort AI-tells från publik prosa. Obligatorisk för marknadsagenter; användbar var som helst där användarsynlig text genereras.

Vad detta avsnitt INTE är

Cursor "Build plan" (Composer-plan) — editor-arbetsflöde

När användaren öppnar en faseplan under .cursor/plans/*.plan.md och väljer Build plan (eller ber agenten implementera den), behandla den filen som källan för omfång och sekvensering, inte som automatiskt godkännande att skriva om orelaterad kod.

  1. Läs planen och den nuvarande koden — bekräfta vilken fas som ingår i omfånget (stanna vid uttryckliga fasgränser om inte användaren utökar omfånget).
  2. Specificera med tester först när planen kräver beteende — lägg till eller utöka Vitest (dashboard-server / dashboard) så att den nya semantiken är reproducerbar utan att klicka i UI:t.
  3. Implementera minimalt — följ monorepots resolver/UI-regler; återgenerera GraphQL-typer endast när schema- eller .graphql-filer ändras.
  4. Verifierayarn type-check, yarn lint, och riktad vitest för berörda appar; webbläsarkontroll när ändringen är UI-synlig.
  5. Dokumentera — om användarsynligt beteende eller arbetsflödesförväntningar ändras, uppdatera relevant wiki-sida eller CLAUDE.md-anteckning i samma insats.

Om planens index eller korslänkar i wiki/ ändras materiellt, kör yarn wiki:lint från repots rot.

Korsreferenser

Vision & mandat

De fyra åtagandena som definierar hur CAIRE bygger — riktmärket för varje arkitekturbeslut.

PRD-till-PR-flödet

Åtta steg, vart och ett med namngivna artefakter. Från en kort brief till en mergad pull request med skärmbild.

Agentroller & modellroutning

Arkitekt, testförfattare, redaktör, verifierare, granskare — och vilken modell var och en kör.

Modell- & leverantörsoberoende

Modeller ändras varje vecka; arkitekturen gör det inte. Därför routar CAIRE via adaptrar istället för leverantörers SDK:er.

Specen som kontrakt

Specen är koordinationsobjektet. Tester genereras från specen — inte tvärtom.

Verifiering & bevis

Dossiern är beviset. Ett skärmbildspaket bifogas varje PR — Playwright Agents 1.56-mönstret.

Granskningsåterkoppling

Behandla kommentarer från Codex / CodeRabbit som misslyckade tester. Agenten kör igen tills granskningarna är rena.

Skala eller stäng av

Skala automatiskt det som fungerar; stäng automatiskt av det som regresserar. Handsfree-rampning via GrowthBook + affärssignaler.

Genomströmning & affärssignaler

Funktioner per sekund per krona. Riktmärket som varje routningsbeslut bedöms mot.

Darwin som orkestrerare

Telegram → Darwin → PR-med-skärmbild. Orkestreraren som ersätter den mänskliga CTO:n i loopen.

Darwins komponentkarta

Den arkitekturella inventeringen — varje namngiven del av agent-exekveringsstacken och hur de kopplas ihop.