Ziel heute: Ihr könnt nach dem Gespräch mit Karl-Heinz in drei Sätzen zusammenfassen, ob die Architektur das Vertrauen rechtfertigt.
| Compute | Cloudflare Workers / Pages Functions |
| DB | Cloudflare D1 (SQLite) |
| Storage | Cloudflare R2 (S3-API) |
| LLM | Claude Sonnet 4 + Haiku 4.5 |
| Auth | Eigener Stack, JWT, PBKDF2 |
| Hosting | EU-only |
| Engineering | Solo + KI-Agents |
| Framework | GSD Phase-Framework |
| Test-Coverage | >95 % bei neuen Phasen |
| Deploy | Wrangler CLI, atomare Commits |
| Entscheidung | Begründung | Konsequenz |
|---|---|---|
| Serverless Edge statt K8s | Keine Ops-Team-Kosten, globale Latenz, pay-per-request | Cloudflare Lock-in akzeptiert |
| EU-only Hosting | GoBD/DSGVO-Compliance als Produktmerkmal | Kein US-Fallback |
| Eigener Auth-Stack | DSGVO-Konformität, keine PII bei Drittanbietern | DSGVO-Endpoints kontrolliert |
| LLM-Router als Abstraktion | Provider-Unabhängigkeit strategisch vorbereitet | Switch in Tagen, nicht Monaten |
| Standalone-First bei Modulen | Velocity + Risk-Isolation, ADR-geführt | Monorepo-Konsolidierung geplant |
Wo die meisten KI-Startups scheitern — wir haben's produktiv.
// functions/api/kanzlei/scan.js, Zeile 343
system: [{
type: 'text',
text: SKR03_SYSTEM_PROMPT, // 2.180 Tokens
cache_control: { type: 'ephemeral', ttl: '1h' }
}]
Bei 40.000 Belegen/Monat: 360 €/Mo strukturelle Ersparnis. Ohne Caching: 360 $/Mo nur für gecachte Tokens. Mit Caching: 36 $/Mo. Faktor 10.
TASK_CONFIG = {
'beleg-simple': Haiku 4.5 (3× günstiger)
'beleg-standard': Sonnet 4
'beleg-complex': Sonnet 4
'chat': Haiku 4.5
'chat-complex': Sonnet 4
'enrich': Haiku 4.5
}
Heutige Heuristik: Dateigrößen-basiert. Q3-Upgrade: Classifier-Pre-Call für Konfidenz-basiertes Routing. Ziel: AI-Kosten -65 %.
| Modul | Code | API | UI | Kunden |
|---|---|---|---|---|
| V+V (Vermieter) | ✓ | ✓ | ✓ | Pilot-Gruppe |
| Scanner (Kanzlei) | ✓ | ✓ | ✓ | Schmitt · zahlend |
| GastroAudit | ✓ | ✓ | ✓ | 1 Pilot |
| ESt / USt / EÜR | ✓ | ✓ | partiell | — |
| Airbnb / Bilanz | ✓ | ✓ | — | — |
Ehrlich: Schmitt Beratung zahlt bereits — erste Revenue live. GastroAudit-Pilot läuft kostenlos. Scanner geht nach Phase 086 Security-Hardening in den vollen Rollout. First-Revenue-Zustand.
| Anforderung | Unsere Lösung |
|---|---|
| Datenhaltung EU | Cloudflare EU Region lock |
| DSGVO Art. 28 AVV | Bilaterale AVV je Kanzlei-Kunde |
| Right-to-Delete | POST /api/auth/gdpr/delete |
| Right-to-Export | GET /api/auth/gdpr/export |
| LLM-Training-Opt-out | Anthropic No-Training-Klausel |
| GoBD Unveränderbarkeit | R2 + D1-Audit-Trail (Hash-Chain Q3) |
| Prompt-Cache TTL | 1h transient, kein Persist |
Nicht da: BSI C5, ISO 27001. Beides Roadmap H2 2026 — nicht vor 5+ Enterprise-Kunden (CAC-Economics).
GSD-Phase-Lifecycle:
/gsd-plan-phase → PLAN.md mit Requirements + Success Criteria
↓
/gsd-execute-phase → Code + Tests, atomare Commits
↓
/gsd-verify → VERIFICATION.md, Goal-backward-Check
↓
/gsd-code-review → REVIEW.md + REVIEW-FIX.md
↓
/gsd-secure-phase → Threat-Model-Check
| Phase 085 | Kanzlei Scanner MVP · 2 Wochen · VERIFICATION PASS |
| Phase 086 | Security Hardening · läuft, 6 Sub-Plans |
| GastroAudit Phase 0 | Pre-Mortem + 38 KNOWLEDGE-Files · 1 Tag |
| GastroAudit 1–4 | Bootstrap → Deployment · 3 Tage · 165/165 Tests |
| System-Prompt gecacht | 0,09 ct |
| Beleg-Bild + User-Msg | 0,80 ct |
| Output JSON (350 Tokens) | 0,50 ct |
| Total pro Beleg | ~1,0 ct |
| AI-Tokens | 400 € |
| Cloudflare Infra | 80 € |
| Support | 100 € |
| Vollkosten | ~580 € |
Wichtig: Kostenbasis >70 % variabel. Volumen allein bringt nur 15-20 % Marge. Der echte Hebel ist Smart Routing.
Fünf Punkte. Keiner davon ist Blocker für die nächsten 6 Monate.
| # | Schuld | Warum heute ok | Wann gelöst |
|---|---|---|---|
| 1 | Vision-Routing = Dateigröße | Marge heute 81 % | Q3 2026 · Classifier |
| 2 | GastroAudit Standalone-Fork | ADR-001 Velocity-Gewinn | Q3 2026 · Konsolidierung |
| 3 | D1 statt Postgres RLS | 1 Pilot · D1 hält bis ~500k Belege | Juni 2026 · Hyperdrive |
| 4 | Keine Regression-Tests auf Beleg-Erkennung | Manuelle UAT + Phase-Verifikation | Vor Kanzlei #3 · Gold-Set 200 |
| 5 | B2C-Scanner ohne Prompt-Caching | B2C-Volumen noch klein | Q2 2026 · 10-Min-Fix |
Nicht als Tech-Debt eingestuft: Cloudflare-Lock-in (strategisch), Solo-Engineering (Organisation), kein eigenes LLM-Training (zu teuer, zu früh).
Q2 2026 (Apr–Jun)
· Phase 086 Security-Hardening abgeschlossen → Scanner GoLive
· Postgres + Hyperdrive Migration (RLS für Multi-Tenant)
· Regression-Test-Suite auf 200-Beleg-Gold-Set
· Prompt-Caching auch in B2C-Scanner
· Foundation-Slots #2–3
Q3 2026 (Jul–Sep)
· Vision-Classifier produktiv → AI-Kosten real −65 %
· Modul-Konsolidierung: GastroAudit auf Plattform-Core
· Load-Test 500 k Belege / 24h
· Foundation-Slots #4–5 + Listenpreis geht live
· 9. StBÄndG-Marktstart
Q4 2026 (Okt–Dez)
· Bescheid-Agent
· Partnerkanal: Steuerberater-Verbände
· ETL-Pilot mit Verbands-Partner
· Self-Service-Checkout
Q2 2027
· ERiC-API v3 · Direkt-Abgabe Finanzamt
Die Decisions sind gefallen, die Roadmap ist konkret.
Die Architektur ist produktiv tragfähig. Prompt-Caching, LLM-Router, DSGVO-Stack laufen, Delivery-Velocity ist durch GastroAudit nachgewiesen.
Die Tech-Debt ist bewusst und zeitlich eingepreist. Fünf offene Punkte, alle mit Lösungs-Timing, keine Blocker für die 12-Monats-Roadmap.
Kapital fließt nicht in Architektur-Neubau, sondern in Product-UI-Reife und Go-to-Market. Engineering-Organisation steht.
Live-Dashboard auf Anfrage. Aktuell 80–120 €/Mo Beta-Spend. Cost-per-Beleg reproduzierbar 1,0 ct.
Foreign-Keys auf kanzlei_id + Middleware + R2-Namespacing. Kein RLS — kommt mit Postgres Juni 2026.
LLM-Router als Abstraktion. OpenAI/Google-Adapter skizziert. Switch realistisch 3–5 Tage.
ADR-001 Standalone-First. Velocity + Risk-Isolation. Konsolidierung Q3 bei PMF-Signal.
Ehrlich: Manuelle UAT + Phase-Verifikation. Gold-Set-Automatisierung ist Tech-Debt #4.
Heute Anthropic. OSS-Switch Q3-Spike geplant — nicht aus Prinzip, sondern weil Claude Vision aktuell besser auf dt. Amtsdokumenten ist. Wenn OSS gleichzieht, wechseln wir.
Keine Graph-DB, aber drei Ontologie-Ebenen: SKR03-Prompt (2.180 Tokens), D1-Entity-Modell, 70+ Red-Flags bei GastroAudit mit BMF-Rechtsprechung.
Heute prozedural in Cloudflare Workers. Kein Control Plane. Euer HUB wäre die logische Orchestrations-Ebene.
Technisch ja. Unsere Agents sind REST/MCP-ready. Spike-Vorschlag: 3 Wochen, 3 MCP-Tools, definierter Scope.
Alles im Git + GSD-Framework dokumentiert. Onboarding eines Engineers in 2 Tagen möglich. Deploy-Rechte nur bei Roland → Bus-Factor 1. Engineering-Hire Q4 2026.
Gibt es aus eurer Sicht einen Punkt, der euch persönlich davon abhalten würde? Den würden wir zuerst besprechen.