01

SignGuard Legal RAG

Retrieval Augmented Generation fur deutsche Vertragsanalyse

3.982
Rechtsdokumente
8.962
Durchsuchbare Chunks
3
Verifizierte Quellen

Stand: Juni 2026 | Nur verifizierte Primarquellen | 100% SSOT-Prinzip

02

Was ist RAG?

Ohne RAG

KI antwortet nur aus Trainingsdaten. Kann halluzinieren, veraltete Gesetze zitieren, oder BGH-Urteile erfinden die nicht existieren.

Halluzinationen Veraltete Daten Nicht verifizierbar

Mit RAG

KI bekommt echte, verifizierte Rechtsquellen als Kontext injiziert. Antworten basieren auf BGB-Paragraphen und BGH-Urteilen aus unserer Datenbank.

Verifizierbare Quellen Aktuelle Gesetze Echte Urteile

SSOT-Prinzip (Single Source of Truth)

Unsere Legal RAG DB enthalt ausschliesslich Inhalte aus verifizierten, offiziellen Primarquellen. Keine AI-generierten Zusammenfassungen, keine Interpretationen. Jeder Eintrag ist zu 100% uber seine Originalquelle verifizierbar.

03

Datenquellen — Was ist drin?

Quelle Typ Dokumente Quality Weight Inhalt
gesetze-im-internet.de (GII) Gesetz 3.155 1.0
BGB-Paragraphen: Vertragsrecht, Mietrecht, Arbeitsrecht, AGB-Recht, Kaufrecht etc.
bundesgerichtshof.de (BGH) Urteil 809 1.0
Vollstandige BGH-Leitsatze und Entscheidungstexte mit Aktenzeichen
dejure.org Index 18 1.0
Rechtsprechungs-Index zu Schlusselparagraphen (305-310, 535, 611a BGB)

Erweiterbare Architektur

Weitere Quellen konnen jederzeit hinzugefugt werden: openjur.de (sobald CAPTCHA-Zugang gelost), Bundesanzeiger, Landesrechtsdatenbanken, oder eigenes verifiziertes Wissen via Admin-API.

04

Architektur — Wie funktioniert es?

Vom Vertragsscan bis zur rechtsbasierten Analyse

Step 1
User Upload
Vertrag wird gescannt
Step 2 (NEU)
Smart Query
LLM extrahiert Rechtsfragen
Step 3 (NEU)
Hybrid Search
BM25 + Cosine Similarity
Step 4 (NEU)
LLM Reranking
Relevanz-Filter
Step 5
AI Analyse
Azure OpenAI + RAG Context
Step 6
Ergebnis
Analyse mit Quellenreferenzen

Graceful Degradation

Wenn die RAG-Datenbank ausfällt oder nicht erreichbar ist, funktioniert die Vertragsanalyse weiterhin — nur ohne den zusätzlichen rechtlichen Kontext. Kein Single Point of Failure.

05

Hybrid Search — Im Detail

1
Smart Query Extraction
LLM analysiert den Vertragstext und extrahiert 3-5 spezifische Rechtsfragen. Statt "500 Worter Rohtext" suchen wir gezielt nach z.B. "Ist eine starre Schonheitsreparatur-Frist in einem Wohnraummietvertrag wirksam?"
2
FTS5 Keyword-Suche (BM25)
SQLite Full-Text-Search findet die Top 100 Kandidaten per Keyword-Matching. Schnell, breit, erfasst exakte Begriffe wie Paragraphen und Aktenzeichen.
3
Embedding Cosine Similarity
Query wird zum 1536-dimensionalen Vektor (OpenAI text-embedding-3-small). Cosine-Similarity gegen alle 100 Kandidaten — findet semantisch ahnliche Inhalte auch ohne exakte Wortubereinstimmung.
4
Combined Scoring
Score = (0.3 x BM25 + 0.7 x Cosine) x Quality Weight
70% semantische Relevanz, 30% Keyword-Match, gewichtet nach Quellenqualitat.
5
LLM Reranking
Ein zweiter LLM-Call bewertet die Top 15-30 Ergebnisse nach juristischer Relevanz und wahlt die besten 5-10 aus. Eliminiert False Positives die durch Keyword-Zufall hochgerankt wurden.

Dynamisches Limit

Kurzer Vertrag (<1.000 Worter)5 Quellen
Mittlerer Vertrag (1.000-3.000)7 Quellen
Langer Vertrag (>3.000 Worter)10 Quellen

Fallback-Kette

  • Smart Query fehlgeschlagen → Raw-Text Suche
  • Embeddings nicht verfugbar → Nur BM25
  • Reranking fehlgeschlagen → Hybrid Score
  • RAG komplett down → Analyse ohne RAG
06

RAG Schulen — 2 Wege

A) Direkter Admin-Input

Admins konnen uber die API oder den Admin-Chat neue verifizierte Rechtsquellen einspeisen.

1
Quelle identifizieren
Neues BGH-Urteil, Gesetzesanderung, etc.
2
POST /api/admin/rag/documents
Titel, Volltext, Quellentyp, Aktenzeichen
3
Automatisches Chunking + Embedding
~200 Worter/Chunk, Embeddings generiert, sofort durchsuchbar
Admin-only Sofort verfugbar

B) Anwalt-Labeling Feedback

Anwalte labeln Vertragsklauseln im Labeling-Tool. Deren Ergebnisse fliessen zuruck in die RAG.

1
Anwalt labelt Klauseln
Risiko-Bewertung, rechtliche Einordnung, Empfehlung
2
Labels werden aggregiert
Konsens aus mehreren Anwalts-Bewertungen
3
Import in RAG DB via API
Verifiziertes Praxis-Wissen mit hohem Quality Weight
Anwalts-verifiziert Hochste Qualitat

Admin-Chat fur Qualitätskontrolle

Uber signguard.app/testragadminchat.html konnen Admins direkt mit der RAG interagieren: Fragen stellen, Quellenqualitat prufen, Feedback geben. Jede Antwort zeigt die verwendeten Quellen mit Score — volle Transparenz.

07

Tech Stack & Infrastruktur

Datenbank

  • SQLite mit FTS5 Extension
  • Separate DB (signguard-rag.db)
  • 97.7 MB, ~9.000 Chunks
  • Embeddings als Binary Blobs
  • Read-only + Write Connection

AI / Embeddings

  • OpenAI text-embedding-3-small
  • 1.536 Dimensionen pro Chunk
  • Cosine Similarity in TypeScript
  • Azure OpenAI fur Chat/Analyse
  • gpt-4.1-mini Deployment

Server

  • Fastify + TypeScript (ESM)
  • Docker (node:22-alpine)
  • Nginx Reverse Proxy
  • 11 Admin-API Endpoints
  • VPS2: 187.127.89.75

API Endpoints

MethodeEndpointFunktion
GET/api/admin/rag/statsDB-Statistiken
GET/api/admin/rag/searchHybrid-Suche mit Filtern
GET/api/admin/rag/documentsDokumente listen/lesen
POST/api/admin/rag/documentsNeues Dokument + auto Chunking
POST/api/admin/rag/chatAdmin-Chat mit RAG-Kontext
POST/api/admin/rag/feedbackFeedback zu Chunks/Docs
PUT/api/admin/rag/documents/:idMetadaten aktualisieren
DELETE/api/admin/rag/documents/:idDokument + Chunks entfernen
08

Roadmap — Nachste Schritte

Weitere Datenquellen

  • openjur.de — Tausende Urteile, wenn CAPTCHA gelost
  • Bundesanzeiger — Handelsregister, Bekanntmachungen
  • Landesrecht — Landesspezifische Regelungen
  • EU-Recht — Verbraucherschutzrichtlinien

Labeling-Tool Integration

  • API-Anbindung Labeling-Ergebnisse → RAG
  • Automatischer Import verifizierter Labels
  • Quality Weight basierend auf Anwalts-Konsens
  • Feedback-Loop: Analyse → Label → RAG → bessere Analyse

Optionales Feature: Clause-Level RAG

Statt pauschal den gesamten Vertrag gegen die RAG zu suchen, kann die Suche pro einzelne Klausel erfolgen:

AKTUELL: Vertragslevel

Gesamter Vertrag → 1x RAG-Suche → 5-10 Quellen fur alle Klauseln

Gut fur kurze/mittlere Vertrage. Bei langen Vertragen mit vielen unterschiedlichen Themen kann die Suche relevante Quellen fur einzelne Klauseln verpassen.

OPTIONAL: Klausellevel

Klauseln erkennen → Pro Klausel RAG-Suche → Gezielte Quellen je Klausel

Ideal fur komplexe Vertrage: Mietvertrag mit Kfz-Klausel bekommt sowohl Mietrecht- als auch Kaufrecht-Quellen. Erhoht Prazision, kostet mehr API-Calls.

Wann sinnvoll: Wenn Tests zeigen dass bei langen Vertragen (10+ Klauseln) relevante Quellen fur Einzelklauseln fehlen. Die aktuelle Architektur unterstutzt das Upgrade — kein Fundament-Umbau notig, nur eine Erweiterung der Suchstrategie.

09

Zusammenfassung

Was wir haben

  • 3.982 verifizierte Rechtsdokumente
  • Hybrid Search (BM25 + Embeddings)
  • Smart Query Extraction via LLM
  • LLM-basiertes Reranking
  • Dynamische Ergebnis-Limits
  • Quality-weighted Scoring
  • Admin-Chat + 11 API-Endpoints
  • Graceful Degradation

Was als Nachstes kommt

  • Mehr Rechtsquellen (openjur, EU-Recht)
  • Labeling-Tool Feedback-Loop
  • Optional: Clause-Level RAG
  • Health Dashboard Integration
  • Retrieval-Analytics & Monitoring

SignGuard Legal RAG v1.1 | Deployed auf VPS2 | Feature Branch: feature/legal-rag