Qualität
Qualitätsmessung und Benchmarks
Wie wir Legal-AI-Qualität messen — und wo wir ehrlich über Grenzen sind. Keine Marketing-Zahlen ohne Methodik.
Unsere Messgrundsätze
- Keine Zahl ohne Methodik: Jede Genauigkeitsangabe ist mit Testset, Klausel-Typ und Bewertungskriterium dokumentiert.
- Externe Validierung: Interne Messungen werden durch externe Benchmark-Referenzen ergänzt — keine Selbstbelobigung.
- Grenzfall-Disclosure: Wir geben Bereiche an, in denen das System unsicher ist — damit Nutzer informiert prüfen können.
- Update-Zyklus: Benchmarks werden bei jedem größeren Modell-Update erneuert. Stand immer im Header.
Externe Benchmark-Referenz
Der DACL-Benchmark (arXiv:2601.06181) ist ein externer wissenschaftlicher Datensatz zur Evaluierung von KI-Systemen auf deutschsprachigen Gerichtsurteilen. Die Studie zeigt, dass spezialisierte Modelle generische LLMs in juridischer Klassifikationsgenauigkeit deutlich übertreffen. Clausa orientiert sich an der DACL-Methodik für interne Evaluierungen — die publizierten Studienzahlen sind Fremddaten, keine Clausa-Eigenmessung.
Interne Qualitätsmethodik
- Testset Mietrecht: Kuratierte Sammlung annotierter Mietvertrags-Klauseln mit BGH-validierten Urteilen durch Rechtsexpert:innen.
- Testset Arbeitsrecht: Annotierte Arbeitsvertrags-Klauseln mit KSchG/TzBfG-Compliance-Labels.
- Precision / Recall pro Klausel-Typ: Separate Messungen für alle relevanten Klausel-Typen aus Mietrecht und Arbeitsrecht.
- Human-in-the-Loop-Validierung: Stichproben-Review durch Legal-Advisors bei jedem Modell-Update.
Bekannte Messgrenzen
- Neue Klauseltypen ohne Testdaten können nicht zuverlässig bewertet werden.
- Messungen gelten für Standard-Vertragstypen — stark individualisierte Verträge können abweichen.
- Aktuelle interne Benchmark-Publikation folgt mit Launch der ersten Pilotphase (Q3 2026).
Häufige Fragen
Warum sind keine konkreten Prozentzahlen angegeben?
Wir veröffentlichen Zahlen erst nach externer Validierung und methodischer Vollständigkeit. Zahlen ohne Kontext sind Marketing — das wollen wir nicht.
Wann kommen öffentliche Benchmark-Ergebnisse?
Mit Launch der ersten Pilotphase (Q3 2026) veröffentlichen wir erste validierte Ergebnisse — inklusive Testset-Beschreibung und Methodikdokumentation.
Kann ich eigene Testdaten einbringen?
Ja — Pilotpartner können anonymisierte Klausel-Samples beisteuern. Das verbessert die Testset-Breite und damit die Aussagekraft der Benchmarks.
Benchmark-Update erhalten
Pilotpartner erhalten Benchmark-Berichte vor dem öffentlichen Launch.
Auf die Warteliste