Wir haben Dutzende von KI-Initiativen in DACH-Unternehmen bewertet. Das Muster ist konsistent: Teams sind besessen von Modellauswahl, Hyperparametern und Architektur—und wundern sich dann, warum ihre sorgfältig entwickelte KI schrecklich performt. Die Antwort sind fast immer Daten. Ihr Modell ist nur so gut wie das, was Sie ihm füttern.
Die ausgefeilteste KI-Architektur, die auf schlechten Daten aufbaut, wird von einem einfachen Modell übertroffen, das auf sauberen, relevanten, gut strukturierten Daten trainiert wurde. Jedes Mal.
Hier ist die Datenqualitäts-Checkliste, die wir vor jeder KI-Investitionsempfehlung verwenden. Nutzen Sie sie, um Ihre Bereitschaft zu bewerten—oder die Lücken zu identifizieren, die Sie zuerst schließen müssen.
1. Datenverfügbarkeit
Vor allem anderen: Haben Sie die benötigten Daten?
Checkliste:
- [ ] Werden die erforderlichen Daten derzeit erfasst?
- [ ] Haben Sie ausreichend historische Daten fürs Training (typischerweise 6-24 Monate)?
- [ ] Sind die Daten zugänglich oder in Legacy-Systemen eingesperrt?
- [ ] Dürfen Sie diese Daten rechtlich für KI-Zwecke nutzen (Einwilligung, Verträge, Vorschriften)?
- [ ] Sind die Daten in einem verarbeitbaren Format (nicht nur PDFs und Bilder)?
Warnsignale:
- "Wir werden diese Daten erfassen, wenn wir die KI bauen"
- "Die Daten sind da, irgendwo in SAP"
- "Die Rechtsabteilung hat die Datennutzung noch nicht geprüft"
2. Datenvollständigkeit
Fehlende Daten erzeugen Bias und reduzieren die Modellgenauigkeit. Wie vollständig sind Ihre Datensätze?
Checkliste:
- [ ] Welcher Prozentsatz der Datensätze hat vollständige Felder?
- [ ] Sind fehlende Werte zufällig oder folgen sie Mustern (die Bias einführen könnten)?
- [ ] Sind Randfälle und seltene Ereignisse repräsentiert?
- [ ] Sind die Daten über alle relevanten Segmente repräsentativ (Zeiträume, Regionen, Kundentypen)?
- [ ] Haben Sie den Vollständigkeitsgrad für jedes kritische Feld quantifiziert?
Warnsignale:
- Kritische Felder mit mehr als 20% fehlenden Werten
- Ganze Zeiträume oder Segmente ohne Daten
- Optionale Felder, die selten ausgefüllt wurden
3. Datengenauigkeit
Müll rein, Müll raus. Wie sicher sind Sie, dass Ihre Daten die Realität widerspiegeln?
Checkliste:
- [ ] Gibt es Validierungsregeln an Dateneingabepunkten?
- [ ] Wie erkennen und behandeln Sie Dateneingabefehler?
- [ ] Gibt es eine einzige Wahrheitsquelle oder widersprüchliche Datenquellen?
- [ ] Wann wurden die Daten zuletzt gegen reale Ergebnisse validiert?
- [ ] Gibt es bekannte Datenqualitätsprobleme, die nicht behoben wurden?
Warnsignale:
- "Wir wissen, dass die CRM-Daten Probleme haben, aber jeder arbeitet drum herum"
- Mehrere Systeme mit denselben Daten, die nicht übereinstimmen
- Keine aktuelle Prüfung der Datengenauigkeit
4. Datenkonsistenz
Inkonsistente Daten verwirren Modelle. Sind Ihre Namenskonventionen, Formate und Definitionen konsistent?
Checkliste:
- [ ] Sind Felddefinitionen dokumentiert und konsistent angewendet?
- [ ] Sind Datums-/Zeitformate über Quellen hinweg standardisiert?
- [ ] Sind kategorische Werte konsistent (kein "Germany" vs "DE" vs "Deutschland")?
- [ ] Sind numerische Einheiten konsistent (EUR vs Cent, kg vs Gramm)?
- [ ] Hat sich das Datenschema im Laufe der Zeit geändert, und sind alte Datensätze kompatibel?
Warnsignale:
- Freitextfelder, wo strukturierte Daten sein sollten
- Daten aus Akquisitionen ohne Standardisierung zusammengeführt
- Schemaänderungen ohne Migration historischer Daten
5. Datenaktualität
Veraltete Daten führen zu veralteten Vorhersagen. Wie aktuell sind Ihre Daten?
Checkliste:
- [ ] Wie häufig werden Daten aktualisiert?
- [ ] Was ist die Latenz zwischen realen Ereignissen und Datenverfügbarkeit?
- [ ] Gibt es Engpässe in der Datenpipeline, die Verzögerungen verursachen?
- [ ] Haben Sie Near-Real-Time-Daten, wenn Ihr Anwendungsfall es erfordert?
- [ ] Sind historische Daten noch repräsentativ für aktuelle Bedingungen?
Warnsignale:
- Monatliche Batch-Updates für zeitkritische Anwendungsfälle
- Manuelle Dateneingabe, die Tage Latenz verursacht
- "Das Data Warehouse wird über Nacht aktualisiert"
6. Datenlabeling
Supervised Learning erfordert Labels. Wie zuverlässig sind Ihre Labels?
Checkliste:
- [ ] Basieren Labels auf objektiven Kriterien oder subjektiver Beurteilung?
- [ ] Gibt es Inter-Annotator-Agreement (labeln verschiedene Personen gleich)?
- [ ] Sind Labels aktuell oder spiegeln sie veraltete Klassifizierungen wider?
- [ ] Haben Sie genug gelabelte Beispiele für jede Klasse?
- [ ] Sind Randfälle und mehrdeutige Beispiele konsistent gelabelt?
Warnsignale:
- "Wir lassen die Praktikanten die Trainingsdaten labeln"
- Keine Qualitätskontrolle beim Labeling-Prozess
- Labels, die von Systemen mit bekannten Fehlern vergeben wurden
7. Daten-Bias
Voreingenommene Daten produzieren voreingenommene KI. Haben Sie auf Bias geprüft?
Checkliste:
- [ ] Spiegeln Ihre Daten die gesamte Population wider, die Sie bedienen werden?
- [ ] Sind historisch benachteiligte Gruppen angemessen repräsentiert?
- [ ] Kodieren Ihre Daten historische Vorurteile, die Sie nicht perpetuieren wollen?
- [ ] Haben Sie auf disparate Auswirkungen über geschützte Gruppen getestet?
- [ ] Gibt es Selection Bias bei der Art, wie Daten gesammelt wurden?
Warnsignale:
- Trainingsdaten nur aus bestimmten Regionen oder Zeiträumen
- Historische Entscheidungen (Einstellung, Kreditvergabe) als Labels verwendet
- Keine demografische Analyse der Trainingsdaten
8. Datensicherheit und Datenschutz
KI befreit Sie nicht vom Datenschutz. Sind Ihre Daten ordnungsgemäß gesichert?
Checkliste:
- [ ] Sind personenbezogene Daten ordnungsgemäß anonymisiert oder pseudonymisiert?
- [ ] Haben Sie eine Einwilligung für die KI-Nutzung der Daten?
- [ ] Sind Zugriffskontrollen für sensible Daten vorhanden?
- [ ] Sind Daten im Ruhezustand und bei der Übertragung verschlüsselt?
- [ ] Haben Sie die DSGVO-Compliance für Ihren KI-Anwendungsfall bewertet?
Warnsignale:
- "Wir klären den Datenschutz später"
- Trainingsdaten mit personenbezogenen Informationen
- Keine Auftragsverarbeitungsvereinbarung für KI-Zwecke
Datenqualitäts-Bewertung
Nutzen Sie dieses einfache Framework, um Ihre Datenbereitschaft zu bewerten:
- Grün (Bereit): Sie können alle Kästchen in einer Kategorie abhaken
- Gelb (Behebbar): 1-2 Lücken, die mit angemessenem Aufwand behoben werden können
- Rot (Blocker): Fundamentale Probleme, die vor dem Fortfahren gelöst werden müssen
Ein einzelnes Rot in jeder Kategorie sollte Ihr KI-Projekt pausieren, bis es gelöst ist. Mehrere Gelbs könnten trotzdem fortfahren, aber mit verlängerten Zeitplänen und Risikopuffern.
Die Datenqualitäts-Investition
Hier ist die unbequeme Wahrheit: Datenqualität zu verbessern ist nicht sexy, und es produziert keine Demos, die Sie dem Vorstand zeigen können. Aber Unternehmen, die vor KI-Initiativen in Datenqualität investieren, übertreffen konsistent diejenigen, die zum Modellbau eilen.
Die besten KI-Projekte, die wir gesehen haben, beginnen mit einer einfachen Frage: "Sind unsere Daten bereit?" Wenn die Antwort Nein ist, ist der richtige Schritt nicht, trotzdem fortzufahren—sondern zuerst das Fundament zu reparieren. Die Unternehmen, die mit KI gewinnen, sind diejenigen, die Datenqualität als Voraussetzung behandeln, nicht als Nachgedanken.
