Der Begriff Qualitätsmetriken für Trainingsdaten ist besonders wichtig in den Bereichen Künstliche Intelligenz, Big Data und Smart Data sowie Digitale Transformation. Trainingsdaten sind die Grundlage, mit denen Computerprogramme, zum Beispiel für Sprach- oder Bilderkennung, „lernen“. Damit eine Künstliche Intelligenz zuverlässig arbeitet, müssen diese Trainingsdaten eine gute Qualität haben.
Qualitätsmetriken sind Kennzahlen, mit denen genau das überprüft wird. Sie helfen dabei festzustellen, wie vollständig, korrekt und relevant die Daten sind, bevor sie einem System beigebracht werden. Dadurch wird verhindert, dass fehlerhafte oder einseitige Daten zu schlechten Ergebnissen oder falschen Entscheidungen führen.
Ein anschauliches Beispiel: Ein Unternehmen möchte ein KI-System entwickeln, das automatisch E-Mails sortiert. Damit das Programm das zuverlässig tut, kontrollieren Qualitätsmetriken für Trainingsdaten, ob alle E-Mails richtig beschriftet sind, keine wichtigen E-Mails fehlen und keine doppelten E-Mails im Datensatz vorhanden sind. Nur mit guten Trainingsdaten lernt das System auch richtig – das verbessert die Automatisierung und spart Zeit sowie Kosten. So helfen Qualitätsmetriken für Trainingsdaten dabei, Künstliche Intelligenz smarter und zuverlässiger zu machen.