Testgetriebene Datenaufbereitung ist vor allem in den Bereichen Big Data und Smart Data sowie Künstliche Intelligenz zuhause. Sie beschreibt eine Methode, bei der Daten so vorbereitet und überprüft werden, dass sie zuverlässig für weitere Analysen oder maschinelles Lernen genutzt werden können.
Statt einfach alle Daten zusammenzutragen, werden bei der testgetriebenen Datenaufbereitung schon früh im Prozess verschiedene Tests eingesetzt. Diese Tests prüfen automatisch, ob die Daten vollständig, korrekt und brauchbar sind. So lässt sich von Anfang an sicherstellen, dass Fehler oder Lücken rechtzeitig erkannt und ausgebessert werden.
Ein praktisches Beispiel: Ein Unternehmen möchte mit Hilfe von Künstlicher Intelligenz vorhersagen, welche Produkte bald besonders gefragt sein werden. Dafür braucht es saubere, aktuelle Verkaufsdaten aus verschiedenen Quellen. Mithilfe von testgetriebener Datenaufbereitung werden zuerst automatische Tests definiert, die etwa prüfen, ob keine wichtigen Zahlen fehlen oder ob alle Daten im richtigen Format vorliegen. Erst wenn diese Tests bestanden sind, werden die Daten für die Analyse freigegeben.
Das sorgt für mehr Zuverlässigkeit, spart Zeit bei späteren Auswertungen und macht Datenprojekte insgesamt erfolgreicher.