Trainingsdaten-Synthetisierung ist ein Begriff aus den Bereichen Künstliche Intelligenz, Big Data und Smart Data sowie Industrie und Fabrik 4.0. Er beschreibt die künstliche Erstellung von Daten, die zum Trainieren von KI-Modellen genutzt werden. Statt ausschließlich auf echte, oft schwer verfügbare oder sensible Daten zurückzugreifen, erzeugt man mit Hilfe bestimmter Algorithmen neue, künstliche Trainingsdaten.
Das Ziel der Trainingsdaten-Synthetisierung ist es, die Entwicklung von Künstlicher Intelligenz zu erleichtern und sicherer zu machen. Häufig sind reale Daten zu teuer, schwer zu bekommen oder enthalten persönliche Informationen, die datenschutzrechtlich geschützt sind. Mit synthetischen Daten lassen sich diese Probleme umgehen. Gleichzeitig kann man so auch seltene oder gefährliche Situationen simulieren, die in der Realität kaum vorkommen.
Ein anschauliches Beispiel: Ein Unternehmen möchte eine KI für die Qualitätskontrolle in einer Autofabrik entwickeln. Anstatt Tausende Bilder von echten fehlerhaften Autoteilen zu sammeln, erzeugt das Unternehmen mithilfe von Trainingsdaten-Synthetisierung künstliche Bilder, die verschiedene Arten von Fehlern zeigen. So kann die KI schneller und effizienter lernen, ohne dass echte Fehler in der Fabrik passieren müssen.