Overfitting ist ein Begriff aus den Bereichen Künstliche Intelligenz, Big Data und Smart Data sowie Digitale Transformation. Er beschreibt ein häufiges Problem, das bei der Entwicklung von Modellen zur Datenanalyse oder beim maschinellen Lernen auftritt.
Stellen Sie sich vor, eine Künstliche Intelligenz soll mit Hilfe von vielen Fotos erkennen, ob ein Bild eine Katze zeigt. Beim Overfitting merkt sich die KI zu viele Details der Trainingsbilder, zum Beispiel das Sofa im Hintergrund oder die Farbe der Decke – also unwichtige Einzelheiten, die nur in den Trainingsdaten vorkommen. Dadurch funktioniert das Modell zwar auf den gelernten Bildern hervorragend, aber auf neuen, unbekannten Fotos erkennt es Katzen plötzlich nicht mehr zuverlässig, weil es auf die falschen Hinweise achtet.
Overfitting passiert oft, wenn ein Modell zu komplex ist oder zu wenige Trainingsdaten verwendet werden. Das Ziel ist daher, die richtigen Muster zu lernen, ohne sich in unwichtigen Details zu verlieren.
Overfitting lässt sich erkennen, wenn die Ergebnisse auf bekannten Daten sehr gut, auf neuen Daten aber plötzlich viel schlechter sind. Um Overfitting zu vermeiden, nutzen Experten verschiedene Methoden, zum Beispiel mehr Trainingsdaten oder bestimmte Techniken, die das Modell vereinfachen.