Der Begriff Gradient Vanishing Problem stammt aus den Bereichen Künstliche Intelligenz und Digitale Transformation. Er beschreibt eine Herausforderung beim Trainieren von sogenannten künstlichen neuronalen Netzen, die die Grundlage moderner KI-Anwendungen bilden.
Wenn ein neuronales Netz lernt, passt es seine „Gewichte“ mit Hilfe einer mathematischen Methode schrittweise an, um immer bessere Ergebnisse zu liefern. Das passiert in vielen kleinen Schritten, die von vorne bis hinten durch alle Schichten des Netzes laufen. Das Gradient Vanishing Problem tritt auf, wenn diese Anpassungsschritte ganz am Anfang des Netzes so klein werden, dass sie fast verschwinden. Dadurch „vergisst“ das Netzwerk fast alles, was in den vorderen Schichten passiert – das Training stockt oder ist gar nicht mehr möglich.
Ein einfaches Beispiel: Man stelle sich vor, man will durch Zurufen eine lange Reihe Menschen informieren. Wenn jeder das Gehörte kaum weiterleitet, kommt am Ende nichts mehr an.
Das Gradient Vanishing Problem ist vor allem für sehr tiefe, also viele Schichten umfassende neuronale Netze relevant. Lösungen wie spezielle Bausteine (zum Beispiel „LSTM“-Zellen bei Sprach-KI) helfen, dieses Problem zu umgehen.