Unbeaufsichtigtes Vortraining ist ein Begriff aus den Bereichen Künstliche Intelligenz und Digitale Transformation. Es beschreibt eine Methode, wie Computer selbstständig aus großen Mengen an Daten lernen, ohne dass ein Mensch ihnen explizit sagt, was richtig oder falsch ist. Das Ziel ist, dass die Systeme Zusammenhänge und Strukturen in den Daten entdecken, um sie später für verschiedene Aufgaben zu nutzen.
Stellen Sie sich vor, ein schlauer Computer liest Millionen von Texten im Internet, um die deutsche Sprache zu verstehen. Beim unbeaufsichtigten Vortraining bekommt der Computer diese Texte, aber es sagt ihm niemand, was z.B. ein „Hund“ ist. Das System sucht also von allein nach Mustern – zum Beispiel, dass das Wort „Hund“ oft mit „bellen“ zusammen vorkommt – und speichert dieses Wissen ab.
Später kann man das trainierte System für konkrete Aufgaben nutzen, etwa beim Schreiben von automatisch generierten Texten oder beim Beantworten von Fragen. So wird unbeaufsichtigtes Vortraining heutzutage oft bei Sprachassistenten wie Siri oder Alexa eingesetzt, um sie intelligenter zu machen und Antworten zu liefern, die sich an der tatsächlichen Sprache und dem Bedarf der Nutzer orientieren.