Pseudo-Labeling ist ein Konzept aus den Bereichen Künstliche Intelligenz und Big Data und Smart Data. Es wird genutzt, um Maschinen und Computerprogramme noch smarter zu machen, besonders wenn nur wenig „echte“ Daten mit passenden Beschriftungen (Labels) vorhanden sind.
Normalerweise braucht ein Computer beim sogenannten maschinellen Lernen viele Beispiele, die schon korrekt als „Katze“ oder „Hund“ markiert sind, damit er diese Tiere auf Bildern erkennen kann. Gibt es aber nur wenige solcher markierten Bilder, kommt Pseudo-Labeling ins Spiel: Die Maschine probiert aus, unbekannte Bilder selbst zu „beschriften“. Die vom Computer entwickelten Vorschläge (Pseudo-Labels) werden dann genutzt, um die Maschine weiter zu trainieren. So kann sie aus wenig handfesten Daten viel mehr lernen.
Ein Beispiel: Eine Firma möchte ein KI-Modell entwickeln, das Krankenakten automatisch auswertet. Es gibt jedoch nur wenige medizinische Daten mit ärztlicher Diagnose. Mithilfe von Pseudo-Labeling erstellt das System eigene Vorschläge, die danach wie „echte“ Beispiele beim Lernen helfen. So verbessert sich das Modell schneller, auch ohne viel teures Expertenwissen.
Pseudo-Labeling ist ein cleverer Weg, wie Unternehmen mit wenig Daten mehr aus ihrer Künstlichen Intelligenz herausholen können.