Proximale Policy-Optimierung (PPO) gehört in die Bereiche Künstliche Intelligenz, Automatisierung und Industrie 4.0. Dabei handelt es sich um eine Methode, mit der Maschinen und Computerprogramme lernen, eigenständig bessere Entscheidungen zu treffen. PPO ist ein Ansatz aus dem sogenannten Reinforcement Learning („bestärkendes Lernen“), einer beliebten Lernmethode in der KI.
Anstatt eine Aufgabe stur auszuführen, lernt ein Computer mithilfe von PPO schrittweise, wie er das beste Ergebnis erzielen kann. Das funktioniert so: Die Maschine probiert verschiedene Handlungen aus und wird dafür belohnt oder „bestraft“, je nachdem ob das Ergebnis gut oder schlecht ist. Mit jeder Wiederholung optimiert die KI ihr Vorgehen. Das Besondere an PPO ist, dass diese Verbesserungen sehr stabil und kontrolliert erfolgen – so wird vermieden, dass der Lernprozess zu große, fehlerhafte Sprünge macht.
Ein einfaches Beispiel: Ein Roboter soll lernen, wie er effizient Pakete in einem Lager kommissioniert. Mithilfe von Proximaler Policy-Optimierung analysiert er verschiedene Wege und Handgriffe, bewertet deren Erfolg und verfeinert so ständig sein Verhalten. So steigert er die Effizienz Schritt für Schritt und ganz automatisch.