Der Begriff Class Imbalance stammt aus den Bereichen Künstliche Intelligenz, Big Data und Smart Data sowie Automatisierung. Er bezeichnet eine Situation, in der bei der Entwicklung von KI-Systemen oder beim Analysieren großer Datenmengen die einzelnen Gruppen oder „Klassen“ im Datensatz sehr ungleichmäßig verteilt sind.
Das passiert oft, wenn zum Beispiel in einem Datensatz für eine KI zur Betrugserkennung im Online-Banking 9900 normale Transaktionen, aber nur 100 betrügerische Transaktionen vorkommen. Das KI-Modell „lernt“ dann vor allem, wie normale Transaktionen aussehen, weil sie viel häufiger vorkommen. Dadurch kann es passieren, dass Betrugsfälle übersehen werden, weil sie im Verhältnis zu selten sind.
Class Imbalance ist deshalb so wichtig, weil sie die Ergebnisse von Datenanalysen und die Leistung von Künstlicher Intelligenz deutlich verschlechtern kann. Entwickler:innen müssen gezielt dagegen vorgehen, indem sie zum Beispiel zusätzliche Daten für die seltenen Klassen sammeln oder spezielle Ausgleichsverfahren einsetzen. Nur so entstehen wirklich verlässliche und faire KI-Lösungen.