Der Begriff Multimodale Einbettungsräume stammt aus den Bereichen Künstliche Intelligenz und Big Data sowie Digitale Transformation. Hierbei geht es darum, Informationen aus verschiedenen Quellen – wie Text, Bildern, Sprache oder sogar Videos – gemeinsam in einem digitalen Raum, einem sogenannten Einbettungsraum, abzulegen und zu verknüpfen.
Stellen Sie sich diesen Einbettungsraum wie einen riesigen Schrank vor, in dem unterschiedliche Arten von Informationen nach einem einheitlichen System einsortiert sind. Dadurch kann eine KI zum Beispiel erkennen, dass ein Hund auf einem Foto und das Wort „Hund“ in einem Text zusammengehören. Sie versteht so Zusammenhänge zwischen Bildern, Wörtern und sogar Tönen viel besser.
Ein konkretes Beispiel: In der modernen Produktsuche bei Online-Shops kann eine Kundin ein Foto von einem Turnschuh hochladen und bekommt passende Ergebnisse angezeigt, als hätte sie eine detaillierte Suchanfrage geschrieben. Durch multimodale Einbettungsräume wird es für Künstliche Intelligenz möglich, verschiedene Datenarten gemeinsam auszuwerten und so intelligentere Dienstleistungen anzubieten – sei es beim Online-Shopping, in der Bildersuche oder bei Assistenzsystemen im Alltag.