KI Forschung Visuelle Suche KI & Produktdaten

Warum Suche mehr benötigt als Content Understanding

Standard-Image-Encoder sind nicht für Suche gebaut. Das retrieval-spezifische Fine-Tuning, das wir bei vviinn einsetzen, löst genau dieses Problem über Kataloge und Domains hinweg.

Konstantin Schall8. Juni 2026

vviinn's retrieval-specifisches Finetuning verbessert jedes pre-trained Vision Model um bis zu 12 Benchmarkpunkte

Similarity Search und semantische Empfehlungen basieren auf derselben Grundidee: Produkte und Queries werden in Vektorrepräsentationen übersetzt, anschließend werden die nächstgelegenen Treffer in einem großen Katalog gefunden. Die Modalität kann dabei unterschiedlich sein. Manche Systeme encoden Text, andere Bilder, wieder andere beides. Doch der zugrunde liegende Mechanismus ist derselbe – und damit auch das zugrunde liegende Problem.

Die meisten Modelle, die diese Vektoren erzeugen, wurden darauf trainiert, Inhalte zu verstehen: also zu erkennen, was auf einem Bild zu sehen ist, oder es einer Kategorie zuzuordnen. Das ist eine andere Aufgabe als Suche. Der Unterschied zeigt sich direkt daran, wie nützlich die Ergebnisse tatsächlich sind.

Verstehen ist nicht dasselbe wie Suchen

Ein Modell, das darauf trainiert wurde, Inhalte zu verstehen, organisiert seinen Embedding Space danach, was Produkte enthalten. Es ist gut darin, die Frage zu beantworten: „Was ist das?“

Suche muss aber eine andere Frage beantworten: „Welche anderen Produkte würde ein Nutzer als ähnlich betrachten?“

Diese beiden Fragen werden sehr unterschiedlich beantwortet. Zwei Produkte mit ähnlichem Inhalt können aus Sicht eines Users völlig unterschiedlich sein. Zwei Produkte, die sich für Shopper intuitiv ähnlich anfühlen, können sich auf der reinen Inhaltsebene deutlich unterscheiden.

Wenn ein Modell, das für Content Understanding optimiert wurde, ohne weitere Anpassung für Suche eingesetzt wird, fühlen sich die Ergebnisse oft fast richtig an: technisch in der richtigen Nachbarschaft, aber nicht das, wonach der User gesucht hat. Suchen, die eigentlich konvertieren sollten, tun es nicht.

Wie ein retrieval-optimierter Embedding Space aussieht

Retrieval braucht einen Embedding Space, in dem Nähe wahrgenommene Ähnlichkeit abbildet, nicht nur gemeinsame Inhaltsmerkmale. Produkte, die ein Nutzer als austauschbar betrachten würde, sollten nah beieinander liegen. Produkte, die oberflächlich ähnlich aussehen, im jeweiligen Kontext aber unterschiedlich wirken, sollten weiter voneinander entfernt sein.

Diese Struktur muss über den gesamten Katalog hinweg funktionieren, auch bei Produkttypen und Styles, die im Training nie vorgekommen sind.

Dafür braucht man ein Fine-Tuning, das gezielt auf Retrieval optimiert ist: mit diversen Trainingsdaten und bewusst ohne Überschneidung mit den Evaluierungs-Benchmarks. Das Ziel ist nicht, Inhalte zu erkennen, sondern den Raum entlang von Ähnlichkeit zu organisieren. So kann das Modell neue Produkte und Domains generalisieren, statt nur die Muster eines bestimmten Trainingssets zu reproduzieren.

Was die Forschung zeigt

TDie folgende Grafik stammt aus Prof. Kai Uwe Barthel’s Tutorial Advanced Methods for Visual Information Retrieval and Exploration in Large Multimedia Collections, präsentiert auf der VISAPP 2026. Sie vergleicht fünf weit verbreitete Backbone-Architekturen auf einem Retrieval-Benchmark, jeweils vor und nach retrieval-spezifischem Fine-Tuning.

Zwei Ergebnisse stechen besonders hervor.

Erstens: Retrieval-spezifisches Fine-Tuning verbessert jedes getestete Modell konsistent. Dasselbe Fine-Tuning-Regime hebt alle fünf Backbones an, unabhängig von ihrem Ausgangsniveau. Dieses Ergebnis zeigt sich über mehr als 60 evaluierte Encoder und 15 unterschiedliche Benchmark-Sets hinweg. Die konsistente Verbesserung bestätigt, dass die Lücke zwischen Standard-Pretraining und Retrieval-Performance strukturell ist, und nicht nur von einer bestimmten Architektur abhängt.

Zweitens: Die fine-getunten Modelle bleiben auch auf Daten stabil, die sie nie gesehen haben. Die Encoder verbessern sich nicht nur auf Standard-Testsets, sondern auch auf Distribution-Shift-Benchmarks, also auf Daten, die anders aussehen als alles, was im Training vorkam. Für einen Live-Katalog bedeutet diese Robustheit: Das Modell erzeugt stabile, aussagekräftige Repräsentationen für neue Produkte, sobald sie hinzukommen, inklusive neuer Styles, Kategorien und Fotografiebedingungen, die im Training nicht bekannt waren.

Was das für die Praxis bedeutet

Ein Katalog ist kein statischer Benchmark. Er wächst, nimmt neue Sortimente auf und verändert sich mit Trends und Saisons. Ein Retrieval-Modell, das für General Purpose Similarity Search auf diversen, domain-agnostischen Daten fine-getunt wurde, bietet dafür eine starke Grundlage. Es funktioniert über viele Produkttypen hinweg, ohne dass für jede Kategorie separat nachjustiert werden muss. Eine zusätzliche domain-spezifische Anpassung kann die Performance für spezialisierte Use Cases weiter verbessern.

Bei vviinn nutzen wir ein solches fine-getuntes Modell, um Similarity Search über Millionen von Produkten hinweg zu ermöglichen. Es sorgt dafür, dass Ergebnisse relevant bleiben, wenn Kund ein Foto hochladen oder Empfehlungen auf Basis eines angesehenen Produkts erhalten, ohne dass wir vorher wissen müssen, was der Katalog in der nächsten Saison enthalten wird.

Meine Forschung an der HTW Berlin hat sich genau mit diesem Problem beschäftigt: einem Fine-Tuning-Ansatz, der Retrieval über unterschiedliche visuelle Domains hinweg verbessert, ohne auf eine spezifische Domain zu überfitten. Die vollständige Methodik und die Benchmark-Ergebnisse sind in Improving Image Encoders for General Purpose Nearest Neighbor Search and Classification beschrieben; Paper, Code und Model Weights sind öffentlich verfügbar.

References

[1] K. Schall, K. U. Barthel, N. Hezel, and K. Jung, "Improving Image Encoders for General Purpose Nearest Neighbor Search and Classification," in Proceedings of the ACM International Conference on Multimedia Retrieval (ICMR), 2023. DOI: 10.1145/3591106.3592266.

[2] K. U. Barthel, "Advanced Methods for Visual Information Retrieval and Exploration in Large Multimedia Collections,” Tutorial presented at the International Conference on Computer Vision Theory and Applications (VISAPP), 2026.

Warum Suche mehr benötigt als Content Understanding

Verstehen ist nicht dasselbe wie Suchen

Wie ein retrieval-optimierter Embedding Space aussieht

Was die Forschung zeigt

Was das für die Praxis bedeutet

References

Verwandte Beiträge

Dynamic Exploration Graph: Schnelle Suche in dynamischen Katalogen

Agents Are Coming to Commerce

Bleiben Sie auf dem Laufenden