In der schnelllebigen KI-Welt ist „State-of-the-Art“ oft nur eine Momentaufnahme. Wir bei vviinn waren schon immer Vorreiter in der KI-gestützten Suche, aber vor Kurzem haben wir einen Schritt zurückgemacht und unsere Kernarchitektur grundlegend hinterfragt.
.png)

In der schnelllebigen KI-Welt ist „State-of-the-Art“ oft nur eine Momentaufnahme. Wir bei vviinn waren schon immer Vorreiter in der KI-gestützten Suche, aber vor Kurzem haben wir einen Schritt zurückgemacht und unsere Kernarchitektur grundlegend hinterfragt. Das Ergebnis ist eine neue Modellgeneration – angeführt von Berry Punch und Darjeeling 2nd Flush –, die den Graben zwischen akademischen Benchmarks und der komplexen Realität im E-Commerce schließt.
Bei der Entwicklung unserer ersten Suchmaschine setzten wir auf die frühen Generationen von CLIP-Modellen. Diese waren damals revolutionär, da sie anhand riesiger Datensätze gelernt hatten, Zusammenhänge zwischen Bildern und Texten zu verstehen.
Doch diese frühen Modelle waren „Generalisten“. Sie funktionierten auf Basis breiter semantischer Annahmen – perfekt, um ein Urlaubsfoto zu beschreiben, aber oft zu ungenau für das gezielte Einkaufen. Wie meine aktuelle Forschung zeigt, kann das rein semantische Training („Semantic Supervision“) dazu führen, dass visuell völlig unterschiedliche Produkte vermischt werden, nur weil sie ähnliche Beschreibungen haben.
Ein Beispiel: Ein minimalistischer Esszimmerstuhl aus Eiche und ein rustikaler Esstisch aus Eiche fallen semantisch beide unter „Esszimmermöbel aus Holz“. Ein Standard-Suchmodell liefert bei der Suche nach dem Stuhl oft fälschlicherweise auch den Tisch, weil beide denselben „semantischen Vibe“ haben. Im E-Commerce ist das eine Sackgasse: Wer einen Stuhl sucht, will keinen Tisch kaufen.
Wir haben erkannt: Für den E-Commerce reicht semantische Ähnlichkeit nicht aus. Wir brauchen visuelle Präzision.
Unsere Antwort darauf ist Berry Punch, unser neuestes multimodales Modell. Es basiert direkt auf der MCIP-Methode (Multi-Caption Image Pairing), die wir in unserem aktuellen Research Paper vorstellen.
Im Gegensatz zu Standardmodellen, die oft einen Kompromiss erzwingen – also Textverständnis opfern, um eine bessere Bildsuche zu erhalten – nutzt Berry Punch eine neuartige Fine-Tuning-Strategie, um beides gleichzeitig zu meistern.
Dieser technische Fortschritt bringt zwei konkrete Vorteile für die Nutzererfahrung:

Während Berry Punch die visuelle Ebene abdeckt, hebt unser Text-Spezialist Darjeeling im “Second Flush” das Sprachverständnis auf ein neues Level. Er ist darauf trainiert, komplexe Produktbeschreibungen und feine Attribut-Nuancen mit einer Tiefe zu erfassen, an der rein multimodale Modelle oft scheitern.
In unserer neuen Architektur löst jede Anfrage eine parallele Suche aus: Berry Punch durchsucht die Produktbilder nach visuellen Übereinstimmungen, während Darjeeling gleichzeitig die Produkttexte analysiert – von Titeln über Materialien bis hin zu Beschreibungen. Diese beiden Ergebnisströme werden anschließend zusammengeführt und kuratiert. So stellen wir sicher: Egal, ob der entscheidende Hinweis in einem Pixelmuster oder im Kleingedruckten steckt – der Nutzer findet genau das Richtige.
Der aktuelle Trend geht zu massiven „Visual Large Language Models“ (VLLMs). Diese sind technisch beeindruckend, aber oft rechenintensiv und träge.
Unsere Forschung belegt, dass „größer“ bei Suchaufgaben nicht automatisch „besser“ heißt. Berry Punch übertrifft viele dieser riesigen Generalisten-Modelle bei visuellen Suchanfragen und ist dabei 10- bis 50-mal schneller. Indem wir auf spezialisierte, effiziente Architekturen statt auf reine Parametermasse setzen, liefern wir bessere Ergebnisse – ohne die Ladezeiten, die im E-Commerce sonst die Conversion-Rate drücken.
Um diese Geschwindigkeit weiter zu steigern, setzen wir auf fortschrittliche Dimensionsreduktion und Byte-Quantisierung. Das optimiert den Speicherbedarf und die Zugriffszeiten drastisch. So können wir riesige Produktkataloge im Hochgeschwindigkeitsspeicher vorhalten, ohne den Ballast, der normalerweise mit hochdimensionaler Vektorsuche einhergeht. Das Resultat ist ein einziger Suchraum, der schnell, schlank und unglaublich präzise ist.

Die Leistung dieser Modelle ist keine graue Theorie. Sie erzielen nicht nur Bestwerte in öffentlichen Benchmarks, sondern zeigten auch in unseren internen Tests mit manuell kuratierten, produktspezifischen Datensätzen eine deutlich höhere Qualität als unsere Vorgängergeneration.
Wir sehen die Weiterentwicklung unserer Modelle nicht als Zielgerade, sondern als fortlaufenden Prozess. Da Themen wie „Agentic Commerce“ und automatisiertes Einkaufen immer realer werden, wächst der Bedarf an maschinenlesbaren und visuell präzisen Daten stetig. Wir sind stolz darauf, mit Berry Punch und Darjeeling 2nd Flush den nächsten Schritt zu gehen – und die Suche damit intelligenter, schneller und intuitiver zu machen.
Die vollständige Analyse der MCIP-Architektur findest du in meinem neuesten Paper: A comprehensive approach to improving CLIP-based image retrieval while maintaining joint-embedding alignment