5 Min Lesezeit

Intelligenter, schneller, präziser: Die nächste Generation der vviinn-Modelle

In der schnelllebigen KI-Welt ist „State-of-the-Art“ oft nur eine Momentaufnahme. Wir bei vviinn waren schon immer Vorreiter in der KI-gestützten Suche, aber vor Kurzem haben wir einen Schritt zurückgemacht und unsere Kernarchitektur grundlegend hinterfragt.

Konstantin Schall

In der schnelllebigen KI-Welt ist „State-of-the-Art“ oft nur eine Momentaufnahme. Wir bei vviinn waren schon immer Vorreiter in der KI-gestützten Suche, aber vor Kurzem haben wir einen Schritt zurückgemacht und unsere Kernarchitektur grundlegend hinterfragt. Das Ergebnis ist eine neue Modellgeneration – angeführt von Berry Punch und Darjeeling 2nd Flush –, die den Graben zwischen akademischen Benchmarks und der komplexen Realität im E-Commerce schließt.

Der Ausgangspunkt: Wo wir gestartet sind

Bei der Entwicklung unserer ersten Suchmaschine setzten wir auf die frühen Generationen von CLIP-Modellen. Diese waren damals revolutionär, da sie anhand riesiger Datensätze gelernt hatten, Zusammenhänge zwischen Bildern und Texten zu verstehen.

Doch diese frühen Modelle waren „Generalisten“. Sie funktionierten auf Basis breiter semantischer Annahmen – perfekt, um ein Urlaubsfoto zu beschreiben, aber oft zu ungenau für das gezielte Einkaufen. Wie meine aktuelle Forschung zeigt, kann das rein semantische Training („Semantic Supervision“) dazu führen, dass visuell völlig unterschiedliche Produkte vermischt werden, nur weil sie ähnliche Beschreibungen haben.

Ein Beispiel: Ein minimalistischer Esszimmerstuhl aus Eiche und ein rustikaler Esstisch aus Eiche fallen semantisch beide unter „Esszimmermöbel aus Holz“. Ein Standard-Suchmodell liefert bei der Suche nach dem Stuhl oft fälschlicherweise auch den Tisch, weil beide denselben „semantischen Vibe“ haben. Im E-Commerce ist das eine Sackgasse: Wer einen Stuhl sucht, will keinen Tisch kaufen.

Wir haben erkannt: Für den E-Commerce reicht semantische Ähnlichkeit nicht aus. Wir brauchen visuelle Präzision.

Bühne frei für "Berry Punch“: Das multimodale Kraftpaket

Unsere Antwort darauf ist Berry Punch, unser neuestes multimodales Modell. Es basiert direkt auf der MCIP-Methode (Multi-Caption Image Pairing), die wir in unserem aktuellen Research Paper vorstellen.

Im Gegensatz zu Standardmodellen, die oft einen Kompromiss erzwingen – also Textverständnis opfern, um eine bessere Bildsuche zu erhalten – nutzt Berry Punch eine neuartige Fine-Tuning-Strategie, um beides gleichzeitig zu meistern.

  • Visuelle Präzision durch MCIP: Der Kern von MCIP liegt darin, während des Trainings künstliche Bildbeschreibungen (Pseudo-Captions) zu erzeugen. Damit trainieren wir den Bild-Encoder gezielt auf „visuelle“ und nicht nur auf „semantische“ Ähnlichkeiten. Das Ergebnis ist ein Modell, das feine Details wie Textur, Form und Material versteht.
  • Ein Vektor, Doppelte Power: Ein entscheidender Effizienz-Durchbruch von MCIP ist, dass wir nur einen Vektor pro Produktbild speichern müssen. Während Konkurrenzlösungen oft separate Vektoren für die visuelle Suche und die Textsuche benötigen (was die Speicherkosten verdoppelt), behält unsere Architektur einen einzigen, alignierten Joint-Embedding-Space bei. Das hält unsere Infrastruktur schlank, ohne an Qualität zu verlieren.
  • Ein echter „German Native“: Jenseits der Architektur haben wir Berry Punch speziell auf E-Commerce-Daten trainiert und seine Fähigkeiten für deutsche Suchanfragen massiv erweitert.

Smarte Recommendations & "Shop the Look“

Dieser technische Fortschritt bringt zwei konkrete Vorteile für die Nutzererfahrung:

  1. Hochpräzise visuelle Empfehlungen: Das ist der Schlüssel für Funktionen wie „Das könnte Ihnen auch gefallen“. Wenn sich ein Nutzer ein bestimmtes gemustertes Sommerkleid ansieht, zeigt Berry Punch nicht einfach irgendwelche anderen Kleider. Das Modell sucht visuell exakt nach Artikeln mit demselben Schnitt oder Druckmuster – was die Kaufwahrscheinlichkeit deutlich erhöht.
  1. Smarter „Shop the Look“: Nutzer können ein Foto eines vollen Wohnzimmers hochladen, und die KI isoliert und findet präzise das gesuchte Sofa oder die Lampe – selbst in unübersichtlichen Bildausschnitten.

"Darjeeling 2nd Flush“: Tiefes Textverständnis & Parallele Intelligenz

Während Berry Punch die visuelle Ebene abdeckt, hebt unser Text-Spezialist Darjeeling im “Second Flush” das Sprachverständnis auf ein neues Level. Er ist darauf trainiert, komplexe Produktbeschreibungen und feine Attribut-Nuancen mit einer Tiefe zu erfassen, an der rein multimodale Modelle oft scheitern.

In unserer neuen Architektur löst jede Anfrage eine parallele Suche aus: Berry Punch durchsucht die Produktbilder nach visuellen Übereinstimmungen, während Darjeeling gleichzeitig die Produkttexte analysiert – von Titeln über Materialien bis hin zu Beschreibungen. Diese beiden Ergebnisströme werden anschließend zusammengeführt und kuratiert. So stellen wir sicher: Egal, ob der entscheidende Hinweis in einem Pixelmuster oder im Kleingedruckten steckt – der Nutzer findet genau das Richtige.

Größer ist nicht immer schlauer

Der aktuelle Trend geht zu massiven „Visual Large Language Models“ (VLLMs). Diese sind technisch beeindruckend, aber oft rechenintensiv und träge.

Unsere Forschung belegt, dass „größer“ bei Suchaufgaben nicht automatisch „besser“ heißt. Berry Punch übertrifft viele dieser riesigen Generalisten-Modelle bei visuellen Suchanfragen und ist dabei 10- bis 50-mal schneller. Indem wir auf spezialisierte, effiziente Architekturen statt auf reine Parametermasse setzen, liefern wir bessere Ergebnisse – ohne die Ladezeiten, die im E-Commerce sonst die Conversion-Rate drücken.

Unser Erfolgsrezept: Quantisierung & Effizienz

Um diese Geschwindigkeit weiter zu steigern, setzen wir auf fortschrittliche Dimensionsreduktion und Byte-Quantisierung. Das optimiert den Speicherbedarf und die Zugriffszeiten drastisch. So können wir riesige Produktkataloge im Hochgeschwindigkeitsspeicher vorhalten, ohne den Ballast, der normalerweise mit hochdimensionaler Vektorsuche einhergeht. Das Resultat ist ein einziger Suchraum, der schnell, schlank und unglaublich präzise ist.

Bewiesene Qualität

Die Leistung dieser Modelle ist keine graue Theorie. Sie erzielen nicht nur Bestwerte in öffentlichen Benchmarks, sondern zeigten auch in unseren internen Tests mit manuell kuratierten, produktspezifischen Datensätzen eine deutlich höhere Qualität als unsere Vorgängergeneration.

Wir sehen die Weiterentwicklung unserer Modelle nicht als Zielgerade, sondern als fortlaufenden Prozess. Da Themen wie „Agentic Commerce“ und automatisiertes Einkaufen immer realer werden, wächst der Bedarf an maschinenlesbaren und visuell präzisen Daten stetig. Wir sind stolz darauf, mit Berry Punch und Darjeeling 2nd Flush den nächsten Schritt zu gehen – und die Suche damit intelligenter, schneller und intuitiver zu machen.

Du willst tiefer in die Mathematik hinter Berry Punch eintauchen?

Die vollständige Analyse der MCIP-Architektur findest du in meinem neuesten Paper: A comprehensive approach to improving CLIP-based image retrieval while maintaining joint-embedding alignment

BUCHEN SIE IHRE DEMO

Nutzen Sie das Potenzial der visuellen Suche für E-Commerce

grüne Couch
NEWSLETTER

Abonnieren Sie unseren Newsletter

Wir schicken dir einmal pro Woche einen netten Brief. Kein Spam.