Beispiel · Case Study

Cartpilot: 38% weniger Agent-Abbrüche in 30 Tagen.

Cartpilot konvertierte gut für Menschen, aber AI-Agenten konnten Varianten, Service-Level und Bundle-Regeln nicht vergleichen. Wir bauten die Produktbelege um, klärten den Checkout und hinterließen einen wiederholbaren Agent-Readiness-Test.

Der Kontext

Cartpilot beliefert Industrie- und Werkstattkunden mit Komponenten und Verbrauchsmaterial, 12.400 SKUs, die meisten mit zwei bis sieben Varianten. Die menschliche Conversion lag stabil bei 4,7%.

Anfang 2026 begannen AI-Agenten den Katalog zu crawlen: GPT-Operator- und Perplexity-Comet-Sessions tauchten in den Logs auf. Sie konvertierten zu 0,4%. Die Agenten fanden Cartpilot und kauften bei der Konkurrenz.

Wo der Pfad brach

Wir rekonstruierten 47 Agenten-Sessions der letzten 60 Tage. Drei Brüche erklärten die meisten Fehler:

Varianten ohne Anker

Das Marketing nannte eine 'Pro'-Version, aber nichts sagte dem Agenten, welche SKU das war oder wie sie sich in Spannung, Passung oder Kapazität unterschied. Agenten wählten nach Lieferzeit, oft die falsche Variante.

Regeln, die zu spät auftauchten

Service-Level und Bundle-Grenzen lösten sich erst im Warenkorb auf. Headless-Agenten brachen nach 30 Sekunden Inaktivität ab, bevor sie die Optionen überhaupt sahen.

Kompatibilität in PDFs eingeschlossen

Was sich kombinieren ließ, steckte in Spec-Sheets, die der Crawler nicht zitieren konnte. Agenten bauten ungültige Bundles und werteten das als Fehler des Shops.

"Wir hatten kein Conversion-Problem. Wir hatten ein Agent-Trust-Problem. In 30 Tagen war es weg."
Head of Product, Cartpilot

Was wir gemacht haben

Vier Workstreams parallel über 30 Tage. Jeder mit klarem Owner und einem Kriterium, das vor Live-Gang erfüllt sein musste.

Die Decision-Hotspots kartiert

Wir spielten die echte Kaufaufgabe nach, 'finde einen 110V-Akkuschrauber mit Express-Versand, kompatibel zum vorhandenen Akkusystem', und markierten jede Stelle, an der Agenten stockten. Ergebnis: eine 12-Punkte-Heatmap pro Top-Kategorie, gewichtet nach Umsatz-Risiko.

Methode

GPT-4 Action Replay + interne Browser-Telemetrie. Ergebnis: eine Hotspot-Liste, kein 60-Seiten-Audit.

Jede Variante selbsterklärend gemacht

Für 11 wiederkehrende Varianten-Achsen bauten wir Distinguishing-Fact-Templates und spielten sie über 6.214 PDPs als JSON-LD ein, damit Agenten die Fakten direkt parsen statt Fließtext zu scrapen.

Methode

Schema.org ProductGroup mit variesBy + Produkt-Knoten pro Variante. 6.214 Seiten in 8 Tagen migriert, validiert gegen Google Rich Results und einen headless Agenten-Crawl.

product-group.jsonldJSON-LD

1{2  "@context": "https://schema.org",3  "@type": "ProductGroup",4  "name": "Akku-Schlagbohrer",5  // die Achsen, die ein Agent unterscheiden muss6  "variesBy": ["voltage", "batterySystem"],7  "hasVariant": [{8    "@type": "Product",9    "sku": "DRL-110-PRO",10    "name": "Schlagbohrer 110V Pro",11    "additionalProperty": [12      { "@type": "PropertyValue", "name": "voltage", "value": "110V" },13      { "@type": "PropertyValue", "name": "batterySystem", "value": "M-Core" }14    ]15  }]16}

Die Regeln vor den Warenkorb gezogen

Service-Level und Bundle-Grenzen wanderten auf die Produktseite, als semantische Optionen, die Agenten vor dem Commit bewerten konnten. So fiel die Entscheidung dort, wo der Agent noch Kontext hatte.

Methode

Service-Level als beschriftetes <select>, Defaults pro Kategorie, lesbar im headless Browsing ohne JS.

Den Test übergeben

Die 47 Agentenaufgaben wurden zu einem CI-Check, der vor jedem Release läuft. Unter 90% Task-Completion blockiert das Deployment, so wird ein schwaches neues Produkt vor dem Launch gefangen, nicht danach.

Methode

Playwright + Anthropic Claude API als Agenten-Simulator, integriert über GitHub Actions.

Ergebnis nach 30 Tagen

Drei Kennzahlen, und die wichtigste lässt sich aufschlüsseln.

38%weniger Agent-Abbrüche

61%mehr Produktbelege live

−38% Agent-Abbrüche

Die 38% setzten sich aus vier Hebeln zusammen, die wir einzeln gemessen haben:

klarere Varianten-Belege+14%
Service-Level vorgezogen+12%
Bundle-Grenzen im strukturierten Markup+8%
QA-validierte PDPs vor Launch+4%

Was geblieben ist

Das Bleibende war nicht das Redesign, es war der Test. Cartpilot lässt die 47 Agentenaufgaben jetzt vor jedem Release laufen, also prüft das Team Produkt-Readiness selbst, so wie es prüft, ob eine Seite rendert. Wartung: rund zwei Stunden im Monat.

Nächste Case Study

Alle Case Studies →

Beispiel · Case Study

Das Gleiche für deinen Shop?

Meinen Shop prüfen

Cartpilot: 38% weniger Agent-Abbrüche in 30 Tagen.

Der Kontext

Wo der Pfad brach

Varianten ohne Anker

Regeln, die zu spät auftauchten

Kompatibilität in PDFs eingeschlossen

Was wir gemacht haben

Die Decision-Hotspots kartiert

Jede Variante selbsterklärend gemacht

Die Regeln vor den Warenkorb gezogen

Den Test übergeben

Ergebnis nach 30 Tagen

Was geblieben ist

Nächste Case Study

Verity Goods: 42% weniger Policy-Eskalationen in 6 Wochen.

Northstar: 74% mehr beantwortbare Produktfragen in 8 Wochen.