Beispiel · Case Study

Cartpilot: 38% weniger Agent-Abbrüche in 30 Tagen.

Cartpilot konvertierte gut für Menschen, aber AI-Agenten konnten Varianten, Service-Level und Bundle-Regeln nicht vergleichen. Wir bauten die Produktbelege um, klärten den Checkout und hinterließen einen wiederholbaren Agent-Readiness-Test.

Der Kontext

Cartpilot beliefert Industrie- und Werkstattkunden mit Komponenten und Verbrauchsmaterial — 12.400 SKUs, die meisten mit zwei bis sieben Varianten. Die menschliche Conversion lag stabil bei 4,7%.

Anfang 2026 begannen AI-Agenten den Katalog zu crawlen: GPT-Operator- und Perplexity-Comet-Sessions tauchten in den Logs auf. Sie konvertierten zu 0,4%. Die Agenten fanden Cartpilot und kauften bei der Konkurrenz.

Wo der Pfad brach

Wir rekonstruierten 47 Agenten-Sessions der letzten 60 Tage. Drei Brüche erklärten die meisten Fehler:

Varianten ohne Anker

Das Marketing nannte eine 'Pro'-Version, aber nichts sagte dem Agenten, welche SKU das war oder wie sie sich in Spannung, Passung oder Kapazität unterschied. Agenten wählten nach Lieferzeit — oft die falsche Variante.

Regeln, die zu spät auftauchten

Service-Level und Bundle-Grenzen lösten sich erst im Warenkorb auf. Headless-Agenten brachen nach 30 Sekunden Inaktivität ab, bevor sie die Optionen überhaupt sahen.

Kompatibilität in PDFs eingeschlossen

Was sich kombinieren ließ, steckte in Spec-Sheets, die der Crawler nicht zitieren konnte. Agenten bauten ungültige Bundles und werteten das als Fehler des Shops.

"Wir hatten kein Conversion-Problem. Wir hatten ein Agent-Trust-Problem. In 30 Tagen war es weg."

Head of Product, Cartpilot

Was wir gemacht haben

Vier Workstreams parallel über 30 Tage. Jeder mit klarem Owner und einem Kriterium, das vor Live-Gang erfüllt sein musste.

01

Die Decision-Hotspots kartiert

Wir spielten die echte Kaufaufgabe nach — 'finde einen 110V-Akkuschrauber mit Express-Versand, kompatibel zum vorhandenen Akkusystem' — und markierten jede Stelle, an der Agenten stockten. Ergebnis: eine 12-Punkte-Heatmap pro Top-Kategorie, gewichtet nach Umsatz-Risiko.

Methode

GPT-4 Action Replay + interne Browser-Telemetrie. Ergebnis: eine Hotspot-Liste, kein 60-Seiten-Audit.

02

Jede Variante selbsterklärend gemacht

Für 11 wiederkehrende Varianten-Achsen bauten wir Distinguishing-Fact-Templates und spielten sie über 6.214 PDPs als JSON-LD ein, damit Agenten die Fakten direkt parsen statt Fließtext zu scrapen.

Methode

Schema.org ProductGroup mit variesBy + Produkt-Knoten pro Variante. 6.214 Seiten in 8 Tagen migriert, validiert gegen Google Rich Results und einen headless Agenten-Crawl.

product-group.jsonldJSON-LD
{  "@context": "https://schema.org",  "@type": "ProductGroup",  "name": "Akku-Schlagbohrer",  // die Achsen, die ein Agent unterscheiden muss  "variesBy": ["voltage", "batterySystem"],  "hasVariant": [{    "@type": "Product",    "sku": "DRL-110-PRO",    "name": "Schlagbohrer 110V Pro",    "additionalProperty": [      { "@type": "PropertyValue", "name": "voltage", "value": "110V" },      { "@type": "PropertyValue", "name": "batterySystem", "value": "M-Core" }    ]  }]}
03

Die Regeln vor den Warenkorb gezogen

Service-Level und Bundle-Grenzen wanderten auf die Produktseite — als semantische Optionen, die Agenten vor dem Commit bewerten konnten. So fiel die Entscheidung dort, wo der Agent noch Kontext hatte.

Methode

Service-Level als beschriftetes <select>, Defaults pro Kategorie, lesbar im headless Browsing ohne JS.

04

Den Test übergeben

Die 47 Agentenaufgaben wurden zu einem CI-Check, der vor jedem Release läuft. Unter 90% Task-Completion blockiert das Deployment — so wird ein schwaches neues Produkt vor dem Launch gefangen, nicht danach.

Methode

Playwright + Anthropic Claude API als Agenten-Simulator, integriert über GitHub Actions.

Ergebnis nach 30 Tagen

Drei Kennzahlen — und die wichtigste lässt sich aufschlüsseln.

38%weniger Agent-Abbrüche
61%mehr Produktbelege live

−38% Agent-Abbrüche

Die 38% setzten sich aus vier Hebeln zusammen, die wir einzeln gemessen haben:

  • klarere Varianten-Belege+14%
  • Service-Level vorgezogen+12%
  • Bundle-Grenzen im strukturierten Markup+8%
  • QA-validierte PDPs vor Launch+4%

Was geblieben ist

Das Bleibende war nicht das Redesign — es war der Test. Cartpilot lässt die 47 Agentenaufgaben jetzt vor jedem Release laufen, also prüft das Team Produkt-Readiness selbst, so wie es prüft, ob eine Seite rendert. Wartung: rund zwei Stunden im Monat.