niceUX

Erstes umfassendes Webshop-Benchmarking

Florian Lackner

Florian Lackner

18.07.2023 25 Minuten Lesezeit

Zusammenfassung

Im Februar 2023 haben wir 50 Usability-Tests bei Piccantino durchgeführt, deren Ergebnisse wir anhand quantitativer Metriken bewertet haben. Die bekannten Problemstellen Suche, Filter und Hilfe zeigten die größten Schwächen. Und die insgesamt ermittelten Werte auf Mobilgeräten sind oftmals signifikant schlechter.

Die Erkenntnisse im Überblick

Der Ersteindruck unserer Shops fällt gemischt aus. Speziell auf Mobilgeräten ist dieser tendentiell eher schlecht.

Eine Clusteranalyse hat ergeben, dass Proband:innen mit Smartphones insgesamt tendentiell schlechter abgeschnitten haben.

Die Navigation mit Hilfe des Hauptmenüs ist einfach und verständlich.

Das Verhalten der Suche entspricht nicht den Erwartungen der User.

Filter werden häufig übersehen und sind frustrierend bei der Bedienung.

Rabattcodes können recht schnell und einfach eingelöst werden.

Der Checkout ist langwierig und mühsam, aber vertrauenswürdig.

Die Umfragewerte bei Erstbesucher:innen sind signifikant schlechter als bei Kund:innen.

Und die Umfragewerte bei Mobilgeräten sind teils signifikant schlechter als bei Desktop-Geräten.

Vielleicht hast du dich schonmal gefragt, ob es überhaupt etwas bringt, was das UX-Team da den ganzen Tag macht. Tatsächlich fragen wir uns das auch. Ständig. Immer wieder. Unsere Arbeit infrage zu stellen ist schließlich Teil unserer Arbeit. Denn nur so können wir besser werden. Immer wieder.

UX-Benchmarking kann uns dabei helfen, die Fragen nach dem »Wozu tun wir das?« und »Was bringts?« seriös und datengestützt zu beantworten.

UX-Benchmarking erlaubt uns einfach gesagt, die User-Experience unserer Shops im Laufe der Zeit zu bewerten und den Wert der Research- und Designarbeit zu tracken. Und anschließend – basierend auf den Daten – die richtigen Usability-Maßnahmen und Prioritäten für die Zukunft zu setzen.

Zur Bewertung werden quantitative UX-Kennzahlen (UX-Metrics) herangezogen, die uns etwas über die Benutzererfahrung sagen können, wenn wir sie richtig sammeln und interpretieren. Mehr über die Methode an sich erfährst du im Blogbeitrag »User-Experience messen und tracken mit UX-Benchmarking«.

Essenzielle User-Tasks im Test

Da die Durchführung und Auswertung von quantitativen Usability-Tests sehr aufwendig ist, ist es wichtig, sich auf die wesentlichsten User-Tasks zu fokussieren. Daher haben wir uns dazu entschieden, folgende wesentliche Interaktionen zu benchmarken:

  • die Navigation mithilfe des Hauptmenüs

  • das Auffinden von Produkten mithilfe der Suche und der Filter

  • das Beantworten von Fragen mithilfe unserer Hilfe-Seiten

  • das Einlösen eines Rabatt-Codes, und schlussendlich

  • das Abschließen einer Bestellung mithilfe des Checkouts

Eine Einführungsfrage zum Ersteindruck des Shops und ein standardisierter Fragebogen am Ende jedes Usability-Tests geben abschließend weitere spannende Einblicke, auf die ich später näher eingehen werde.

🌶️ Wir haben uns für Piccantino entschieden, da es für die vielen unterschiedlichen Proband:innen unserer Einschätzung nach am einfachsten ist, sich in die Situation eines Einkaufs von Lebensmitteln hineinzuversetzen. Bei spezialisierten Shops wie 3DJake müssten sich die Proband:innen möglicherweise zu sehr darauf konzentrieren, die Produkte erstmal zu verstehen. Das könnte zu einer zu starken Verzerrung der Ergebnisse führen.

Im Februar 2023 haben wir 50 Usability-Tests mit den entsprechenden Aufgabenstellungen bei Userbrain in Auftrag gegeben. 26 Tests davon wurden auf Desktop-Geräten gemacht, 24 Tests auf Mobilgeräten. Eines der Videos kannst du dir hier ansehen.

Auswertung als Herausforderung

Gemessen wurde jeweils, wie

  • lange die User je Task gebraucht haben (Time on Task)

  • wie viele Fehler sie dabei gemacht haben (Error Rate) und

  • ob sie die Aufgabe schlussendlich geschafft haben (Success Rate)

Hierbei handelt es sich also um Daten, die man in Zahlen ausdrücken kann und die schließlich künftig mit neuen Daten vergleichbar sind.

Hierbei handelt es sich damit aber auch um Daten, die mühevoll händisch gesammelt und in ein Google Spreadsheet eingetragen werden müssen, während man die knapp 13 Stunden Videomaterial (~15 Minuten je Video) sichtet.

Startzeitpunkt der Tasks. Stoppzeitpunkt der Tasks. Vergangene Zeit in der richtigen Spreadsheet-Spalte im richtigen Tabellenblatt notieren, die sich daraus ergibt. Währenddessen Fehler tracken. Anmerkungen verfassen. Und schlussendlich notieren, ob der Task erfolgreich abgeschlossen wurde. Zwischendrin das Video ständig pausieren, um keine Details zu verpassen.

Da sich Tasks dann auch noch teilweise überschneiden, gilt es, die Übersicht über mehrere getrackte Zeiten, Fehler und Kommentare im Spreadsheet über mehrere Tabellenblätter hinweg zu behalten. 🤯

Ein mühsamer, aufwendiger und fehleranfälliger Prozess. Das geht besser!

Es sollte nicht erforderlich sein, das Video ständig auf einem Bildschirm zu pausieren, um auf einem zweiten Bildschirm in einem Spreadsheet mit mehreren Tabellenblättern Daten und Anmerkungen zu erfassen.

Der Fokus sollte beim Testen auf dem Video und den Proband:innen liegen, nicht auf dem korrekten Erfassen der Daten. Darum habe ich zur einfacheren und effizienteren Testauswertung eine Web-App entwickelt, die genau das ermöglicht.

Das Interface der selbst entwickelten UX-Benchmarking Web-App
Das Interface der selbst entwickelten UX-Benchmarking Web-App

Das UX-Benchmarking Tool ermöglicht die einfache Erfassung aller relevanter Daten auf einem Bildschirm. Das Video ist groß zu sehen und fixiert, während die rechte Seitenleiste scrollbar ist und Tools zum Tracking der einzelnen Tasks zur Verfügung stellt.

Zuerst werden ganz oben im blauen Feld die grundlegenden Daten wie Name, Alter, Gerätetyp und Ersteindruck erfasst. Darunter in einzelnen sogenannten Cards befinden sich die Task. Jeder Task verfügt über eine Stoppuhr, einen Fehler-Zähler, ein Feld für Anmerkungen und einen Success-Schalter. Die Tasks können frei in den Einstellungen oben rechts definiert werden.

Auch parallel laufende Tasks können mit einem Klick auf die Start-Buttons gestartet und gestoppt werden. Alternativ dazu können auch Tastenkürzel verwendet werden, um die Hände niemals von der Tastatur nehmen zu müssen.

Nach der Erfassung aller Daten können diese mit einem Klick auf »Daten exportieren« oben rechts in ein Google Spreadsheet übertragen werden. Das geschieht mithilfe der entsprechenden Google API. Das Spreadsheet kann in den Einstellungen einfach angegeben und damit jederzeit dynamisch angepasst werden.

Eine um 60 % schnellere Auswertung 🚀

Durch den Einsatz des Tools entfallen die beschriebenen langwierigen Nebentätigkeiten, während man sich eigentlich auf das Video konzentrieren sollte.

Das Erfassen der Daten funktioniert mit der Web-App sogar so gut und effizient, dass die Videos in der Regel mit doppelter Geschwindigkeit abgespielt werden können. Die Stoppuhr läuft dann natürlich automatisch doppelt so schnell. 🤓

Die Zeit zur Auswertung eines einzelnen Videos konnte so von rund 20 Minuten auf rund 8 Minuten um 60 % reduziert werden. Potentiell fast 17 Stunden mühsame Arbeit zur Auswertung konnten also auf insgesamt nur rund 7 Stunden reduziert werden.

Besonders im Hinblick auf viele weitere Benchmarking-Auswertungen hat sich die kleine Web-App schon jetzt als äußerst effektives Werkzeug etabliert.

Gemischte Ersteindrücke und ein großer Problembanner

Zurück zum Thema, nämlich den hier eigentlich relevanten Daten und Fakten aus den Usability-Videos. Das erste, was wir von den Proband:innen gehört haben, war ihr Ersteindruck der Startseite.

Die Kommentare dazu fielen sehr gemischt aus. Positiv wurde häufig angemerkt, dass die Startseite sehr übersichtlich und gut strukturiert wirkt. Gleichzeitig fanden andere Proband:innen, dass das Design des Shops veraltet wirkt und es auf der Startseite zu viel Text und zu wenig Produkte gibt.

Die häufigste Anmerkung über tatsächlich alle Proband:innen hinweg war, dass der große Hero-Banner die Seite unübersichtlich und überladen wirken lässt. Der Hero-Banner war es schließlich auch, der häufig für das erste Usability-Problem gesorgt hat: Die generische Gestaltung des Sale-Banners hat dafür gesorgt, dass es für die Proband:innen schwierig zu erkennen war, worum es bei dem Webshop eigentlich geht.

Interessanter wird es, wenn wir beginnen, die Ersteindrücke zu quantifizieren. Also zu versuchen, diese Worte in Zahlen auszudrücken.

Auffällig war ja, dass sehr viele Proband:innen direkt den prominenten Hero-Banner angesprochen haben.

36 %
Hero-Banner generell erwähnt
28 %
Hero-Banner negativ erwähnt
8 %
Hero-Banner positiv erwähnt

Deshalb haben wir als erstes gezählt, dass es 18 der 50 Proband:innen waren, die den Hero-Banner erwähnt haben. 14 davon haben sich negativ darüber geäußert, nur 4 positiv.

»Zusammengewürfelte Stock-Bilder und viel zu hoher Banner!«

Um die Stimmungslage der Ersteindrücke generell zu erfassen, haben wir eine sogenannte Sentimentanalyse durchgeführt. Dafür haben wir die jeweilige Stimmung der einzelnen Ersteindrücke in positiv, neutral und negativ eingeteilt.

Dabei hat sich gezeigt, dass weniger als die Hälfte aller Proband:innen einen rein positiven Ersteindruck hatten.

48 %
positiver Ersteindruck
28 %
neutraler Ersteindruck
24 %
negativer Ersteindruck

»Man wird von Angeboten und zu vielen Texten direkt erschlagen. Die Seite ist unübersichtlich, auch wegen des hohen Banners.«

Gleichzeitig haben wir uns die Geräte je Sentiment angesehen. Dabei ergibt sich folgendes Bild.

Desktop Mobile
positiv 16 8
neutral 6 8
negativ 4 8

Aus den Daten geht damit hervor, dass Proband:innen mit Desktop-Geräten eher dazu neigen, einen positiven Ersteindruck zu haben, während jene mit Smartphones gleichmäßig über die drei Sentiment-Kategorien verteilt sind.

⚠️ Wir haben geprüft, ob die Unterschiede im Ersteindruck zwischen den Geräten tatsächlich statistisch signifikant sind. Der p-Wert für den t-Test beträgt etwa 0,047, was bedeutet, dass die Unterschiede tatsächlich statistisch signifikant sein könnten. Ein p-Wert kleiner als 0,05 wird in der Regel als Hinweis darauf angesehen, dass es einen signifikanten Unterschied zwischen den Gruppen gibt. Da 0,047 sehr nah an 0,05 liegt, haben wir weitere Untersuchungen durchgeführt.

Der p-Wert für den anschließend durchgeführten Chi-Quadrat-Test beträgt etwa 0,122. Auf Basis dieses Tests gibt es allerdings keinen statistisch signifikanten Zusammenhang zwischen dem Gerät und dem Sentiment.

Sobald wir neue und vor allem mehr Daten haben, werden wir die Hypothese erneut prüfen.

Es hat sich herausgestellt, dass jene Proband:innen, die einen positiven Ersteindruck hatten, beim Fragebogen am Ende des Usability-Tests eher angegeben haben, dass sie den Shop wahrscheinlich wieder besuchen würden.

Umgekehrt hat sich herausgestellt, dass wir von Proband:innen mit schlechtem ersten Eindruck keinen weiteren Besuch erwarten dürfen.

Und wieder einmal zeigt sich: Der erste Eindruck zählt.

Einfache Navigation auf allen Geräten

Versuche, den Balsam Apfel Essig der Firma Gölles mit Hilfe des Hauptmenüs zu finden, ohne dabei die Suche zu verwenden.

Die erste Aufgabe, die wir untersuchten, war das Auffinden eines Produkts – konkret Apfelessig – mit Hilfe des Hauptmenüs. Die Kriterien für Success und Error waren dabei wie folgt:

Success

Das Hauptmenü wurde gesehen und verwendet.

Error

Ein falscher Menüpunkt oder ein falscher Essig wurde gewählt.

Benchmark-Ergebnisse von Task 1 – Navigation

100 %
Success-Rate
12 %
Error-Rate
50 s
Time on Task
55 s
Desktop
44 s
Mobil

Wie man anhand der Daten erkennen kann, hat es – tatsächlich erwartungsgemäß – keine Probleme gegeben, das Hauptmenü zu finden und korrekt zu bedienen, was sich auch in der Success-Rate von 100 % widerspiegelt.

Die Error-Rate mit 12 % ist vergleichsweise niedrig. Der häufigste Fehler war, dass manche Proband:innen zuerst in der falschen Kategorie – beispielsweise in »Fruchtessige« – gesucht haben.

Im Schnitt hat es 50 Sekunden gedauert, bis das gesuchte Produkt gefunden wurde. Spannend ist, dass der Schnitt am Desktop bei 55 Sekunden liegt und auf Mobilgeräten bei nur 44 Sekunden.

⚠️ Wir haben geprüft, ob die Unterschiede bei der Time on Task zwischen den Geräten tatsächlich statistisch signifikant sind. Der p-Wert für den t-Test beträgt etwa 0,19.

Ein p-Wert größer als 0,05 wird in der Regel als Hinweis darauf angesehen, dass es keinen signifikanten Unterschied zwischen den Gruppen gibt. Sobald wir neue und vor allem mehr Daten haben, werden wir die Hypothesen erneut prüfen.

Große Usability-Probleme bei Suche und Filter

Für ein Curry benötigst du eine indische Gewürzmischung. Nutze dafür die Suche. Dir ist wichtig, dass die Mischung vegan und glutenfrei ist. Sie soll außerdem fruchtig sein.

Obwohl es für die Proband:innen bei diesem Task klingt, als wäre es nur eine Aufgabe, haben wir zusätzlich innerhalb des Such-Tasks die Filter ausgewertet, um Probleme eindeutiger identifizieren zu können.

Die Proband:innen waren aufgefordert, die Suche zu nutzen, um nach indischen Gewürzmischungen zu suchen. Anschließend sollten sie die Filter verwenden, um die Attribute vegan, glutenfrei und fruchtig zu setzen und die Produktauswahl damit stark einzuschränken.

Suche

Die Kriterien für Success und Error waren für die Suche wie folgt:

Success

Die Suche wurde gesehen und verwendet. Zumindest 1 Produkt konnte gefunden werden.

Error

Suche ohne oder mit falschem Suchergebnis. Falsches Produkt in den Warenkorb gelegt.

Benchmark-Ergebnisse von Task 2 – Suche

100 %
Success-Rate
44 %
Error-Rate
114 s
Time on Task
110 s
Desktop
118 s
Mobil

Alle Proband:innen konnten ohne Probleme direkt die Suche finden und verwenden, weshalb auch hier eine Success-Rate von 100 % vergeben werden kann.

Die Probleme begannen da, wo die Erwartungen der Proband:innen an die Suche auf die Realität traf. So haben 9 der 50 Proband:innen (18 %) direkt die Filter-Attribute in die Suche eingegeben.

Die Suche nach »indische gewürzmischung vegan glutenfrei fruchtig« ergibt bei unserer Suche allerdings keine Treffer. Auch Tipp- oder Rechtschreibfehler führten bei der ersten Suche zu keinen Ergebnissen.

Die meisten Proband:innen haben anschließend ihre Eingabe zu lediglich »indische gewürzmischung« korrigiert und konnten damit fortfahren. Zu evaluieren bleibt, ob das auch User machen, die gerade nicht in einem Usability-Test stecken und aufgefordert sind, die Aufgabe abzuschließen.

Die durchschnittliche Time on Task wirkt mit knapp 2 Minuten (114 Sekunden) für die Suche nach einem einzelnen spezifischen Produkt sehr hoch, unterscheidet sich zwischen Desktop- und Mobilgeräten dafür aber kaum. Die Time on Task wurde gestoppt, sobald ein Produkt in den Warenkorb gelegt – also erfolgreich gefunden – wurde.

Filter

Die Kriterien für Success und Error waren für die Filter wie folgt:

Success

Die Filter wurden gesehen und verwendet.

Error

Falsche Filter gesetzt, Filter-Attribut vergessen oder übersehen, Verwirrung durch unklaren Filter-Status.

Benchmark-Ergebnisse von Task 2.1 – Filter

80 %
Success-Rate
32 %
Error-Rate
32 s
Time on Task
28 s
Desktop
46 s
Mobil

Mit nur 80 % sind die Filter das Element mit der niedrigsten Success-Rate über alle Tasks hinweg. Der Grund dafür ist einfach: Sie wurden sehr häufig übersehen und damit erst gar nicht genutzt.

Einige Proband:innen haben daraufhin versucht, ein geeignetes Produkt zu finden, indem sie sich jede einzelne Produktseite und die entsprechende Produktbeschreibung angesehen haben.

Aufgrund der großen Anzahl an Produkten – selbst nach der Suche nach »indische Gewürzmischung« – waren diese Versuche aussichtslos und immer mit viel Frustration und schlussendlich einem falschen Produkt im Warenkorb verbunden.

Es sind aber hauptsächlich User von Smartphones, die für die schlechten Werte verantwortlich sind. Denn Proband:innen mit Desktop-Geräten haben eine höhere Erfolgsrate mit 92 % im Vergleich zu 67 % bei jenen mit Smartphones.

Die hohe Error-Rate von 32 % ist unter anderem auf eigenartige Filter-Bezeichnungen und nicht gefundenen oder übersehenen Filter-Optionen zurückzuführen.

Auch die mühsame Bedienung der Filter hat bei einigen Proband:innen dazu geführt, dass sie nicht alle Attribute angewandt haben sondern lieber direkt zu den Produktseiten gewechselt sind, um sich Details anzusehen.

Die eben angesprochene und im Video sichtbare mühsame Bedienung spiegelt sich auch in der durchschnittlichen Time on Task wider. Im Schnitt über eine halbe Minute zu brauchen, um lediglich 3 Filter-Optionen zu finden und zu wählen, ist definitiv zu lang.

Spannend – aber nicht verwunderlich – ist, dass die Time on Task auf Smartphones deutlich länger ist als am Desktop.

⚠️ Wir haben geprüft, ob die Unterschiede bei der Time on Task zwischen den Geräten tatsächlich statistisch signifikant sind. Der p-Wert für den t-Test beträgt etwa 0,044.

Ein p-Wert kleiner als 0,05 wird in der Regel als Hinweis darauf angesehen, dass es einen signifikanten Unterschied zwischen den Gruppen gibt. Da 0,044 sehr nah an 0,05 liegt, haben wir weitere Untersuchungen durchgeführt.

Der deshalb noch durchgeführt Mann-Whitney-U-Test wird verwendet, um zu überprüfen, ob die zwei unabhängigen Stichproben aus derselben Grundgesamtheit stammen. Das Ergebnis von p = 0,109 bedeutet, dass wir nicht genügend Beweise haben, um zu behaupten, dass es tatsächlich einen signifikanten Unterschied gibt.

Sobald wir neue und vor allem mehr Daten haben, werden wir die Hypothesen erneut prüfen.

Verwirrende Informationen in der Hilfe

Versuche bitte herauszufinden, wie lang du Zeit hast, Produkte zurückzusenden? Werden geöffnete Produkte zurückerstattet?

Ziel von Task 3 war es, herauszufinden, wie einfach und schnell es die Proband:innen schaffen, die Antworten auf diese beiden Fragen zu finden. Spoiler: Gar nicht einfach. Und gar nicht schnell.

Folgenden Abschnitt müssen die Proband:innen dafür in der Hilfe finden und richtig verstehen.

Was kann zurück geschickt werden?

Du kannst die erhaltene Ware innerhalb von 14 Tagen durch Rücksendung der Ware zurückschicken. Weiters räumen wir dir zu dieser Frist ein erweitertes Rückgaberecht von 16 Tagen ein. Somit hast du 30 Tage Zeit um die Ware zurückzusenden.

Du kannst alle ungeöffneten Produkte, die nicht benutzt und noch in der Originalverpackung sind, zu uns zurückschicken.

Man hat also 30 Tage Zeit, Artikel zurückzusenden. Dass wir das in unserer Hilfe nett verpackt haben, indem wir kommunizieren, dass wir es sind, die ein erweitertes Rückgaberecht gewähren, hat leider gar nicht gut funktioniert, wie das folgende Video zeigt.

Die Kriterien für Success und Error waren für die Hilfe wie folgt:

Success

Der relevante Hilfe-Bereich wurde gefunden.

Error

Fragen nicht oder falsch beantwortet.

Benchmark-Ergebnisse von Task 3 – Hilfe

96 %
Success-Rate
60 %
Error-Rate
93 s
Time on Task
81 s
Desktop
105 s
Mobil

Die Success-Rate von 96 % ist sehr gut, aber nicht perfekt. Warum nicht perfekt? Ein Proband hat im Widerrufsrecht nach den Antworten gesucht und diese dort nicht gefunden.

Und eine Proband:in hat auf einer Produktseite auf »Infos zum Versand und Rückversand« geklickt und dort keine Informationen zum Rückversand gefunden. Weil es diese dort fälschlicherweise gar nicht gibt.

Mit 60 % Error-Rate weist die Hilfe die höchste Fehlerquote im Vergleich zu allen anderen Tasks auf. Das liegt – wie man eindrucksvoll im Video sieht – an den vielen falschen Antworten, die gegeben wurden.

Die Time on Task scheint mit im Schnitt über 1,5 Minuten (93 Sekunden) für diese beiden Fragen sehr hoch. Viel – auch unnötiger – Text in der Hilfe erschwert die Suche und das Scannen nach Informationen vor allem auf Mobilgeräten. Es ist daher nicht verwunderlich, dass es einen großen Unterschied bei der Time on Task zwischen Desktop- und Mobilgeräten gibt. Dieser Unterschied könnte signifikant sei. Mehr Daten und weitere Untersuchungen sind dazu nötig.

⚠️ Wir haben geprüft, ob die Unterschiede bei der Time on Task zwischen den Geräten tatsächlich statistisch signifikant sind. Der p-Wert für den t-Test beträgt etwa 0,055.

Ein p-Wert kleiner als 0,05 wird in der Regel als Hinweis darauf angesehen, dass es einen signifikanten Unterschied zwischen den Gruppen gibt. Daher können wir nicht sicher schlussfolgern, dass es einen statistisch signifikanten Unterschied gibt.

Da 0,055 aber sehr nah an 0,05 liegt, haben wir weitere Untersuchungen durchgeführt. Beim anschließend durchgeführten Mann-Whitney-U-Test haben wir einen p-Wert von 0,026 erhalten. Daraus könnten wir schlussfolgern, dass es tatsächlich einen statistisch signifikanten Unterschied gibt.

Sobald wir neue und vor allem mehr Daten haben, werden wir die Hypothesen erneut prüfen.

Einfaches Einlösen von Rabattcodes

Im Internet hast du den Rabattcode UTEST10 gefunden.

Bei Task 4 haben die Proband:innen einen Rabattcode erhalten, den sie einlösen mussten.

Die Kriterien für Success und Error waren für diese Aufgabe wie folgt:

Success

Das Eingabefeld für Gutschein- und Rabattcodes wurde gefunden.

Error

Nicht auf »Einlösen« geklickt, Fehler bei der Eingabe.

Benchmark-Ergebnisse von Task 4 – Rabattcode einlösen

94 %
Success-Rate
10 %
Error-Rate
36 s
Time on Task
31 s
Desktop
47 s
Mobil

Die hohe Success-Rate von 94 % ist gut, kann aber noch verbessert werden, indem das Eingabefeld speziell im Checkout sichtbarer gemacht wird. Mithilfe des Mini-Warenkorbs kann der Warenkorb übersprungen werden, womit das dort prominente Gutschein-Eingabefeld eben auch übersprungen wird.

Das ist im ersten Videoausschnitt deutlich zu erkennen.

Die niedrige Error-Rate von 10 % ist ebenfalls ein sehr guter Wert. Dieser kann weiter minimiert werden, indem ein im Warenkorb bereits eingelöster Code im Checkout direkt als eingelöst angezeigt wird. Dieses problematische Verhalten und die damit einhergehende Verwirrung sind im zweiten Videoausschnitt im Video oben zu erkennen.

Langwieriger aber vertrauenswürdiger Checkout

Versuche bitte nun, die beiden Produkte in deinem Warenkorb als Gast zu bestellen.

Ähnlich wie bei Task 2 haben wir hier den gesamten Checkout-Prozess ausgewertet sowie innerhalb des Prozesses zusätzlich gesondert das »Meine Daten«-Formular, um mögliche Probleme eindeutiger identifizieren zu können.

Checkout

Die Kriterien für Success und Error waren für den Checkout wie folgt:

Success

Erfolgreich bis zum letzten Schritt »Bestellung überprüfen« gekommen.

Error

Fehlermeldung erhalten, verwirrende Elemente.

Benchmark-Ergebnisse von Task 5 – Checkout

98 %
Success-Rate
30 %
Error-Rate
101 s
Time on Task
101 s
Desktop
100 s
Mobil

Gut und vor allem auch wichtig ist, dass der Checkout insgesamt eine sehr hohe Success-Rate von 98 % hat. Bei einer Probandin kam es zu einer nicht weiter definierten Fehlermeldung bei der Eingabe der E-Mail-Adresse im »Meine Daten«-Formular, weshalb sie den Checkout-Prozess abgebrochen hat.

Die hohe Error-Rate von 30 % kommt hauptsächlich durch Fehlermeldungen und Verwirrungen im Checkout-Prozess zustande. Ein klarerer und verständlicherer Prozess kann künftig Eingabefehler und Unklarheiten vermeiden und diesen Wert deutlich reduzieren.

Bei der Time on Task gibt es zwischen Desktop und Mobil keinen Unterschied. Zudem gibt es erfreulicherweise keine Ausreißer in den Daten. Der Wert von im Schnitt 101 Sekunden für den gesamten Checkout ist statistisch signifikant.

⚠️ Auf Basis eines t-Tests können wir sagen, dass der beobachtete Durchschnittswert statistisch signifikant ist. Das 95 % Konfidenzintervall liegt zwischen etwa 90 und 111 Sekunden. Das bedeutet, dass wir 95 % sicher sind, dass der wahre Durchschnitt der Time on Task irgendwo dazwischen liegt.

»Meine Daten«-Formular

Aus Studien ist bekannt, dass viele Eingabefelder abschreckend wirken können und hier besondere Vorsicht bei der Gestaltung geboten ist. Um bei Veränderungen in diesem Bereich Vergleichswerte zu haben, haben wir uns diesen Schritt gesondert angesehen.

Die Kriterien für Success und Error waren für das »Meine Daten«-Formular wie folgt:

Success

Erfolgreich ausgefüllt und zum nächsten Checkout-Schritt gekommen.

Error

Fehlermeldung erhalten, verwirrende Elemente.

Benchmark-Ergebnisse von Task 5.1 – »Meine Daten«-Formular

98 %
Success-Rate
2 %
Error-Rate
43 s
Time on Task
44 s
Desktop
42 s
Mobil

Erfreulicherweise liegt auch hier die Success-Rate mit 98 % sehr hoch. Für die fehlenden 2 % ist der bereits erwähnte Checkout-Abbruch aufgrund der Fehlermeldung im Formular verantwortlich. Genau diese ist auch für den einzigen Fehler und damit die Error-Rate von 2 % ursächlich.

Das gesamte Formular kann bis zum Wechsel zum nächsten Schritt im Durchschnitt in 43 Sekunden ausgefüllt werden. Auch hier gibt es praktisch keinen Unterschied zwischen Desktop und Mobil. Der Wert von im Schnitt 43 Sekunden ist auch hier statistisch signifikant.

⚠️ Auf Basis eines t-Tests können wir sagen, dass der beobachtete Durchschnittswert statistisch signifikant ist. Das 95 % Konfidenzintervall liegt zwischen etwa 38 und 47 Sekunden. Das bedeutet, dass wir 95 % sicher sind, dass der wahre Durchschnitt der Time on Task irgendwo dazwischen liegt.

Alter und Gerät haben Einfluss auf die Performance

Ein weiterer interessanter Aspekt unserer Analyse war die Clusteranalyse, die wir durchgeführt haben. Dafür haben wir die Proband:innen in 3 Gruppen eingeteilt, basierend auf ihrer Leistung bei den verschiedenen Aufgaben. Jede Gruppe zeigt unterschiedliche Merkmale und unterschiedliche Muster in ihrer Leistung.

🤓 Wieso genau 3 Cluster? Diese Zahl wird mit der »Ellbogenmethode« ermittelt. Diese Methode hilft uns bei der Bestimmung der optimalen Anzahl von Clustern für die Clusteranalyse. Dabei wird nach einem bestimmten Punkt – dem »Ellbogen« – in einer speziellen Grafik gesucht, der die optimale Anzahl an Clustern zeigt.

Cluster 1 – die High Performer

Im 1. Cluster befinden sich Proband:innen, die eine hohe Success-Rate in allen Aufgaben bei einer gleichzeitig niedrigen Error-Rate zeigten. Die durchschnittliche Time on Task ist im Vergleich zu den anderen Clustern zudem relativ kurz. In diesem Cluster befinden sich also die Proband:innen mit den insgesamt besten Ergebnissen.

Cluster 2 – die Durchschnittlichen

Im 2. Cluster ist die Success-Rate für alle Tasks weiterhin hoch, fällt jedoch speziell bei Task 4 (Hilfe) etwas ab. Auch hier haben wir eine geringe Error-Rate. Die durchschnittliche Time on Task liegt aber etwas höher und damit zwischen der von Cluster 1 und Cluster 3.

Cluster 3 – die Herausgeforderten

Im 3. Cluster gibt es weiterhin eine hohe Success-Rate, allerdings im Vergleich die höchsten Error-Rates über alle Tasks hinweg. Zudem brauchten die Proband:innen in diesem Cluster für die Aufgaben am längsten. In diesem Cluster befinden sich also die Proband:innen mit den insgesamt schlechtesten Ergebnissen.

Spannend wird es nun, wenn wir uns konkrete Daten zu den Clustern und den sich darin befindlichen Proband:innen ansehen.

⌀ 31,8 Jahre
Cluster 1
⌀ 32,2 Jahre
Cluster 2
⌀ 40,8 Jahre
Cluster 3

Die durchschnittlichen Alterswerte sind in den Clustern 1 und 2 sehr ähnlich, in Cluster 3 aber deutlich höher. Proband:innen, die für die Tasks länger gebraucht haben und dabei häufiger Fehler gemacht haben, scheinen also auch deutlich älter zu sein.

Spannend ist auch, wie die Geräteklassen in den Clustern verteilt sind.

Desktopgeräte Mobilgeräte
Cluster 1 15 7
Cluster 2 5 2
Cluster 3 6 15

Was bedeutet das? In den gut performenden Clustern 1 und 2 gibt es mehr Desktop-Nutzer:innen, während im Cluster 3, der die schlechtesten Werte beinhaltet, mehr Mobile-Nutzer:innen sind.

Darauf deutet auch die Korrelation zwischen dem Gerätetyp und der Success-Rate bei einigen Aufgaben hin. Proband:innen mit mobilen Geräten haben wesentlich schlechter abgeschnitten.

Gleichzeitig gibt es eine Korrelation zwischen dem Gerätetyp und der Time on Task, was darauf hindeutet, dass Proband:innen mit mobilen Geräten auch deutlich länger für die Tasks brauchten.

Hier zeigt sich also erneut, dass die Experience in unseren Shops für Desktop-Geräte optimiert scheint und großer Aufholbedarf bei Mobilgeräten besteht.

Proband:innen mit signifikant schlechteren Umfragewerte als Kund:innen

Am Ende jedes Usability-Tests haben die Proband:innen standardisierte Fragen beantwortet. Standardisiert heißt, dass die Fragen wissenschaftlich erprobt sind und tatsächlich eine starke Aussagekraft über die selbst wahrgenommene Erfahrung im Webshop besitzt.

Der von uns eingesetzt Fragebogen heißt SUPR-Q und besteht aus 7 für die User-Experience relevanten Fragen.

Seit Juni 2022 führen wir exakt diese Umfrage in unseren Shops am Ende des Checkouts durch. In den nun folgenden Grafiken zeigen die blauen Linien die Daten bestehender Kund:innen (über 1400 Datensätze) und die grünen Balken die Daten der Proband:innen, die Piccantino zum ersten Mal gesehen haben.

Die Bestnote beträgt jeweils 5 »Stimme voll zu«, der schlechteste Wert 1 »Stimme gar nicht zu«.

Die Navigation im Piccantino-Shop ist einfach

⌀ 4,61
Kund:innen
⌀ 4,55
Proband:innen

Ein Einkauf im Piccantino-Shop fühlt sich sicher an

⌀ 4,6
Kund:innen
⌀ 4,57
Proband:innen

Ich finde den Piccantino-Shop ansprechend

⌀ 4,53
Kund:innen
⌀ 4,01
Proband:innen

Statistisch signifikanter Unterschied!

Die Informationen im Piccantino-Shop sind vertrauenswürdig

⌀ 4,52
Kund:innen
⌀ 4,42
Proband:innen

Der Piccantino-Shop ist schlicht und übersichtlich gestaltet

⌀ 4,52
Kund:innen
⌀ 4,01
Proband:innen

Statistisch signifikanter Unterschied!

Der Piccantino-Shop ist einfach zu nutzen

⌀ 4,59
Kund:innen
⌀ 4,44
Proband:innen

Ich werde den Piccantino-Shop wahrscheinlich in Zukunft wieder besuchen

⌀ 4,64
Kund:innen
⌀ 3,68
Proband:innen

Statistisch signifikanter Unterschied!

Ein wiederkehrendes Muster, das relativ schnell ersichtlich ist, ist, dass Kund:innen im Vergleich zu den Usability-Test-Proband:innen eher die Bestnote von 5 Punkten vergeben. Kein Umfrage-Ergebnis der Proband:innen übertrifft das der Kund:innen.

Die drei Fragen oben mit »Statistisch signifikanter Unterschied!« markierten Fragen

  • Ich finde den Piccantino-Shop ansprechend

  • Der Piccantino-Shop ist schlicht und übersichtlich gestaltet

  • Ich werde den Piccantino-Shop wahrscheinlich in Zukunft wieder besuchen

haben bei den Usability-Test-Proband:innen also sogar statistisch signifikant schlechter abgeschnitten.

Das mag aus vierlerlei Gründen vielleicht nicht überraschen – Stichwort »Kognitive Dissonanz« direkt nach einem Kauf – kann aber dennoch ein Hinweis darauf sein, dass man die Experience in unseren Shops erst gewohnt oder der Umgang damit erst gelernt werden muss.

🤓 Kognitive Dissonanz

Nach einem Kauf neigen Menschen dazu, positive Meinungen darüber zu äußern, um kognitive Dissonanz zu vermeiden. Das ist der mentale Konflikt, der entsteht, wenn eine Person zwei widersprüchliche Ideen gleichzeitig hat.

In diesem Fall könnte die Dissonanz darin bestehen, dass jemand etwas gekauft hat, aber gleichzeitig nicht vollständig zufrieden mit der Kauferfahrung ist. Um diese Dissonanz zu reduzieren, bewerten sie ihr Einkaufserlebnis also eher positiv.

Unsere umfangreichen Hauptmenüs sowie die schlecht funktionierende Suche und Filter bedürfen möglicherweise erstmal einer gewissen Eingewöhnung. Das ist ein Phänomen, das es wert ist, weiter untersucht zu werden.

Positiv jedenfalls ist die Trend-Analyse der Umfrage-Daten der Kund:innen: Die Werte sind stabil, bleiben voraussichtlich stabil und weisen insgesamt auch im Industrievergleich sehr hohe Werte auf. Diese Werte künftig auch mit Proband:innen – also Erstbesucher:innen – zu erreichen, ist unser Ziel.

Unterschiede Desktop vs. Mobil

Anschließend haben wir uns die Unterschiede bei den Antworten zwischen Desktop- und Mobilgeräten angesehen. Einige der Unterschiede sind auch hier tatsächlich statistisch signifikant.

Auffällig und zugleich etwas erschütternd ist, dass die Antworten bei Mobilgeräten – auch wenn meist nicht statistisch signifikant – bis auf eine Ausnahme immer niedriger ausfallen als bei Desktop-Geräten.

Diese eine Ausnahme ist bei den Antworten der Proband:innen auf die Frage »Die Navigation im Piccantino-Shop ist einfach« zu finden. Spannend ist, dass es gerade hier bei den Benchmarking-Daten zur Navigation (Task 1) einen recht großen Unterschied bei der durchschnittlichen Time on Task gibt, der zugunsten der Mobilgeräte ausfällt – wenn auch nicht statistisch signifikant.

Fragen mit statistisch signifikanten Unterschieden zwischen Desktop- und Mobilgeräten sind gelb markiert. Das bedeutet, dass es unwahrscheinlich ist, dass die Unterschiede zufällig sind.

Unterschiede innerhalb der bestehenden Kund:innen

Desktop Mobil
Ich werde den Piccantino-Shop wahrscheinlich in Zukunft wieder besuchen 4.69 4.61
Die Navigation im Piccantino-Shop ist einfach 4.63 4.60
Ein Einkauf im Piccantino-Shop fühlt sich sicher an 4.65 4.57
Ich finde den Piccantino-Shop ansprechend 4.57 4.50
Die Informationen im Piccantino-Shop sind vertrauenswürdig 4.55 4.51
Der Piccantino-Shop ist schlicht und übersichtlich gestaltet 4.54 4.49
Der Piccantino-Shop ist einfach zu nutzen 4.63 4.57

Unterschiede innerhalb der Usability-Test-Proband:innen

Desktop Mobil
Ich werde den Piccantino-Shop wahrscheinlich in Zukunft wieder besuchen 4.00 3.37
Die Navigation im Piccantino-Shop ist einfach 4.52 4.59
Ein Einkauf im Piccantino-Shop fühlt sich sicher an 4.63 4.52
Ich finde den Piccantino-Shop ansprechend 4.30 3.74
Die Informationen im Piccantino-Shop sind vertrauenswürdig 4.48 4.37
Der Piccantino-Shop ist schlicht und übersichtlich gestaltet 4.19 3.85
Der Piccantino-Shop ist einfach zu nutzen 4.48 4.41

Datenübergreifende Unterschiede

Desktop Mobil
Ich werde den Piccantino-Shop wahrscheinlich in Zukunft wieder besuchen 4.66 4.57
Die Navigation im Piccantino-Shop ist einfach 4.63 4.60
Ein Einkauf im Piccantino-Shop fühlt sich sicher an 4.64 4.57
Ich finde den Piccantino-Shop ansprechend 4.55 4.48
Die Informationen im Piccantino-Shop sind vertrauenswürdig 4.54 4.50
Der Piccantino-Shop ist schlicht und übersichtlich gestaltet 4.52 4.47
Der Piccantino-Shop ist einfach zu nutzen 4.62 4.56

Ein letztes interessantes Detail: Wir haben uns auch angesehen, ob es Unterschiede bei den Browsern gibt, von denen aus die Berwertungen abgegeben werden. Und tatsächlich hat sich gezeigt, dass datenübergreifend User mit Chrome statistisch signifikant bessere Bewertungen abgeben. Es bleibt zu klären, woran das liegen könnte.

Ein Versprechen

Puh, ganz schön viele Daten, oder?

Daten, die uns zeigen, dass wir gut sind. Und wo wir gut sind.

Aber auch Daten, die uns zeigen, wo wir noch nicht so gut sind. Und dass wir in vielen Bereichen noch Aufholbedarf haben.

Besonders Mobilgeräte scheinen wir bisher sehr vernachlässigt zu haben. Zu sehr. Benchmarking- und Umfrage-Daten sprechen hierbei eine geradezu eindeutige Sprache.

Aber wir werden widersprechen. Versprochen.

Florian Lackner

Florian ist User-Experience-Designer mit Fokus auf Research und beschäftigt sich am liebsten mit Benchmarks, Usability-Tests und spannenden Studien aller Art – vor allem, wenn es um Psychologie geht. Außerhalb der Arbeit findet man ihn häufig in der Küche beim Erkunden neuer Rezepte.