Reinforcement Learning im Einsatz für die Recommendation Engine
So wie Benno die Möglichkeit hat verschiedene Aktionen wie Laufen oder Schnuppern durchzuführen, kann auch der Agent verschiedene Aktionen ausführen. Diese Aktionen haben dann eine Auswirkung auf die Umwelt. Unser Agent hat Einfluss auf die E-Commerce Recommendations auf einer neu aufgerufenen Seite eines Online Shops. Er kann z. B. entscheiden dass nur Produkte einer bestimmten Marke angezeigt werden sollen oder nur Produkte die maximal 20€ kosten. Er kann sich auch dazu entscheiden beides gleichzeitig zu machen, so wie sich Benno entscheiden könnte zu apportieren und dabei zu Bellen.
Die Entscheidungen des Agents haben Einfluss auf die Empfehlungen von Produkten und die personalisierten Elemente, die der Kunde sieht und können damit auch sein Verhalten beeinflussen:
- Im positiven Fall wird dem Kunden so etwas potenziell für ihn interessantes angezeigt und er kauft mehr oder mit höherer Wahrscheinlichkeit. Sollte der Kunde tatsächlich kaufen, bekommt der Agent ein digitales Leckerli, d. h. ihm wird mitgeteilt, für welchen Betrag der Kunde gekauft hat. Diese Belohnung verstärkt das Verhalten des Agents. Das heißt, wenn er später wieder einen ähnlichen Inputvektor erhält, wird er sich mit erhöhter Wahrscheinlichkeit wieder so verhalten.
- Andernfalls zögert der Kunde mit dem Kauf oder verlässt den Shop und der Agent geht leer aus. Das gezeigte Verhalten wird nicht verstärkt. Wenn der Agent später wieder einen ähnlichen Inputvektor erhält, wird er nur mit geringerer Wahrscheinlichkeit die gleiche Aktion durchführen.
Dieses Prozedere wird für viele Kunden wiederholt. Jeder einzelne Online Shopper wird somit zum Trainer des Agenten. Dieser lernt über die Zeit welche Produktempfehlungen bei welchem Verhalten eines Kunden am besten sind.
Personalisierung der Empfehlungen
Das Besondere am Agent ist, dass er auf die verschiedenen Situationen reagieren kann, in denen sich die Kunden befinden. Kunden mit ähnlichem Verhalten erzeugen ähnliche Vektoren. Zum Beispiel gibt es Kunden, die gezielt nach etwas suchen und wissen, was sie wollen. Diese Kunden schauen sich tendenziell weniger Kategorieübersichtsseiten an, verbringen dafür aber im Schnitt mehr Zeit auf jeder besuchten Seite. Bei Kunden, die stöbern und sich inspirieren lassen wollen, ist es eher umgekehrt.
Bleibe up to date in Sachen Personalisierung: Melde dich zum epoq Newsletter an. Jetzt anmelden!
Der Agent lernt sowohl solche Gruppen zu unterscheiden als auch, welche Aktion für welche Gruppe die passendste ist. Dadurch kann der Umsatz gegenüber starren Strategien, die bei jedem Kunden aufgrund voreingestellten Regeln die gleichen Aktionen ausführen, gesteigert werden.
Unser Fazit zum Einsatz von Reinforcement Learning im E-Commerce
Mit dem richtigen Training können nicht nur Hunde das Apportieren erlernen, sondern auch relevante Produktempfehlungen in Online Shops generiert werden. Dabei wird der Agent beim Reinforcement Learning mit den verschiedenen Verhaltensweisen der Shop-Nutzer trainiert und kann somit immer besser zugeschnittene Empfehlungen für den jeweiligen Kunden ausspielen.
Im zweiten Teil dieser Blogreihe beschreiben wir, wie wir Real Time Analytics benutzen, um aus dem Kundenverhalten die Inputvektoren zu erstellen. Hierbei wird ersichtlich worauf man beim Tracking achten muss, damit der Agent gute Vorhersagen machen kann.
Im dritten Teil gehen wir näher auf die selbstlernenden Algorithmen ein, mit denen unser Agent bestimmt, welche Aktionen bei welchem Inputvektor die besten sind.
Erfahre, wie Internetstores seinen Umsatz durch Empfehlungen steigert:
Jetzt Case Study lesen!