Beim Reinforcement Learning generiert der Agent oder Entscheidungsträger seine Trainingsdaten durch Interaktion mit der Welt. Der Agent muss die Konsequenzen seiner Handlungen durch Versuch und Irrtum erfahren, anstatt ihm explizit die richtige Handlung mitzuteilen.
Problem der mehrarmigen Banditen
Beim Reinforcement Learning verwenden wir das Multi-Armed-Bandit-Problem, um das Konzept der Entscheidungsfindung unter Unsicherheit mithilfe k-armiger Banditen zu formalisieren. Beim Multi-Armed Bandit Problem muss ein Entscheidungsträger oder Agent zwischen k verschiedenen Aktionen wählen und erhält eine Belohnung basierend auf der von ihm gewählten Aktion. Das Bandit-Problem wird verwendet, um grundlegende Konzepte des verstärkenden Lernens zu beschreiben, wie z. B. Belohnungen, Zeitschritte und Werte.

Das Bild oben zeigt einen Spielautomaten, auch Bandit genannt, mit zwei Hebeln. Wir gehen davon aus, dass jeder Hebel eine eigene Belohnungsverteilung aufweist und es mindestens einen Hebel gibt, der die maximale Belohnung generiert.
Die Wahrscheinlichkeitsverteilung für die Belohnung, die jedem Hebel entspricht, ist unterschiedlich und dem Spieler (Entscheidungsträger) unbekannt. Daher besteht das Ziel hier darin, herauszufinden, welcher Hebel betätigt werden muss, um nach einer bestimmten Reihe von Versuchen die maximale Belohnung zu erhalten.
Zum Beispiel:
Stellen Sie sich einen Online-Werbeversuch vor, bei dem ein Werbetreibender die Klickrate von drei verschiedenen Anzeigen für dasselbe Produkt messen möchte. Immer wenn ein Nutzer die Website besucht, zeigt der Werbetreibende nach dem Zufallsprinzip eine Anzeige an. Der Werbetreibende überwacht dann, ob der Nutzer auf die Anzeige klickt oder nicht. Nach einer Weile stellt der Werbetreibende fest, dass eine Anzeige offenbar besser funktioniert als die anderen. Der Werbetreibende muss sich nun entscheiden, ob er bei der Anzeige mit der besten Leistung bleibt oder mit der randomisierten Studie fortfährt.
Wenn der Werbetreibende nur eine Anzeige schaltet, kann er zu den beiden anderen Anzeigen keine Daten mehr sammeln. Vielleicht ist eine der anderen Anzeigen besser, sie erscheint nur durch Zufall schlechter. Wenn die anderen beiden Anzeigen schlechter sind, kann sich die Fortsetzung der Studie negativ auf die Klickrate auswirken. Dieser Werbeversuch veranschaulicht die Entscheidungsfindung unter Unsicherheit.
Im obigen Beispiel übernimmt ein Werbetreibender die Rolle des Agenten. Der Werbetreibende muss zwischen drei verschiedenen Aktionen wählen, um die erste, zweite oder dritte Anzeige anzuzeigen. Jede Anzeige ist eine Aktion. Die Auswahl dieser Anzeige bringt eine unbekannte Belohnung mit sich. Schließlich ist der Gewinn des Werbetreibenden nach der Anzeige die Belohnung, die der Werbetreibende erhält.
Aktionswerte:
Damit der Werbetreibende entscheiden kann, welche Aktion die beste ist, müssen wir den Wert jeder Aktion definieren. Wir definieren diese Werte mithilfe der Aktionswertfunktion in der Sprache der Wahrscheinlichkeit. Der Wert der Auswahl einer Aktion Q*(A) ist definiert als die erwartete Belohnung RT wir erhalten, wenn wir eine Aktion ausführen A aus der möglichen Menge an Aktionen.
Das Ziel des Agenten besteht darin, die erwartete Belohnung zu maximieren, indem er die Aktion mit dem höchsten Aktionswert auswählt.
Schätzung des Aktionswerts:
Ochse gegen Stier
Da der Wert der Auswahl einer Aktion, d. h. Q*(A) ist dem Agenten nicht bekannt, daher verwenden wir die Stichprobendurchschnitt Methode, um es zu schätzen.

Exploration vs. Ausbeutung:
- Gierige Aktion: Wenn ein Agent eine Aktion auswählt, die derzeit den größten geschätzten Wert hat. Der Agent nutzt sein aktuelles Wissen, indem er die gierige Aktion wählt. Nicht gierige Aktion: Wenn der Agent nicht den größten geschätzten Wert wählt und auf eine sofortige Belohnung verzichtet, in der Hoffnung, mehr Informationen über die anderen Aktionen zu erhalten. Exploration: Es ermöglicht dem Agenten, sein Wissen über jede Aktion zu verbessern. Hoffentlich führt dies zu einem langfristigen Nutzen. Ausbeutung: Es ermöglicht dem Agenten, die gierige Aktion zu wählen, um zu versuchen, die größte Belohnung für einen kurzfristigen Nutzen zu erhalten. Eine rein gierige Aktionsauswahl kann zu suboptimalem Verhalten führen.
Es entsteht ein Dilemma zwischen Erkundung und Ausbeutung, da ein Agent sich nicht dafür entscheiden kann, gleichzeitig zu erforschen und auszubeuten. Daher verwenden wir die Obere Vertrauensgrenze Algorithmus zur Lösung des Explorations-Ausbeutungs-Dilemmas
Auswahl der Aktion der oberen Vertrauensgrenze:
Die Aktionsauswahl mit oberer Konfidenzgrenze nutzt die Unsicherheit in den Aktionswertschätzungen, um Exploration und Ausbeutung auszubalancieren. Da die Genauigkeit der Aktionswertschätzungen bei der Verwendung einer Stichprobe von Belohnungen mit einer inhärenten Unsicherheit behaftet ist, nutzt UCB die Unsicherheit in den Schätzungen, um die Exploration voranzutreiben.

QT(A) stellt hier die aktuelle Einschätzung der Maßnahmen dar A zum Zeitpunkt T . Wir wählen die Aktion aus, die den höchsten geschätzten Aktionswert plus den Explorationsterm mit der oberen Konfidenzgrenze aufweist.

So lesen Sie die CSV-Datei in Java
F(A) im Bild oben stellt die aktuelle Aktionswertschätzung für die Aktion dar A . Die Klammern stellen ein Konfidenzintervall dar Q*(A) was besagt, dass wir davon überzeugt sind, dass der tatsächliche Handlungswert der Handlung vorliegt A liegt irgendwo in dieser Region.
Die untere Klammer wird als Untergrenze bezeichnet, die obere Klammer als Obergrenze. Der Bereich zwischen den Klammern ist das Konfidenzintervall, das die Unsicherheit der Schätzungen darstellt. Wenn die Region sehr klein ist, können wir den tatsächlichen Wert der Aktion sehr genau erkennen A liegt in der Nähe unseres geschätzten Wertes. Wenn die Region hingegen groß ist, werden wir unsicher über den Wert der Maßnahmen A liegt in der Nähe unseres geschätzten Wertes.
Der Oberes Selbstvertrauen gebunden folgt dem Prinzip des Optimismus angesichts der Unsicherheit, was bedeutet, dass wir, wenn wir uns über eine Handlung unsicher sind, optimistisch davon ausgehen sollten, dass es sich um die richtige Handlung handelt.
Nehmen wir zum Beispiel an, wir haben diese vier Aktionen mit den damit verbundenen Unsicherheiten im Bild unten, unser Agent hat keine Ahnung, welche Aktion die beste ist. Gemäß dem UCB-Algorithmus wird also optimistisch die Aktion ausgewählt, die die höchste Obergrenze hat, d. h. A . Dadurch hat es entweder den höchsten Wert und erhält die höchste Belohnung, oder wir erfahren dadurch etwas über eine Handlung, über die wir am wenigsten wissen.

Nehmen wir an, dass nach der Auswahl der Aktion A Wir befinden uns in einem Zustand, der im Bild unten dargestellt ist. Dieses Mal wird UCB die Aktion auswählen B seit Q(B) hat die höchste obere Konfidenzgrenze, da die Aktionswertschätzung am höchsten ist, auch wenn das Konfidenzintervall klein ist.

Anfänglich erforscht UCB mehr, um die Unsicherheit systematisch zu reduzieren, doch mit der Zeit nimmt die Zahl der Untersuchungen ab. Somit können wir sagen, dass UCB im Durchschnitt eine höhere Belohnung erhält als andere Algorithmen wie Epsilon-Greedy, Optimistic Initial Values usw.