homework7

10422f3e · 20200318029 · 1f2efa54 · 10422f3e · 10422f3e
Commit 10422f3e authored Aug 05, 2020 by 20200318029
Show whitespace changes
Inline Side-by-side

Showing with 6 additions and 9 deletions

homework7/LinUCB-Homework.ipynb
+0 -0

homework7/LinUCB-Homework.py
+6 -9

No files found.
--- a/homework7/LinUCB-Homework.ipynb
+++ b/homework7/LinUCB-Homework.ipynb
--- a/homework7/LinUCB-Homework.py
+++ b/homework7/LinUCB-Homework.py
@@ -223,7 +223,7 @@ class bandit_evaluator(object):

    """
    def __init__(self):
-        self.bandits = []
+        self.bandit = None
        self.cum_rewards = 0
        self.ctr_history = []

@@ -241,14 +241,11 @@ class bandit_evaluator(object):
    """
    def calc_ctr(self, x, action, t):
        assert t > 0
-        bandit = self.bandits[-1]
-        pred_act = bandit.predict(x)
+        pred_act = self.bandit.predict(x)
        ### todo
-        if len(self.ctr_history):
-            hist = self.ctr_history[-1] * (t - 1)
-        else:
-            hist = 0
-        ctr = (hist + int(pred_act == action)) / t
+        if pred_act == action:
+            self.cum_rewards += 1
+        ctr = self.cum_rewards / t
        self.ctr_history.append(ctr)
        return ctr

@@ -277,6 +274,7 @@ def train(file, steps, alpha, nArms, d):
    bandit = LinUCB(alpha, d, nArms)
    # initialize bandit evaluator
    evaluator = bandit_evaluator()
+    evaluator.bandit = bandit

    for t in range(steps):
        x = getContext(data, t)
@@ -290,7 +288,6 @@ def train(file, steps, alpha, nArms, d):
            bandit.arms[arm].update_alpha(3, t)

        if t > 0: # evaluate current bandit algorithm
-            evaluator.bandits.append(bandit)
            ctr = evaluator.calc_ctr(x, action, t)
            if t % 100 == 0:
                print("Step:", t, end="")