Shawdox
diff --git a/‎PolicyGradient/A3C Atari.ipynb
+2-2 b/‎PolicyGradient/A3C Atari.ipynb
+2-2
diff --git a/‎PolicyGradient/a3c/estimator_test.py
+99-99 b/‎PolicyGradient/a3c/estimator_test.py
+99-99
@@ -103,7 +103,7 @@
      "traceback": [
       "\u001b[0;31m---------------------------------------------------------------------------\u001b[0m",
       "\u001b[0;31mImportError\u001b[0m                               Traceback (most recent call last)",
-      "\u001b[0;32m<ipython-input-9-4c24ff5f438a>\u001b[0m in \u001b[0;36m<module>\u001b[0;34m()\u001b[0m\n\u001b[0;32m----> 1\u001b[0;31m \u001b[0;32mfrom\u001b[0m \u001b[0ma3c\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mworker\u001b[0m \u001b[0;32mimport\u001b[0m \u001b[0mmake_copy_params_op\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m\u001b[1;32m      2\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m      3\u001b[0m \u001b[0;32mclass\u001b[0m \u001b[0mPolicyEval\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mobject\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m      4\u001b[0m     \u001b[0;32mdef\u001b[0m \u001b[0m__init__\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0menv\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mpolicy_net\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0meval_every\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0msummary_writer\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m      5\u001b[0m         \u001b[0mself\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0menv\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0menv\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n",
+      "\u001b[0;32m<ipython-input-9-4c24ff5f438a>\u001b[0m in \u001b[0;36m<module>\u001b[0;34m()\u001b[0m\n\u001b[0;32m----> 1\u001b[0;31m \u001b[0;32mfrom\u001b[0m \u001b[0ma3c\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mworker\u001b[0m \u001b[0;32mimport\u001b[0m \u001b[0mmake_copy_params_op\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m\u001b[1;32m      2\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m      3\u001b[0m \u001b[0;32mclass\u001b[0m \u001b[0mPolicyMonitor\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mobject\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m      4\u001b[0m     \u001b[0;32mdef\u001b[0m \u001b[0m__init__\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0menv\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mpolicy_net\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0meval_every\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0msummary_writer\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m      5\u001b[0m         \u001b[0mself\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0menv\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0menv\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n",
       "\u001b[0;32m/Users/dennybritz/github/rl/PolicyGradient/a3c/worker.py\u001b[0m in \u001b[0;36m<module>\u001b[0;34m()\u001b[0m\n\u001b[1;32m     17\u001b[0m \u001b[0;32mfrom\u001b[0m \u001b[0mlib\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0matari\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mstate_processor\u001b[0m \u001b[0;32mimport\u001b[0m \u001b[0mStateProcessor\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m     18\u001b[0m \u001b[0;32mfrom\u001b[0m \u001b[0mlib\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0matari\u001b[0m \u001b[0;32mimport\u001b[0m \u001b[0mhelpers\u001b[0m \u001b[0;32mas\u001b[0m \u001b[0matari_helpers\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0;32m---> 19\u001b[0;31m \u001b[0;32mfrom\u001b[0m \u001b[0mestimators\u001b[0m \u001b[0;32mimport\u001b[0m \u001b[0mValueEstimator\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mPolicyEstimator\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m\u001b[1;32m     20\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m     21\u001b[0m \u001b[0mTransition\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mcollections\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mnamedtuple\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0;34m\"Transition\"\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0;34m[\u001b[0m\u001b[0;34m\"state\"\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0;34m\"action\"\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0;34m\"reward\"\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0;34m\"next_state\"\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0;34m\"done\"\u001b[0m\u001b[0;34m]\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n",
       "\u001b[0;31mImportError\u001b[0m: No module named 'estimators'"
      ]
@@ -112,7 +112,7 @@
    "source": [
     "from a3c.worker import make_copy_params_op\n",
     "\n",
-    "class PolicyEval(object):\n",
+    "class PolicyMonitor(object):\n",
     "    def __init__(env, policy_net, summary_writer):\n",
     "        self.env = env\n",
     "        self.global_policy_net = policy_net\n",
 
@@ -19,111 +19,111 @@
 
 
 def make_env():
-    return gym.envs.make("Breakout-v0")
+  return gym.envs.make("Breakout-v0")
 
 VALID_ACTIONS = [0, 1, 2, 3]
 
 class PolicyEstimatorTest(tf.test.TestCase):
-    def testPredict(self):
-        env = make_env()
-        sp = StateProcessor()
-        estimator = PolicyEstimator(len(VALID_ACTIONS))
-
-        with self.test_session() as sess:
-            sess.run(tf.initialize_all_variables())
-
-            # Generate a state
-            state = sp.process(env.reset())
-            processed_state = atari_helpers.atari_make_initial_state(state)
-            processed_states = np.array([processed_state])
-
-            # Run feeds
-            feed_dict = {
-                estimator.states: processed_states,
-                estimator.targets: [1.0],
-                estimator.actions: [1]
-            }
-            loss = sess.run(estimator.loss, feed_dict)
-            pred = sess.run(estimator.predictions, feed_dict)
-
-            # Assertions
-            self.assertTrue(loss > 0.0)
-            self.assertEqual(pred["probs"].shape, (1, len(VALID_ACTIONS)))
-            self.assertEqual(pred["logits"].shape, (1, len(VALID_ACTIONS)))
-
-    def testGradient(self):
-        env = make_env()
-        sp = StateProcessor()
-        estimator = PolicyEstimator(len(VALID_ACTIONS))
-
-        with self.test_session() as sess:
-            sess.run(tf.initialize_all_variables())
-
-            # Generate a state
-            state = sp.process(env.reset())
-            processed_state = atari_helpers.atari_make_initial_state(state)
-            processed_states = np.array([processed_state])
-
-            # Run feeds
-            feed_dict = {
-                estimator.states: processed_states,
-                estimator.targets: [1.0],
-                estimator.actions: [1]
-            }
-            loss = sess.run(estimator.train_op, feed_dict)
-
-            # Assertions
-            self.assertTrue(loss > 0.0)
+  def testPredict(self):
+    env = make_env()
+    sp = StateProcessor()
+    estimator = PolicyEstimator(len(VALID_ACTIONS))
+
+    with self.test_session() as sess:
+      sess.run(tf.initialize_all_variables())
+
+      # Generate a state
+      state = sp.process(env.reset())
+      processed_state = atari_helpers.atari_make_initial_state(state)
+      processed_states = np.array([processed_state])
+
+      # Run feeds
+      feed_dict = {
+        estimator.states: processed_states,
+        estimator.targets: [1.0],
+        estimator.actions: [1]
+      }
+      loss = sess.run(estimator.loss, feed_dict)
+      pred = sess.run(estimator.predictions, feed_dict)
+
+      # Assertions
+      self.assertTrue(loss > 0.0)
+      self.assertEqual(pred["probs"].shape, (1, len(VALID_ACTIONS)))
+      self.assertEqual(pred["logits"].shape, (1, len(VALID_ACTIONS)))
+
+  def testGradient(self):
+    env = make_env()
+    sp = StateProcessor()
+    estimator = PolicyEstimator(len(VALID_ACTIONS))
+
+    with self.test_session() as sess:
+      sess.run(tf.initialize_all_variables())
+
+      # Generate a state
+      state = sp.process(env.reset())
+      processed_state = atari_helpers.atari_make_initial_state(state)
+      processed_states = np.array([processed_state])
+
+      # Run feeds
+      feed_dict = {
+        estimator.states: processed_states,
+        estimator.targets: [1.0],
+        estimator.actions: [1]
+      }
+      loss = sess.run(estimator.train_op, feed_dict)
+
+      # Assertions
+      self.assertTrue(loss > 0.0)
 
 
 class ValueEstimatorTest(tf.test.TestCase):
-    def testPredict(self):
-        env = make_env()
-        sp = StateProcessor()
-        estimator = ValueEstimator()
-
-        with self.test_session() as sess:
-            sess.run(tf.initialize_all_variables())
-
-            # Generate a state
-            state = sp.process(env.reset())
-            processed_state = atari_helpers.atari_make_initial_state(state)
-            processed_states = np.array([processed_state])
-
-            # Run feeds
-            feed_dict = {
-                estimator.states: processed_states,
-                estimator.targets: [1.0],
-            }
-            loss = sess.run(estimator.loss, feed_dict)
-            pred = sess.run(estimator.predictions, feed_dict)
-
-            # Assertions
-            self.assertTrue(loss > 0.0)
-            self.assertEqual(pred["logits"].shape, (1,))
-
-    def testGradient(self):
-        env = make_env()
-        sp = StateProcessor()
-        estimator = ValueEstimator()
-
-        with self.test_session() as sess:
-            sess.run(tf.initialize_all_variables())
-
-            # Generate a state
-            state = sp.process(env.reset())
-            processed_state = atari_helpers.atari_make_initial_state(state)
-            processed_states = np.array([processed_state])
-
-            # Run feeds
-            feed_dict = {
-                estimator.states: processed_states,
-                estimator.targets: [1.0],
-            }
-            loss = sess.run(estimator.train_op, feed_dict)
-
-            # Assertions
-            self.assertTrue(loss > 0.0)
+  def testPredict(self):
+    env = make_env()
+    sp = StateProcessor()
+    estimator = ValueEstimator()
+
+    with self.test_session() as sess:
+      sess.run(tf.initialize_all_variables())
+
+      # Generate a state
+      state = sp.process(env.reset())
+      processed_state = atari_helpers.atari_make_initial_state(state)
+      processed_states = np.array([processed_state])
+
+      # Run feeds
+      feed_dict = {
+        estimator.states: processed_states,
+        estimator.targets: [1.0],
+      }
+      loss = sess.run(estimator.loss, feed_dict)
+      pred = sess.run(estimator.predictions, feed_dict)
+
+      # Assertions
+      self.assertTrue(loss > 0.0)
+      self.assertEqual(pred["logits"].shape, (1,))
+
+  def testGradient(self):
+    env = make_env()
+    sp = StateProcessor()
+    estimator = ValueEstimator()
+
+    with self.test_session() as sess:
+      sess.run(tf.initialize_all_variables())
+
+      # Generate a state
+      state = sp.process(env.reset())
+      processed_state = atari_helpers.atari_make_initial_state(state)
+      processed_states = np.array([processed_state])
+
+      # Run feeds
+      feed_dict = {
+        estimator.states: processed_states,
+        estimator.targets: [1.0],
+      }
+      loss = sess.run(estimator.train_op, feed_dict)
+
+      # Assertions
+      self.assertTrue(loss > 0.0)
 
 if __name__ == '__main__':
-    unittest.main()
+  unittest.main()