PeacePal

Runtime error

SwatGarg commited on Mar 26

Commit

535ba6d

•

1 Parent(s): de2ee39

Update q_learning_chatbot.py

Files changed (1) hide show

q_learning_chatbot.py CHANGED Viewed

@@ -49,7 +49,7 @@ class QLearningChatbot:
         next_state_index = self.states.index(next_state)
         current_q_value = self.q_values[current_state_index]
-        max_next_q_value = np.max(self.q_values[next_state_index, :])
         new_q_value = current_q_value + self.learning_rate * (reward + self.discount_factor * max_next_q_value - current_q_value)
         self.q_values[current_state_index] = new_q_value

         next_state_index = self.states.index(next_state)
         current_q_value = self.q_values[current_state_index]
+        max_next_q_value = np.max(self.q_values[next_state_index])
         new_q_value = current_q_value + self.learning_rate * (reward + self.discount_factor * max_next_q_value - current_q_value)
         self.q_values[current_state_index] = new_q_value