Q-Learning 互動實驗

強化學習：Q-Learning

按「單步」看一次更新，按「一鍵訓練到完成」看策略如何形成。

State：當前情境 Action：可選動作 Reward：本步回饋 Q 值：動作評分

第一頁｜迷宮學習

5×5 迷宮

目標：從起點走到終點，避開牆壁與陷阱。

規則：每回合最多 32 步，共 60 回合。
回饋：終點 +1、陷阱 -1、移動 -0.03、撞牆 -0.12。

總步數

當前 Episode

本步 Reward

0.00

最近 20 步平均 Reward

0.00

參數與本步更新

Q 更新

探索率 ε：0.24

高：多嘗試；低：多用目前最佳。

學習率 α：0.38

高：更新快；低：更新穩。

折現率 γ：0.90

高：重視長期；低：重視當下。

本步決策模式

尚未執行。

按「單步」開始。
Q(s,a) ← Q(s,a) + α × [reward + γ × maxQ(s') - Q(s,a)]

看右側 Reward 走勢與 Q-Table 亮度變化。

Reward 走勢

訓練結果

最佳路徑

完成回合 / 60

0 / 60

到達終點率

成功平均步數

最佳路徑步數

完成訓練後顯示最佳路徑。

Q-Table（位置 × 動作）

可走格 × 4 動作

位置	向上	向下	向左	向右

市場環境與狀態

關卡 1｜穩定市場

市場結構改變，AI 需要重新學習。

目前 State

AI 本步動作

本步 Reward

累積總分

0.00

操作

快速體驗

關卡（市場環境）

關卡 1：趨勢穩定、較容易學習；關卡 2：高波動、訊號雜訊較多；關卡 3：中途規則改變（Regime Shift），需重新適應。

探索率 ε：0.28

高：多嘗試；低：多用目前最佳。

學習率 α：0.34

高：更新快；低：更新穩。

折現率 γ：0.86

高：重視長期；低：重視當下。

規則：完整訓練 240 步；狀態＝市場(上漲/下跌/震盪) × 持倉(空手/多單)。
回饋包含損益、交易成本、風險；關卡 3 在第 45 步後轉向。

本步更新

Q 更新

決策模式 --

下一個 State --

TD Error --

本步市場報酬 --

按「單步執行」開始。
Q(s,a) ← Q(s,a) + α × [reward + γ × maxQ(s') - Q(s,a)]

看 Q-Table 亮度變化，找出 AI 偏好的動作。

Q-Table

6 狀態 × 3 動作

State（市場｜持倉）	買進	賣出	觀望

不偏好

偏好

學習結論

訓練中

完成步數

0 / 240

累積 Reward

0.00

平均每步 Reward

0.00

正回饋比例

0.0%

按「一鍵訓練到完成」查看本次學習結論。

Test Scoring

尚未測試

測試步數

120

模型報酬率

基準報酬率

正報酬步數比例

完成訓練後可執行測試打分，查看模型報酬率。