Q-Learning 互動實驗

強化學習:Q-Learning

按「單步」看一次更新,按「一鍵訓練到完成」看策略如何形成。

State:當前情境 Action:可選動作 Reward:本步回饋 Q 值:動作評分

第一頁|迷宮學習

5×5 迷宮

目標:從起點走到終點,避開牆壁與陷阱。

規則:每回合最多 32 步,共 60 回合。
回饋:終點 +1、陷阱 -1、移動 -0.03、撞牆 -0.12。
總步數
0
當前 Episode
1
本步 Reward
0.00
最近 20 步平均 Reward
0.00

參數與本步更新

Q 更新
高:多嘗試;低:多用目前最佳。
高:更新快;低:更新穩。
高:重視長期;低:重視當下。
--
尚未執行。
按「單步」開始。
Q(s,a) ← Q(s,a) + α × [reward + γ × maxQ(s') - Q(s,a)]
看右側 Reward 走勢Q-Table 亮度變化。

Reward 走勢

最近 70 步
Step 0|尚無資料

    訓練結果

    最佳路徑
    完成回合 / 60
    0 / 60
    到達終點率
    --
    成功平均步數
    --
    最佳路徑步數
    --
    完成訓練後顯示最佳路徑。

    Q-Table(位置 × 動作)

    可走格 × 4 動作
    位置 向上 向下 向左 向右

    市場環境與狀態

    關卡 1|穩定市場
    市場結構改變,AI 需要重新學習。
    目前 State
    --
    AI 本步動作
    --
    本步 Reward
    --
    累積總分
    0.00

    操作

    快速體驗
    關卡 1:趨勢穩定、較容易學習;關卡 2:高波動、訊號雜訊較多;關卡 3:中途規則改變(Regime Shift),需重新適應。
    高:多嘗試;低:多用目前最佳。
    高:更新快;低:更新穩。
    高:重視長期;低:重視當下。
    規則:完整訓練 240 步;狀態=市場(上漲/下跌/震盪) × 持倉(空手/多單)。
    回饋包含損益、交易成本、風險;關卡 3 在第 45 步後轉向。

    本步更新

    Q 更新
    決策模式 --
    下一個 State --
    TD Error --
    本步市場報酬 --
    按「單步執行」開始。
    Q(s,a) ← Q(s,a) + α × [reward + γ × maxQ(s') - Q(s,a)]
    Q-Table 亮度變化,找出 AI 偏好的動作。

    Q-Table

    6 狀態 × 3 動作
    State(市場|持倉) 買進 賣出 觀望
    不偏好
    偏好

    學習結論

    訓練中
    完成步數
    0 / 240
    累積 Reward
    0.00
    平均每步 Reward
    0.00
    正回饋比例
    0.0%
    按「一鍵訓練到完成」查看本次學習結論。

      Test Scoring

      尚未測試
      測試步數
      120
      模型報酬率
      --
      基準報酬率
      --
      正報酬步數比例
      --
      完成訓練後可執行測試打分,查看模型報酬率。