重构论文结构，更新章节内容

2025-07-25 10:36:25 +08:00
parent 4410defbe5
commit 94a7371822
8 changed files with 170 additions and 74 deletions
--- a/paper/sections/04_training.tex
+++ b/paper/sections/04_training.tex
@@ -0,0 +1,99 @@
+\section{模型训练}
+为了训练一个强大的估值决策模型，我们采用蒙特卡洛树搜索（MCTS）生成高质量的训练数据，
+并设计一个轻量级的残差卷积网络（RNCNN）进行初步学习与迭代。
+
+\subsection{蒙特卡洛树搜索策略}
+我们采用纯蒙特卡洛树搜索（Pure MCTS）为初始模型生成训练数据。
+MCTS的每次迭代包含四个核心步骤，以当前棋盘状态为根节点，不断扩展搜索树。
+
+\begin{itemize}
+    \item \textbf{选择 (Selection)}: 
+    %% 修改点：将UCT公式本身与选择策略分开，表述更严谨
+    从根节点开始，根据UCT（Upper Confidence bounds applied to Trees）选择策略递归选择子节点，
+    直到达到一个未完全扩展的叶子节点。该策略会选择具有最大UCT值的子节点 $i$。节点 $i$ 的UCT值计算公式为：
+    \[ \text{UCT}_i = \bar{v}_i + C \cdot \sqrt{\frac{\ln(N)}{n_i}} \]
+    其中，$\bar{v}_i$ 是子节点 $i$ 的平均回报（mean return），$N$ 是其父节点的访问次数，$n_i$ 是子节点 $i$ 的访问次数，
+    $C$ 是平衡探索与利用的常数。$i$ 遍历当前节点所有已发现的子节点。
+
+    \item \textbf{扩展 (Expansion)}: 当选择过程到达一个叶子节点 $L$ 时，若该节点所代表的局面非终局，
+    则为其创建一个或多个子节点，对应于从状态 $L$ 出发的所有合法走法。
+
+    \item \textbf{模拟 (Simulation)}: 
+    从新扩展的子节点中选择一个，开始进行快速走子（Rollout）。在此阶段，我们采用一个快速的默认策略
+    （例如，在所有合法移动中均匀随机选择）进行游戏，直至达到终局状态。终局的收益（如 胜/负/平 对应 +1/-1/0，或游戏得分）
+    被记录为本次模拟的回报 $z$。
+
+    \item \textbf{反向传播 (Backpropagation)}: 
+    将模拟得到的回报 $z$ 从该叶子节点开始，沿选择路径反向传播至根节点。
+    路径上的每个节点 $j$ 都会更新其统计量：访问次数 $n_j \leftarrow n_j + 1$，
+    总回报 $V_j \leftarrow V_j + z$。其平均回报也相应更新为 $\bar{v}_j = V_j / n_j$。
+\end{itemize}
+
+\subsection{数据结构}
+通过大量的MCTS模拟，我们将每个访问过的状态及其MCTS分析结果转化为神经网络可学习的训练样本。
+
+我们为每个经过充分模拟的状态 $S$ 生成一个训练目标。
+该目标是一个动作价值向量 $\mathbf{\pi}(S) \in \mathbb{R}^{|\mathcal{A}|}$，
+其中 $\mathcal{A} = \{\text{上, 下, 左, 右}\}$ 是动作空间。
+向量的每个分量 $\pi_a(S)$ 代表在状态 $S$ 下，
+执行动作 $a$ 后，MCTS估算出的期望回报。
+
+\begin{itemize}
+    \item 对于不合法的移动或在MCTS中未被探索到的动作 $a$，
+    我们将其价值设为一个特殊的掩码值$\pi_a = -1$，并在计算损失函数时忽略这些项。
+    \item 所有状态 $S$ 及其对应的动作价值向量 $\mathbf{\pi}(S)$ 被存储在一个持久化的缓存中。
+    该缓存结构为 $\text{Cache}: \mathcal{S} \rightarrow \mathbb{R}^{|\mathcal{A}|}$，
+    其中 $\mathcal{S}$ 是所有遇到过的状态集合。为了高效检索，我们使用状态的哈希值作为键。
+\end{itemize}
+
+缓存的更新策略如下：
+\begin{itemize}
+    \item \textbf{初始写入：} 若状态 $S$ 不在缓存中，则在完成对 $S$ 的MCTS模拟后，将映射 $S \mapsto \mathbf{\pi}(S)$ 添加到缓存中。
+    \item \textbf{缓存更新：} 
+    我们定义状态 $S$ 的（估计）价值为其最优动作的价值，即 $v_{\text{state}}(S) = \max_{a \in \mathcal{A}} \pi_a(S)$。
+    若状态 $S$ 已在缓存中，但在新一轮MCTS模拟后得到了新的价值向量 $\mathbf{\pi}'(S)$，且其状态价值 $v'_{\text{state}}(S) > v_{\text{state}}(S)$，则我们将缓存中的条目更新为 $S \mapsto \mathbf{\pi}'(S)$。此策略旨在保留能导向更优结果的搜索信息。
+\end{itemize}
+
+最终，我们将缓存中的数据转换为一个训练集 $\mathcal{D}$。对于缓存中的每一个 $(S, \mathbf{\pi}(S))$ 对，
+我们将其展开为多个独立的样本，形成训练集 $\mathcal{D} = \{(S, a, \pi_a(S)) \mid \forall S \in \text{Cache}, \forall a \in \text{valid\_actions}(S)\}$。
+
+\subsection{残差卷积网络L0}
+RNCNN\_L0 是一个为快速推理和迭代设计的轻量级估值决策模型。其结构如下：
+
+\begin{itemize}
+    \item \textbf{输入层 (Input Layer)}:
+    棋盘状态 $S \in \mathbb{R}^{H \times W}$ 首先经过特征化处理。
+    将每个非空格子的值 $V$ 通过对数函数（如 $k = \log_2(V)$）映射为整数索引，
+    再进行独热编码，形成 $C$ 个特征平面（channel）。最终的输入张量维度为 $(H, W, C)$，其中 $C$ 是编码后的特征总数。
+
+    \item \textbf{卷积主干 (Convolutional Body)}:
+    输入张量经过以下处理：
+    \begin{itemize}
+        \item \textbf{初始卷积层}: 一个 $3 \times 3$ 的填充卷积层，保持空间维度不变，后接批量归一化（Batch Normalization）和ReLU激活函数。
+        \item \textbf{残差块序列}: 两个连续的残差块，每个残差块包含两个卷积层。输入首先通过一个 $3 \times 3$ 卷积层（BN+ReLU），
+        再通过第二个 $3 \times 3$ 卷积层（BN），然后将结果与块的输入进行逐元素相加（残差连接），最后通过一个ReLU激活函数。
+    \end{itemize}
+
+    \item \textbf{输出头 (Output Head)}:
+    卷积主干输出的特征图被送入一个专门设计的输出模块：
+    \begin{itemize}
+        \item 四个并行的 $1 \times 1$ 卷积层，每个对应一个方向（上、下、左、右），将特征图扩展为 $(H, W, 4)$ 的张量。
+        \item 对每个方向通道分别应用全局最大池化（Global Max Pooling），得到四个标量值，分别对应四个方向的动作价值。
+    \end{itemize}
+\end{itemize}
+模型的损失函数采用均方误差（Mean Squared Error, MSE）。
+对于训练集中的每个样本 $(S, a, \pi_a(S))$，损失函数计算网络对状态 $S$ 预测的动作 $a$ 的价值与MCTS提供的目标价值 $\pi_a(S)$ 之间的差距。
+
+\subsection{模型初始化}
+我们在 $3 \times 3$ 的小棋盘上，依靠纯MCTS的快速搜索能力，生成大量的初始训练数据。
+通过约200,000次完整的self-play对局（每局平均约50步），我们累积了约1000万个棋盘状态对作为训练样本。
+由于小棋盘的状态空间有限，MCTS能够更快地收敛到高质量的策略，从而为模型提供优质的初始训练样本。
+
+\subsection{L0迭代与迁移}
+RNCNN\_L0模型在纯MCTS生成的初始数据上进行监督学习训练。
+训练完成的L0模型可以反过来指导MCTS的选择与模拟阶段，以替代纯随机的Rollout策略，
+从而形成一个自我对弈（self-play）的强化学习回路，持续迭代并提升模型性能。
+
+L0模型的轻量级设计使其能够直接迁移到 $4 \times 4$ 和 $5 \times 5$ 的棋盘上运行，
+为更大规模棋盘上的MCTS提供基础的估值和策略指导。由于其架构中使用了填充卷积和全局池化操作，
+模型可以自然地适应不同尺寸的输入，无需额外的结构调整。