\section{引言} \subsection{研究背景} 2048游戏自2014年发布以来,因其简单的规则和复杂的策略性而广受欢迎。 作为一个完全信息的确定性游戏(除了新数字的随机生成),2048为研究自监督人工智能算法提供了一个理想的测试平台。 \subsection{研究动机} 传统的卷积神经网络(CNN)在处理2048游戏时存在以下局限性: \begin{itemize} \item 固定的感受野限制了对全局信息的捕获 \item 缺乏对位置关系的显式建模 \item 难以处理不同位置间的长距离依赖关系 \end{itemize} Self-attention机制的出现为解决这些问题提供了新的思路。 通过引入2D相对位置编码,我们可以在捕获全局状态信息的同时,对棋盘任意两个位置的关系进行建模, 同时学习到位置无关的特征表示。 \subsection{符号定义} \begin{itemize} \item 棋盘矩阵 $K$ \item 矩阵元素 $K_{i,j}$ \item 方块数字 $N$ \item 对数变化后的方块数字 $N' = \log_2(N)$ \item 对数变化后的矩阵 $K'$ \end{itemize}