elmo式学習は、評価値だけでなく勝敗情報も組み合わせて教師信号を作る学習法として語られることがある。 雑巾絞りの発展形として説明され、WCSC27 の elmo を語るときに重要な用語である。
用語集では、
評価値と勝ち負けの合議で手の良し悪しを求め、それを教え込む雑巾絞りの発展版
と説明されている。
つまり、深い探索の評価値だけに合わせるのではなく、 実際の勝敗や終局結果も含めて教師を作る方向と理解すると分かりやすい。
雑巾絞り は、 深い読みの評価値を浅い評価へ合わせる学習法として説明されることが多い。
elmo式学習は、その延長で
の両方を利用する点が特徴として語られる。
勝敗を混ぜることで、
を学習に反映しやすくなると考えられる。
やねうら王公式サイトでも、WCSC27 の elmo が勝敗を用いたことがその後の流れに大きく影響したと述べられている。
概念的には、value ターゲットと game result を混ぜる。
target = 0.7 * search_value + 0.3 * game_result
loss = mse(predicted_value, target)
重み付けや損失関数は実装依存であり、 実際には局面選別や正則化の設計も重要になる。