純粋・応用数学（含むガロア理論）6

現代数学の系譜雑談

>>363
つづき

（前回からのつづき）計画を立てる能力によって人間は問題を解決し、迅速に将来について決定を下すことが可能だ。 AI領域ではこれを、先読みツリー探索と呼ばれるアプローチもしくはモデルベースのプランニングによって研究者が再現しようとした。 AlphaZeroなどの先読み探索を用いたプログラムは、チェッカー、チェス、さらにはポーカーなどの古典的なゲームで目覚ましい成功を収めている。

この点についてMuZeroは、AlphaZeroのモデルと先読みのツリー探索を組み合わせている。 MuZeroではアルゴリズムを用いて環境全体をモデル化しようとするのではなく、意思決定プロセスにとって重要であると判断した部分のみをモデル化する。

MuZeroでは観測結果（つまり、囲碁の盤面やAtariのゲーム画面の画像）を受け取ると、それらを数学的表現で「非表示状態」と呼ばれる状態に変換する。この非表示状態は、一つ前の状態と仮想的な次のアクションを受け取るプロセスによって繰り返し更新される。

DeepMindはMuZeroでは代わりに、価値関数のエンドツーエンド予測に焦点を当てたアプローチを追求した。アルゴリズムは、報酬の合計として期待される値が実際のアクションに基づく報酬の値と一致するようトレーニングされる。プログラムは環境状態のセマンティクスを持たず、ポリシー、値、および報酬の予測のみを出力する。これは、AlphaZeroの探索と同様のアルゴリズム（シングルエージェントドメインと中間報酬を可能にするよう一般化されているが）を使用し、推奨するポリシーと推定値を生成する。これらは順に、ゲーム内での行動と最終結果を伝えるために使用される。（次につづく）

囲碁に関しては、全体的な計算量が少ないにもかかわらず、MuZeroはAlphaZeroのパフォーマンスをわずかに上回った。これは、MuZeroがその位置関係をより深く理解した可能性がある証拠だと研究者は述べている。 Atariに関しては、全57ゲームを通して正規化された平均値と中央値のスコア両方でこれまでを上回る値に達し、57ゲーム中42ゲームで以前の最先端の手法（R2D2）を上回り、全てのゲームでこれまでベストとされているモデルベースアプローチを上回った。

つづく