２ちゃんねる ■掲示板に戻る■ 全部 1- 最新50

■ このスレッドは過去ログ倉庫に格納されています

純粋・応用数学（含むガロア理論）6

1 ：１３２人目の素数さん：2020/12/12(土) 11:50:07.88 ID:+J6pglya.net: テンプレは後で
363 ：現代数学の系譜雑談 ：2021/01/02(土) 18:07:26.98 ID:k00K5jWz.net: DeepMind「MuZero」の破壊力
AIおそるべし
こんな感じだと、将来は数学にもAIが進出してきそうですね
https://thebridge.jp/2020/12/deepminds-muzero-picks-up-the-rules-of-games-as-it-plays-the-first-part
DeepMind「MuZero」の破壊力：人工知能がチェスを学ぶ方法 1/4～4/4
【MuZeroの秘密】
SCORE 1,128 Kyle Wiggers Kyle Wiggers 2020.12.29
(抜粋)
DeepMindのチームは、ルールを自ら学習することができる高性能の機械学習モデルを追求するために、ツリーベースの探索（ツリーはセット内から情報を見つけるために使用されるデータ構造）と学習済みモデルを組み合わせたMuZeroを考案した。

本日（訳注：原文公開日は12月23日）公開されたNature誌の中で説明されているように、MuZeroはゲーム内容に最も関連する指標を予測することで、Atariの57本のゲームにある囲碁やチェス、将棋におけるAlphaZeroと同等レベルといえる業界屈指のパフォーマンスを達成した。DeepMindの強化学習チームを率いるDave Silver氏によると、MuZeroは、特にシミュレーターや明文化されたルールがない、多くの領域で学習メソッドを確立する道を開くと言う。彼は先週の電話インタビューでVentureBeatにこう語っている。

「世界は非常に混沌とした場所であるため、AIが実際にできることを広げていくためにMuZeroは本当に重要だと思います。世界は未知数であり、誰も私たちに『これがまさに世界の仕組みだ』と言わせてくれるようなルールブックを与えてはくれません。AIを世界に解き放ち、誰もルールブックをくれない問題に対して先を見越した計画を立てたいと望むならMuZeroは本当にとても必要なものです」。

つづく
364 ：現代数学の系譜雑談 ：2021/01/02(土) 18:07:46.35 ID:k00K5jWz.net: >>363
つづき

（前回からのつづき）計画を立てる能力によって人間は問題を解決し、迅速に将来について決定を下すことが可能だ。 AI領域ではこれを、先読みツリー探索と呼ばれるアプローチもしくはモデルベースのプランニングによって研究者が再現しようとした。 AlphaZeroなどの先読み探索を用いたプログラムは、チェッカー、チェス、さらにはポーカーなどの古典的なゲームで目覚ましい成功を収めている。

この点についてMuZeroは、AlphaZeroのモデルと先読みのツリー探索を組み合わせている。 MuZeroではアルゴリズムを用いて環境全体をモデル化しようとするのではなく、意思決定プロセスにとって重要であると判断した部分のみをモデル化する。

MuZeroでは観測結果（つまり、囲碁の盤面やAtariのゲーム画面の画像）を受け取ると、それらを数学的表現で「非表示状態」と呼ばれる状態に変換する。この非表示状態は、一つ前の状態と仮想的な次のアクションを受け取るプロセスによって繰り返し更新される。

DeepMindはMuZeroでは代わりに、価値関数のエンドツーエンド予測に焦点を当てたアプローチを追求した。アルゴリズムは、報酬の合計として期待される値が実際のアクションに基づく報酬の値と一致するようトレーニングされる。プログラムは環境状態のセマンティクスを持たず、ポリシー、値、および報酬の予測のみを出力する。これは、AlphaZeroの探索と同様のアルゴリズム（シングルエージェントドメインと中間報酬を可能にするよう一般化されているが）を使用し、推奨するポリシーと推定値を生成する。これらは順に、ゲーム内での行動と最終結果を伝えるために使用される。（次につづく）

囲碁に関しては、全体的な計算量が少ないにもかかわらず、MuZeroはAlphaZeroのパフォーマンスをわずかに上回った。これは、MuZeroがその位置関係をより深く理解した可能性がある証拠だと研究者は述べている。 Atariに関しては、全57ゲームを通して正規化された平均値と中央値のスコア両方でこれまでを上回る値に達し、57ゲーム中42ゲームで以前の最先端の手法（R2D2）を上回り、全てのゲームでこれまでベストとされているモデルベースアプローチを上回った。

つづく
365 ：現代数学の系譜雑談 ：2021/01/02(土) 18:08:10.92 ID:k00K5jWz.net: >>364
つづき

囲碁の場合では、研究者が1手あたりにかかる時間を10分の1秒から50秒に増やすと、MuZeroの強さはプレーヤーの相対的なスキル尺度であるEloレーティングで1,000以上増加することが明らかになった（大まかにいうと、強いアマチュアプレーヤーと一流のプロプレーヤー位の差である）。これは、MuZeroがアクションと状況を一般化することが可能であり、効果的に学習するためにすべての可能性を徹底的に探索する必要がないことを示している。（次につづく）

Silver氏は、現在の状況であってもMuZeroは、特に強化学習に関して、AIや機械学習の分野における大きな進歩の象徴であると考えている。

「私たちが行ったことは、ゲームのルールを完璧に理解した上で動作するように設計されたアルゴリズムを採用し、そこからルールに関する知識を取り除き、ゲームをプレイして勝敗を経験しながらトライ&エラーでこのアルゴリズムを学習するようにしたことです。このルールに関する知識を奪ったにもかかわらず、MuZeroは、この完璧な知識が提供された元のバージョンのアルゴリズムと同じくらい迅速に超人的なパフォーマンスを達成することを学びました。私にとって、科学的な観点から見てこれは本当の意味での変化です。これまでよりもはるかに幅広い範囲の現実の問題にこれらのことが適用できるようになるでしょう」（Silver氏）。
(引用終り)
以上

総レス数 978
594 KB

新着レスの表示

掲示板に戻る全部前100 次100 最新50

read.cgi ver.24052200