不確実で現実的なものに対してマシンをトレーニングするためのより効果的な方法
ホームページホームページ > ニュース > 不確実で現実的なものに対してマシンをトレーニングするためのより効果的な方法

不確実で現実的なものに対してマシンをトレーニングするためのより効果的な方法

Jul 26, 2023

MIT ニュース オフィスの Web サイトでダウンロードできる画像は、クリエイティブ コモンズ表示、非営利、改変禁止ライセンスに基づいて、非営利団体、報道機関、および一般の人々に提供されています。 提供された画像は、サイズに合わせてトリミングする以外に変更することはできません。 画像を複製する場合はクレジットラインを使用する必要があります。 以下に提供されていない場合は、画像のクレジットを「MIT」に記載してください。

前の画像 次の画像

テニスを習っている人は、より早く上達できるように教師を雇うかもしれません。 この先生は(できれば)素晴らしいテニスプレイヤーなので、先生の真似をしようとしても生徒の学習にならない場合があります。 おそらく先生は空高く飛び上がり、器用にボレーを返したのでしょう。 学生はそれを真似することができないので、代わりにボレーを返すために必要なスキルを習得するまで、自分で他の動きをいくつか試すかもしれません。

コンピュータ科学者は、「教師」システムを使用して、タスクを完了するように別のマシンを訓練することもできます。 しかし、人間の学習と同じように、学生マシンも、いつ教師に従うべきか、いつ独自に探索すべきかを知るというジレンマに直面します。 この目的を達成するために、MIT とイスラエル工科大学テクニオンの研究者は、生徒が教師の真似をする必要がある場合 (模倣学習と呼ばれる) と、代わりに試行錯誤を通じて学習する必要がある場合 (模倣学習と呼ばれる) を自動的かつ独立して決定するアルゴリズムを開発しました。強化学習として)。

彼らの動的なアプローチにより、教師があまりにも上手すぎる場合、または十分に下手な場合に、生徒は教師の真似をすることから離れますが、そうすることでより良い結果が得られ、より迅速な学習が得られる場合には、トレーニングプロセスの後半の時点で教師に従うことに戻ります。

研究者らがこのアプローチをシミュレーションでテストしたところ、試行錯誤学習と模倣学習を組み合わせることで、1 種類の学習のみを使用した方法よりも生徒がより効果的に課題を学習できることがわかりました。

この方法は、研究者が、これまで見たことのない建物内を移動するように訓練されるロボットなど、不確実な現実世界の状況に導入されるマシンの訓練プロセスを改善するのに役立つ可能性があります。

「試行錯誤による学習と教師に従うことのこの組み合わせは非常に強力です。これにより、私たちのアルゴリズムは、どちらの手法を個別に使用しても解決できない非常に難しいタスクを解決できるようになります」と、電気工学およびコンピューターサイエンスのイダン・シェンフェルド氏は述べています。 (EECS) の大学院生であり、この手法に関する論文の主著者。

シェンフェルド氏は、共著者であるEECS大学院生のチャン・ウェイ・ホン氏とともにこの論文を執筆した。 アビブ・タマル; テクニオンの電気工学およびコンピュータサイエンスの助教授。 そして、主著者である Pulkit Agrawal 氏は、Improbable AI Lab の所長であり、コンピューター サイエンスおよび人工知能研究所の助教授でもあります。 この研究は機械学習に関する国際会議で発表される予定です。

バランスをとる

模倣学習と強化学習の間でバランスを取ろうとする既存の手法の多くは、総当たりの試行錯誤によってバランスをとります。 研究者は 2 つの学習方法の重み付けされた組み合わせを選択し、トレーニング手順全体を実行し、最適なバランスが見つかるまでこのプロセスを繰り返します。 これは非効率的であり、多くの場合、計算コストが非常に高くなるため、実行不可能です。

「私たちは、原則に基づいて、できるだけ少ないノブの調整で、高いパフォーマンスを達成するアルゴリズムを望んでいます。これらの原則が私たちの研究を推進しました」とアグラワル氏は言います。

これを達成するために、チームは以前の研究とは異なる方法で問題に取り組みました。 彼らのソリューションには、2 人の学生をトレーニングすることが含まれます。1 人目は強化学習と模倣学習を重み付けして組み合わせて使用​​し、もう 1 人目は強化学習のみを使用して同じタスクを学習します。

主なアイデアは、最初の生徒の強化と模倣の学習目標の重み付けを自動的かつ動的に調整することです。 ここで2人目の生徒が登場します。 研究者のアルゴリズムは 2 人の学生を継続的に比較します。 教師を使用した方が良い成績を収めている場合、アルゴリズムは生徒を訓練するための模倣学習に重点を置きますが、試行錯誤のみを使用している方が良い結果を得始めている場合は、強化学習からの学習に重点を置きます。

どの方法がより良い結果を達成するかを動的に決定することにより、アルゴリズムは適応性があり、トレーニング プロセス全体を通じて最適なテクニックを選択できます。 このイノベーションのおかげで、適応性のない他の方法よりも効果的に生徒を教えることができるとシェンフェルド氏は言います。

「このアルゴリズムの開発における主な課題の 1 つは、2 人の学生を個別にトレーニングすべきではないことに気づくまでに時間がかかったことでした。エージェントを接続して情報を共有させ、その後、適切なアルゴリズムを見つける必要があることが明らかになりました。この直感を技術的に根拠づける方法です」とシェンフェルド氏は言う。

難しい問題を解決する

彼らのアプローチをテストするために、研究者らは、溶岩の迷路を通って格子の反対側の隅に到達するなど、教師と生徒の模擬訓練実験を多数設定した。 この場合、教師はグリッド全体のマップを持っていますが、生徒はその前のパッチしか見ることができません。 彼らのアルゴリズムは、すべてのテスト環境でほぼ完璧な成功率を達成し、他の方法よりもはるかに高速でした。

アルゴリズムにさらに難しいテストを課すために、タッチ センサーを備えているが視覚は備えていないロボット ハンドを含むシミュレーションを設定しました。このシミュレーションでは、ペンの向きを正しい姿勢に変更する必要があります。 教師はペンの実際の方向にアクセスできましたが、生徒はペンの方向を決定するためにタッチ センサーを使用することしかできませんでした。

彼らの方法は、模倣学習のみまたは強化学習のみを使用する他の方法よりも優れたパフォーマンスを示しました。

物体の向きを変えることは、将来の家庭用ロボットが実行する必要がある多くの操作タスクのうちの 1 つであり、Improbable AI ラボがそのビジョンに向けて取り組んでいるとアグラワル氏は付け加えた。

教師と生徒の学習は、シミュレーションで複雑な物体操作や移動を実行するロボットの訓練に適用され、学習したスキルを現実世界に応用することに成功しました。 これらの方法では、教師はシミュレーションからアクセスできる特権情報を持ちますが、現実世界に展開された場合には生徒はアクセスできません。 たとえば、教師は、カメラで撮影した画像のみを使用して学生ロボットがナビゲートするように訓練されている建物の詳細な地図を知ることができます。

「ロボット工学における生徒と教師の学習のための現在の方法は、生徒が教師の真似をすることができないことを考慮していないため、パフォーマンスが制限されています。新しい方法は、優れたロボットを構築するための道を切り開きます」とアグラワル氏は言います。

研究者らは、より優れたロボットとは別に、彼らのアルゴリズムには模倣学習や強化学習が使用されるさまざまなアプリケーションのパフォーマンスを向上させる可能性があると信じています。 たとえば、GPT-4 などの大規模な言語モデルは、幅広いタスクを実行するのに非常に優れているため、おそらく、大規模なモデルを教師として使用して、特定のタスクでさらに「優れた」小さな学生モデルをトレーニングすることができます。 。 もう 1 つの興味深い方向性は、それぞれの教師から学習する機械と人間の類似点と相違点を調査することです。 このような分析は学習体験の向上に役立つ可能性があると研究者らは述べている。

「関連する手法と比較して、このアプローチが興味深いのは、さまざまなパラメーターの選択に対してどれほど堅牢であるか、そしてさまざまな領域で有望な結果が示されているかということです」と、ワシントン大学の助教授であるアビシェク・グプタ氏は言う。この作品。 「現在の一連の結果は主にシミュレーションによるものですが、触覚センシングなどのさまざまなモダリティを使用して、この研究を記憶や推論を含む問題に適用できる将来の可能性に非常に興奮しています。」

「この研究は、強化学習で以前の計算作業を再利用する興味深いアプローチを示しています。特に、彼らが提案した方法は、教師を模倣するという目的とタスクを最適化するという目的のバランスをとるために、従来の方法で必要とされる慎重なハイパーパラメーターのスケジュールを回避しながら、最適ではない教師のポリシーをガイドとして活用できます。」報酬です」と、Google Brain の上級研究員である Rishabh Agarwal 氏も付け加えましたが、彼もこの研究には関与していませんでした。 「この研究により、学習されたポリシーを使用した強化学習の煩雑さが軽減されることを願っています。」

この研究は、MIT-IBM Watson AI Lab、現代自動車、DARPA Machine Common Sense Program、および海軍研究局によって一部支援されました。

前の項目 次の項目

バランスをとる 困難な問題を解決する