グリッパーは…試行錯誤を通して学ぶ

Dec 26, 2019

人間の手に触発されたLearningGripperには4本の指があります。機械学習ソフトウェアの助けを借りて、このグリッパーは記事を拾い上げたり向きを合わせたりするような複雑なアクションを習得できます。指の基本位置と環境からのフィードバック機能を事前に定義する必要があります。グリッパーは試行錯誤によって他のすべてのモーションシーケンスを学習します。

図に示すように、LearningGripperのタスクは、ロゴが一番上になるまでボールを回すことでした。最初はグリッパーがボールをランダムに動かしました。ボールの位置センサーは、ロゴがグリッパーの「パーム」からどれだけ離れているかに関するフィードバックを提供しました。LearningGripperはポイントシステムに基づいて報酬を受け取りました。ポイントは機械学習ソフトウェアで処理されます。時間が経つにつれて、ソフトウェアは運動戦略を開発し、グリッパーは特定の時点でどのようなアクションをとるかを学びました。可能な限り多くの肯定的なフィードバックを受け取るように動作を変更し、最終的にそのタスクに対する信頼できるソリューションを見つけます。あるグリッパーの戦略が別のグリッパーに移されると、2番目のグリッパーはそれを知識ベースとして使用して、独自の戦略をより効率的に学習します。

LearningGripperは、将来のシステムが複雑なプログラミングなしで複雑なタスクを自律的に解決する方法を示します。 LearningGripperなどの自己学習システムを生産ラインにインストールして、その動作を独立して最適化できます。