Tip:
Highlight text to annotate it
X
私は、どのように我々についての研究を紹介するつもりです 対話的な 'の'好奇心 'ロボット学習を構築することができます
戦略的にするためのシステムを設計することによってゴールせせらぎ」 「何を」、「どのように」「とき」、およびから、選択
「誰」の情報をご覧ください。換言すれば、システム 「コンテンツ」、「手順」、「タイミング」を選択します
そして、その学習プロセスの「ソース」。
当社の長期的な目標は、「生涯有効にすることです 複数の学習うとしている、「学習
タスク、オープンエンドと進化する環境では、 と方法を選択するには、 'どのタスク」それが必要
学ぼう。
生涯学習への主な課題は、ある 学習エージェントは、「限定されたこと
限られた寿命のようなリソース」。上の 一方、環境はオープンエンドである
そしてその感覚空間が非常に高いのである 次元。そのため、エージェントは、サンプリングしています
巨大な探索空間。
心理的な開発の作品に触発された 、私たちの考えは、学習エージェントを付与することです
社会の両方を使用したサンプリング戦略 指導·ベース自律探査
人工好奇心で、また固有呼ばれる 動機。
我々は、アルゴリズムにこのアイデアを実装 決定する学習エージェントのアーキテクチャ
'何'と 'どのように'学ぶために; 「何を」、「とき」、 'どのように'と、 '誰'模倣する;
私たちが最初に我々の仕事の背景を設定してみましょう。 我々は彼らの中に学ぶことのエージェントを有効にしたい
に常に適合するように寿命 オープンエンドと環境を変える。と1
成功した学習エージェントの一例である 人間の赤ちゃん。
彼らの開発中に、我々はそれを観察することができます 彼らはさまざまなオブジェクトに焦点を当てることを選択し、
や活動、発達に応じて シーケンス。
しかし、この咲くと賑やか混乱 その環境である、どのように赤ちゃんがやる
まだ学ぶために管理し、自分のスキルを向上させる? これでこのオープンエンドな環境にもかかわらず
多くのオブジェクトと動き回る人、どのような 彼らに焦点を作る「原則は 'です
注文した方法でおもちゃやゲームか?
同様に、子供はと相互に作用することを決定 社会的パートナーか。彼らはどのように決めるのですか
いつ、誰と対話するために?
我々は、学習から、この動作を分析します 視点。どのようにこれらの選択肢は関連している
アクティブマルチタスクのための学習、生涯に 学習?
私たちは、分析することによって、これらの疑問にお答えします 我々は、サンプル方法をオープンエンドと高次元
生涯学習のための環境を提供します。
私たちは、ロボット制御によって、主に興味を持っている 。
モータ制御学習を説明することができる 確率分布の学習など
「b」の「p」は、与えられた。例えば、用 魚に学習の子供、彼女が与えられた、ことを知った
彼女は彼女と一緒に達したいと思う位置 彼女が実行するために必要なものを腕の動き、浮く。
この例では、「B」は政策こととなり、 の「a」、フロートの位置。
このような確率分布を学習するための、 学習エージェントはスペースをサンプリングしています
BとAの
しかし、私たちの現実の世界では、AとBは、連続的であることができる と高次元空間。従って
探索空間が非常に大きい。 AとBの間のマッピングは確率的であり得る
。だから、同じポリシーを繰り返すことにつながる可能性 異なる結果。
マッピングも冗長にすることができます。到達する 結果はA 2には、異なるポリシーを実行することができます。
またhomogeneousity中の問題が発生することがあります 。あなたは「非学習可能」のスペースを持っている。例えば、
あなたは目の前に魚にどのように学習している場合は、 あなただけの位置にフロートを置くことができ、湖
あなたの周りの、しばらく2キロとなる位置 あなたから国連にアクセスできます。
無制限を探索するときにも問題を抱えている 環境。データを取得するとかかるため
時間、あなただけの「限定された '寿命を持っている、 あなただけのトレーニングの数が限られていることができます
データから学ぶこと。
したがって、積極的にデータ収集を導く 寿命内で学習することができるものを最大限に高めることができます
。
複雑なモータ制御の2つの方法を学習するための その我々が開発されており、「モード」と呼びます。
それらのうち、最初の情報源として取り '先生'または社会的パートナー。我々はこれを呼び出す
モードは、探査モードを「社会的に導かれた」。 「適切なロボットコントローラを導出することができる
人間自身のパフォーマンスの観察から、 その "。
教師との相互作用は、直接的を可能にします ロボットに人間の知識の移転。
これらは、2つのサブカテゴリーに分類することができる。 擬態モードでは、学習エージェントがでしょう
教師の政策を模倣しようとします。 左側の画像上の例では、
少女は、姿勢や位置を模倣 姉の棒の。エミュレーション中
[MODE、学習エージェントが生産しようとするだろう 教師として同じ結果。少し
右側の女の子が彼女を置くしようとし 次の彼女の妹のフロートが、別のを使用しています
ポリシー。 社会的に導かれた探査、いくつかの技術のための
ロボットが開発されている。例えば、 デモンストレーションの方法でプログラミングしている
複雑な運動指令を学習するロボットを可能にする いくつかのデモからの特定の結果に到達する。
社会的に導かれた調査では、人間の入力 探検する「興味深い地域」を強調表示します。
しかしながら、これらの方法によって制限され 「スパースすることができ、データセットを教える
次善 '。教師が不足を与えないかもしれない デモの数、または彼が与えるかもしれない
悪いデモ彼は専門家ではないので、 。これらの方法は、「対応関係に対処する必要が
問題 'ときの本体とダイナミクス 教師と学習者が異なっている。第三に、
これらのメソッドは、主に到達するために開発されています 1つの目標は、殆ど拡張することはできない
マルチタスク学習のため。
第2のモードは、ソースのように「自分」を使用しています 情報。我々は、これらのメソッド「自律」を呼び出す
探査モード。学習エージェント実験 それだけで。
このような強化学習などのメソッドや 逆モデルの目標指向の学習している
複雑な運動を学習する学習エージェントを使用可能に スキル。
これらの方法は可能にするという利点を有している 「独立」のいずれかのを探求するための薬剤
人間の努力。その学習にも適応される それがないことを意味し、エージェント自身の体に
対応の問題に直面しているわけではありません。また、 いくつかの方法は、マルチタスクのために開発されている
学習。しかし、彼らはまだ問題に直面したとき 探索可能スペースに制限はありません。
方法のこれらの2つの主要なファミリーは2種類を使用 情報源の。
私たちはの利点を組み合わせるしたいと思います 単一のアーキテクチャに近づい両方
空間AとBの間のマッピングを学ぶ データを収集するには、自分で試すことができます。
また、相手のことができ、先生を観察することができます 観測されたポリシーを再生して模倣する、
または、再生することでエミュレートすることができ、誰 観測された成果。
ここでの考え方は、単一のシステムを有することである 探検の異なるモードを使用することができますし、
サンプリングモードを使用すべきかを決める。 能動学習のこの原則は、一般化することができる
その教師について活発な意思決定を持っている それがしたい場合は、エージェントは、模倣しよう
実証結果をコピーするか、自己決定 目標の結果には、コピーしたい場合は、
ポリシーを実証した。同様に、自律のための場合 学習、エージェントが決めることができます 'は成果」
それはどのポリシー」するために、ターゲットしたい、と 使用しています。
これらの質問は、アクティブで答えることができます 学習。
能動学習の方法、探査を有効にしている 予想される学習の進行状況を最大化する
、そしてこの「経験的」を「評価する」に。この [[レート150]メタ探査[[率につながる
170]問題はバンディットアルゴリズムで対処。
本研究では、異なる原理を使用 能動学習のため。
私たちは、「内発的動機づけ」の心理学の理論を使って インスピレーションとして。
本質的な動機は、何のように定義されている その固有の満足のために、活動の
むしろ、いくつかの分離可能な結果については、より。 本質的に動機づけすると、人がある
伴う楽しみや挑戦のために行動するために移動 のではなく、外来の製品、
圧力や報酬。
この理論は、心理学で最初に開発 正常ロボット学習のために適用されている
アクティブゴールせせらぎ、と。 我々には、同じ原理を使用したい
構築、複数の学習するシステムを[[165]評価] 成果の積極的な選択とタスク、
生成すると、高次元の確率的」で、 および連続「サーチスペース。
私は今の例で説明したいと思います データ収集戦略を考案するこのアイデア
、社会的な指導と人工に基づく 好奇心、非常に簡単な例の[[レート
170]]してから、後でより複雑な参照 実験装置。
教師はテーブルの上にオブジェクトを置く、としましょう、 対象物を認識できるようにするように要求
後で、これまでどのような「位置」、そして、その上に 「配向」それがあります。あなたがために何をするだろう
このオブジェクトを認識する方法を学ぶのか?
一つの答えは、「操作」である。あなたは、プッシュすることができます 異なる位置へのオブジェクト。あなたができる
持ち上げてオブジェクトをドロップしたり、人間のでき あなたのためのオブジェクトを操作する。質問
ここにある:操作はあなたをもたらすであろう オブジェクトに関するより有用な情報。
その後、だけでなく、1が、「いくつかの」がある場合 認識するためのオブジェクトが、あなたも決定する必要があります
どの操作するオブジェクトです。
このビデオでは、複数のオブジェクトを見ることができます。 ヒューマノイドロボットiCubは持ち上げてドロップすることができます
このボール。このように操作することにより、ボール 別の位置と向きに着陸する予定。
ロボットはに、ボールの新しいイメージを取得します それを認識する方法を学びます。
数学的に我々は、フレーズ、この問題をする場合は、 我々は確率分布を学習している
'b'が目的である「b」のうち 'p'は与えられた '、 とは 'a'は画像である。
我々が作るアクティブな決定に関しては、 私たちは、「操作」の選択を作っているか、
我々が使用する「サンプリングモード」。我々も積極的に 操作するために「どのオブジェクト」を選択するかにある
他の用語、「部分空間」は探検する。
これらの選択肢は、簡単に要約することができます この表。各行は、オブジェクトに対応
:車やキューブ。そして、各列に対応 操作に:押し、リフト&ドロップ、
またはヒトとの対話。 操作の組み合わせを選択し、
オブジェクトは、このテーブル内のボックスを選択することを意味します。
私たちの考えは、固有で能動学習を使用することです 能力の進歩に基づく動機
この選択をする。我々は、オブジェクトを選択します そして作ってそれを有効な操作
最も進歩。
我々は、ガンマ能力指標を定義します。のために 画像 'A'、 '能力あるのガンマ
''、正しいオブジェクト画像で認識で 。
私たちは、経験的に「Aガンマを測定します。私たちは、開始 確率的にあらゆる可能性をサンプリングすることによって。
それぞれが能力ガンマ箱のために我々は、プロット 時間に関して。例えば、この中
ケース、車を押すと、最高につながる スロープ。したがって、我々はプッシュし続けます
より多くの進歩を遂げるために車、。私たちはプッシュし続けるように 車、認識で私達の能力
車が増加する。しかし、その「傾きは 'に始まり 我々はすべてのことを学んだので、減少
車について。の能力の進展 車の減少を押す。 [[slnc 500]]だから、
私たちは、別のオブジェクトと操作に切り替わります つまり、より多くの能力を進行する。この中
場合、我々は操作する人間に要求します キューブ。繰り返しますが、私たちは求める人間を保つ
助けて、能力が高くなるまで、私たち これ以上進行することはありません。
このアイデアを実装するために、我々は、アルゴリズムを設計した 立っSGIM - 使徒と呼ばれるアーキテクチャ
社会的に導かれた内発的動機づけを持つため 教師と戦略を積極的に選択。それ
階層的アルゴリズムのアーキテクチャを採用しています 画像空間とサンプリングを探索する
モードおよびオブジェクト空間。 私たちは先生と対話した場合、我々は彼に尋ねる
私たちのためにオブジェクトを操作する。彼が渡します 私たちのオブジェクト「B」「G」。操作することにより、
対象は、彼が新たな画像を生成する '' R ' オブジェクト。私たちの認識アルゴリズムと、
我々は、このイメージでオブジェクトを '' r 'を認識 「B」「R」。と認識との比較
オブジェクト「B」「R」との正体 オブジェクトの 'B' 'G'はあなたの尺度を与える
オブジェクトの 'B' 'g'を認識で能力。 能力のこの措置はに記録されている
能力の進行状況を計算し、選択 次のサンプリングモードとオブジェクト。
あなたが自律的に探索した場合と同じ方法、 は、オブジェクト 'B' 'g'を操作することになる。
操作することで、新たな画像を生成 別の位置にあるオブジェクトの '' R '
と方向。私たちの認識アルゴリズムと、 我々は、このイメージでオブジェクトを '' r 'を認識
「B」「R」。と認識との比較 オブジェクト「B」「R」との正体
オブジェクトの 'B' 'G'はあなたの尺度を与える オブジェクトの 'B' 'g'を認識で能力。
能力のこの措置はに記録されている 能力の進行状況を計算し、選択
次のサンプリングモードとオブジェクト。
我々は、このアルゴリズムのアーキテクチャをテストしたいと思います SGIM - 使徒、サンプリングモードを選択することができるかどうかを確認する
オンライン学習のための。我々はまたしたいと思います SGIM - 使徒は悪い教師に堅牢であるかどうかをテスト
。
まず、どれだけのロボットを見てみたかった 別のを認識し、区別するために学ぶことができます
オブジェクト。私たちは、時間に対してプロットした F値としての認識レベル。各
プロットは、それが認識できる程度を表している 各オブジェクト。
SGIM - 使徒と、左のグラフに示すように、 ロボットiCubが徐々に認識することを学習
その認識レベルとして、すべてのオブジェクト 増加します。
比較では、右側にプロット 認知度ロボットは、ランダムを使用する場合
操作とオブジェクトの選択。我々はできる それはほとんどすべて認識するように学習していることがわかり
オブジェクトではなく、キューブ 緑のプロット。
さらに、我々はまた、選択肢の下にプロットされた ロボットがで、操作するオブジェクトの
時間に関して。我々に、実際にそれを見ることができます ランダムサンプリング、オブジェクト例
順序付けられていないようにして選択される。対照的に、 SGIM-行為はより規則でオブジェクトを選択する
やり方。左のグラフは、 ロボットが実際に検出することができ、そのキューブ
認識し、集中することは困難である それを操作してください。
したがって、SGIM - 使徒はランダムよりも良い学習 サンプリング。これらの実験は、
ガイドデータ収集、パフォーマンスが向上します。
第2の実験では、我々はテストを希望 上の教師の行動の影響
SGIM - 使徒のパフォーマンス。我々は行って 同じ実験が、今回の先生
常に同じ位置にオブジェクトが表示されます と方向。そのため、この悪い教師
ロボットに有用な情報を持っていません。
予想されたように、我々は右側に見ることができます 側のグラフは、ロボットが悪く実行する
以前よりも。
ここでは、ランダムサンプリング、実際にロボットと キューブを認識するように学習することはありません。
対照的に、左側のグラフ上、 それは初めに苦労するが、SGIM - 使徒
キューブを認識するために、最終的に管理しています。ザ· 下の選択したオブジェクトのプロット、ことを示してい
再び、SGIM - 使徒はに集中できた キューブ。
したがって、SGIM - 使徒は堅牢にすることができます 社会の指導の質。
我々は、この例示的な例で示した、 本質的な動機に基づいて、その能動学習
学習性能を向上させることができる。今 我々は何が起こるか調べたいと思います
我々は、より複雑な確率分布を学習する 連続空間で。
これは我々がこの第二のアドレスにしようとしたものです 実験。
釣りの実験では、ロボットアーム 配置する釣竿を操作することができます
水面に浮かんでいる。ここに 水の表面は、この表される
白い表面。上記のレコードからカメラ フロートに上陸した位置
ゴール位置に比べて緑の四角、 白丸でマークされた。
ロボットは行うことで、自律的に探索することができます ランダムな動き。
人間の教師はまた、デモを与えることを決定することができます 。
この場合、ロボットが実証模倣 運動を数回どれだけ近いかを評価する
それがで実証位置に到達することができます フロート。
定期的に、我々はまた、性能を評価 どれだけ近いか、それが可能な測定によるロボットの
事前に定義された位置に到達。ロボット缶 よくそれは探検場所に近い位置に到達
自律的に。また、うまく位置に到達することができます デモンストレーションがあります。しかし、未踏の上
領域は、それがひどく行う。
より正確には、私たちのロボットは、6度のを持っていた 自由。その動きは、20で決定される
ベジェを定義する5つのパラメータ、 関節に対する目標軌跡の曲線
ロボットの角度。そのため、ポリシー·スペース 寸法は25である。
各運動のために、ロボットが観察 その行動の結果としてフロートの位置。
結果空間は、水の表面である、 その成果空間は2次元である
スペース。
数学的に我々は、フレーズ、この問題をする場合は、 我々は確率分布を学習している
「b」のうち 'p'は所定の '、' b 'は動的である 運動と「A」はフロートの位置である
。力学の位置を考えると、どのような動き ロボットはそれに到達するために実行する必要があるのか?
この実験では、2サンプリングモードを使用 自己探求と模倣されている。しかし
この実験では、学習者が決定するわけではありません それは使用すべきサンプリングモード、これは
予めプログラム。 アクティブな意思決定に関してはロボット
になり、それは「成果」の選択をするか、 「ポリシー」自律的に探索するとき、それは使用する必要があります。
私たちのロボットは、これら二つの選択肢を作るために我々 私たちのアルゴリズムの簡易版をデザイン
アーキテクチャ。このバージョンは、SGIM-Dと呼ばれている による社会的ガイド内発的動機づけのために
デモンストレーション。 ここで再び、我々は2つのモードを持っています。社会的に中
ガイド付きサンプリングモード、先生がデモンストレーションを行い 。対応して、ロボットが平行移動
実証成果にこのデモ 実演ポリシー。ロボット缶
実証結果は 'D'をエミュレートし、 D 'B'の政策を模倣する。際にロボットの試行
ポリシー 'b'はdは再現するためには、到達する 結果は 'R'。との間の距離
達した成果 'R'と実証 結果は 'dがどれだけあなたの測定値を与える
ロボットは、「D 'に到達することができます。の進展 この対策はどのように「興味深い」の推定値を提供します
結果は、 'dがある。
一方、ロボットが自律的に探求している場合 、ロボットが目標結果に自分自身を決定
あなたが到達したい 'G'。ロボットも決定 どのポリシー 'b'はr 'は'グラムに達する。私たちの
実験は、政策のこの選択は、使用しています 非線形最適化のためのネルダー·ミードアルゴリズム
それは、他の最適化によって置き換えることができる アルゴリズム。
ロボットは、ポリシーの 'b' rは実行されると、 実際の結果 'R'に達する。違い
'Rと' G 'の間であなたの測定値を与える となるように、 'G'に到達した時の能力の
その結果は次の時間ステップを決める 目標として設定します。
我々はまだ物理の実験を行っている ロボットが、最初のステップのために、テストしている
シミュレータ上で我々のアルゴリズム。 シミュレーション環境は、確率的である
不均一な確率的分布。我々 表面には左下のグラフにプロット
水。赤い×印は、対応する 繰り返すときフロートが到達位置
同じ動き 'B' 1 20回。我々のように そのため、いくつかの位置があり、見ることができます
環境は、「確率的」である。緑 ダイヤモンドは達し位置に対応
別の移動を繰り返すことによりフロート 'B' 2。その分布が異なっている
赤い十字架。したがって確率的 分布が不均一である。
前のビデオに示すように、評価する 学習者のパフォーマンスは、我々は定義されている
ベンチマーク点のセット。灰色の円 ロボットの位置が中央にある
水面の。赤いポイント 我々はロボットに尋ねる目標の成果は
到達し、我々はすべてに距離を測定する これらの点。
我々はまた、人間のデモンストレーションを示して 右下のグラフ。デモセット
スパースかつ均一に分布している 到達可能なスペース。
デモはkinestheticsで与えられた 。
シミュレーション環境で見ることができる 左の画面、および物理的なロボット
右側の人のデモンストレーターを可能にします シミュレーションでロボットを制御するため、および
フロートの位置を取得します。
我々のアルゴリズムの性能を評価するために、 我々は、いくつかの他の探査とそれを比較した
戦略。ベースラインは、ランダムサンプリングである ロボットが選択した政策空間の
学ぶためのランダムポリシー。第二の戦略 SAGG-R.I.A.Cと呼ばれています。それはアルゴリズムです
内発的動機づけと学習のための ゴール指向の探査、および証明されてい
高次元で運動技能を習得するのが効率的 スペース。サンプリングの三種類の観測によるものである
ロボットは、デモを見ているところ 定期的な周波数。模倣との違い
模倣で、ロボットが繰り返しだろうということです そしてそれだけで経験が実証
小さな変化との政策。そうSGIM-Dは 模倣とSAGG-R.I.A.Cのミックス。
これは、デモを観察し、模倣5 回、その後、SAGG-R.I.A.Cに戻り
先生は新しいデモを行うまで 。
この一連の実験では、テストしたい SGIM-Dは到達することを学ぶことができるかどうか、すべての
目標は、他のアルゴリズムよりも良い結果。 第二に、SGIM-Dができるより速く学ぶ
他のアルゴリズム? 第三に、成果いるSGIM-Dが改善しない
ロボットのパフォーマンス? 最後に、我々はこれらの結果かどうかを調べる
大きな成果スペースに拡張可能である。
まず、実験を行った、プロット 時間に対する平均誤差
異なる学習アルゴリズム。 左のグラフでは、我々は見ることができます赤
SGIM-Dの平均誤差でプロットされている つまり、他のものよりも低く、そのSGIM-D
より良い精度で学習します。その分散 従って、緑色プロットに比べて小さい
SGIM-Dは、より確実にSAGG-R.I.A.Cよりも学習します。 また、その平均誤差はから低くなる
したがってSGIM-Dはより速く学習し、始まる 他のアルゴリズムよりも。
エージェントが到達できる成果の面では、 我々は、右側のヒストグラムをプロットした
成果は、ロボットが到達する。上の 水の2次元面、赤い領域は位置である
フロートは、多くの場合、上陸し、青は そこに地域フロートはほとんど上陸していません。グレー
円は、ロボットの中心位置である。 我々は、無作為抽出でロボットをそれを見ることができます
主にそれのからわずかの領域に到達した。で SAGG-R.I.A.C、探求領域が増加している、
とSGIM-Dで、探求スペースが増加している さらに。右側のボックスで、私は十字架を入れて
デモは、比較のために、どこ。
これらのヒストグラムはSGIM-Dが増加していることを示している その探求の空間と探索·より均一
孤立を含む到達可能スペース、 部分空間。
どのような大きなスペースはどうですか? 二組目の実験では、使用さ
100倍大きい成果スペース 。左側には、我々のヒストグラムをプロットした
ロボットがで設定されている目標の成果 そのもの。一方、SAGG-R.I.A.Cのヒストグラム
ファジーで、目標自体のそれSGIM-Dセット 到達可能な空間に良く対応している。
そのため、何らかの形で、SGIM-Dは学習しているところ 到達可能な空間である。
右側に、私たちはとの平均誤差をプロットした 時間に関して。赤いプロットは、より低い
他のプロット。だから、SGIM-Dは良いと学習 精度とランダムサンプリングよりも速く
またはSAGG-R.I.A.C。
したがって、SGIM-Dは、大空間に堅牢である 。
これらのプロットはSGIM-Dはより速く学習していることを示す ランダム探査、模倣学習より
またはSAGG-R.I.A.C。 また、目標の多種多様を生成することができます
成果と大きな成果にスケーラブルです スペース。
そこで質問は次のようになります。パフォーマンスがどのように デモに依存SGIM〜dの?と
デモの役割は何ですか?
対応するSGIM-Dの感度を調べるため、 問題は、我々は2教師を検討した。教師
1 SAGG-R.I.A.Cで学習しているロボットです そして現在、私たちの学習へのデモを提供します
エージェント。先生3は見た人間の教師である 最後のビデオでは。
右側に、我々はして平均誤差をプロットした これらの教師のそれぞれについて、時間に対して
とSGIM-Dおよび観察と学習。 すでに観察のためのエラープロットを知っている
と教師3 SGIM次元シアンプロットは表し 観察による学習のための平均誤差
教師1で。誤差はより低い 両方の教師のための教師3例、および
学習者はロボットなので、何の対応はありません 問題。
そこで我々は、教師3でそのSGIM-Dを期待 とSGIM-Dよりも低いエラーを持っているでしょう
先生1。しかし、実際には、青色のプロットの 教師1とSGIM-Dは、同程度の誤差があります
教師3赤いプロットSGIM-Dまであるので、 SGIM-Dの性能は影響を受けにくい
観察による学習よりも小さな対応。
より正確には、私たちも、このことから考えることができます 教師3よりも優れて教師であることをグラフ
教師1、対応問題にもかかわらず。 これは、我々は次のスライドで調べものです。
私たちは詳細にデモを調べ、 すべての立証の動きのためのプロット
に対するモータ1の関節角度の値 時間に。各行は、デモに対応しています。
左の先生のデモンストレーションがあります 1。右側に先生のデモンストレーションである
3。私たちは、はっきりと目に見える構造を見ることができます 教師のすべてのこれらの実証楽章
3彼らは、同じ動きであると見えるが 違ったスケールされた。 ANOVA分析ショー
デモ3、ランダムから来ていないこと ディストリビューション。
私たちは、人間のデモがあると言うことができます 異なる構造、ロボット学習
それらの多くを利用することができます。
我々は調査して次の質問はどのように堅牢である SGIM-Dは、デモの質である
、デモは次善であるとき。のために これは、我々は、教師4,5みなさ誰
実際に教師3のサブセットである。だからデモ 4ポイントに到達するデモ3アール
ロボットの後ろに、そしてデモ5は 前のポイントに到達するデモ3
ロボットの。 繰り返しますが、我々は関連して平均誤差をプロットした
教師のそれぞれとSGIM-Dのための時間に。 すでにランダム探査のためのプロットを知っている
と教師1および3とSGIM次元。エラー 先生とシアン4はより低いと思われる
マゼンタの教師5でエラーが発生しました。
私たちは、結果のヒストグラムを調べると のグラフにフロートで到達
下の、我々はその先生に4を増強を見ることができます 教師5以上の探査。教師5
学習エージェントのみの領域を探索します その前に、教師4も奨励しつつ、
その背後にある領域の探査。
したがって、SGIM-Dは、実証に敏感である 成果。しかし、それはまだにもかかわらず、学習
デモンストレーションの質とそのスパース 。
そのため、デモの構造とオリエント 政策や成果の探究
スペース。
自律探査へのそれは堅牢に デモのスパースまたはその妥当性
並びに限定された問題への対応 。
だから我々はこの一連の実験から結論付けることができます 私たちが考案した釣りロボットと
逆のオンライン学習のためのアーキテクチャ 連続的な高次元のロボットのモデル達
複数の目標を学ぶ感覚スペース、 連続アンサンブルの上に一般化
の結果、積極的にオンラインを選択する 学ぶための目標。
我々は、このアルゴリズムのアーキテクチャを再利用 モデル化し、子どもの発達を理解し、
発声のより正確な開発 。
この実験では、シミュレータを有した その学習エージェントが缶声道
コントロール。学習エージェントは、を制御することができる 様々な音を生成する声道のモーター
。したがって、確率分布を学習する つまり、その運動指令との間でマッピングします
それが生成できることに聞こえる。
この例では、決定するシステムを有する にサウンドがどのサンプリングに使用するモード、
生産しているモーターのコマンドを実行します。
これは、これらの結果につながる。 私たちは、自律せせらぎであることを示し、
発達段階の出現があります 。第一に、それはその声道を移動しても、
それは発声するものではありません、ノイズが出てきません。 すると、それはノイズのいくつかの種類になります
非関節運動。唯一それが関節になる 音節と似ていた音。
私たちは、社会的な環境で同じ学習者を置くとき 、それがエミュレートできる音で、我々はショー
それは初めに、位相がずれていることを ここだけのフェーズに自分自身で探求
それは周囲の音をエミュレートしようと場所 。
したがって、我々は二進化がある表示 無関節から関節音に
だけでなく、自律探査からの 模倣。これらは、説明に対応
の開発がなされていること 幼児発声。
この学習プロセスから構造を出現 、これは定性的に対応
乳児で観察発達順序。
結論として、我々は、システムを設計し その物理的および社会的環境を検出
およびその開発を構造化しようとします。
我々は、アルゴリズムのアーキテクチャの3種類を設計した 活性成分の異なる組み合わせを探索する
選択肢。 最初のものは両方を兼ね備えSGIM-Dである
自律探査や社会指導。 その選択肢は成果とポリシーです
自律的に探索したとき。 それは釣り実験に例示されている。
私たちは、SGIM-Dも同様か学ぶことができることを示した より良い精度で、より確実にし、
他のサンプリング·モードよりも高速。これは、使用しています 政策の偏り検索をするデモ
と結果スペース。それは、自己探求を使用しています 対応の問題を克服するため、およびへ
デモのスパース性を補う セット。
第二のアルゴリズムのアーキテクチャは、SGIM-IMです 、その私がここに存在していませんでした。これは、主に
学習者が1以上を行うことができますSGIM-D アクティブな選択:サンプリングモードについて。
私たちは、釣り実験にSGIM-IMをテスト とエアホッケーの実験。
ここでは、インタラクティブな学習のためのシステムを持っている から助けを要求するために場所を決定する
教師か。これは、タイミングを自己調整 コストによっては、ヘルプの要求の
デモの要求。それをされている 決定論と確率論の両方でテスト
環境。
最後に、我々はあるSGIM - 使徒を、持っている アルゴリズムのアーキテクチャの完全版。
それは約すべてのアクティブな意思決定を行う サンプリングモード、成果や政策が、
また、その先生に助けを求める。 私たちは、実験のために結果を発表
iCubと発声した。我々も ロボット実験でそれをテスト
タスクのとで、異なる種類を学ぶことができます いくつかの教師。
我々は、アルゴリズムのアーキテクチャことを示している インタラクティブな学習のための効率的である
いくつかのタイプを学習するには、いくつかの教師 タスク。我々は継続的にSGIM - 使徒をテスト
と離散スペース、およびシミュレーションの両方で および物理的なロボットと。また、それを使用し
子どもの発達をモデル化する。
我々は、自動的に学習システムを実現し に最も適合したサンプリング·モードを選択する
特定の結果だけでなく、最良の教師 。これは、自動的に到達可能、簡単に発見
困難な成果。 SGIMは発見することができます その物理的および社会の性質
環境、およびその構造化するためにそれらを使用しています 発達シーケンスにプロセスを学ぶ
。
我々は、インタラクティブな学習の面で貢献した 初めての社会的指導を組み合わせることにより、
と内発的動機づけ。 我々はまた、戦略の最初の実装を持っている
学習。我々のシステムを積極的に選択されます 同じ原理コンテンツ、タイミング、
手順と学習の源 プロセス。
その後、我々は生涯の分野で貢献した マルチタスクのためのシステムを構築することにより、学習
タスクのオンライン選択と学習。と 本質的な動機に基づいて、このアクティブな選択
発達の出現を説明することができます シーケンス。