A Curious Robot Learner for Interactive Goal - Babbling

私は、どのように我々についての研究を紹介するつもりです対話的な 'の'好奇心 'ロボット学習を構築することができます戦略的にするためのシステムを設計することによってゴールせせらぎ」「何を」、「どのように」「とき」、およびから、選択「誰」の情報をご覧ください。換言すれば、システム「コンテンツ」、「手順」、「タイミング」を選択しますそして、その学習プロセスの「ソース」。当社の長期的な目標は、「生涯有効にすることです複数の学習うとしている、「学習タスク、オープンエンドと進化する環境では、と方法を選択するには、 'どのタスク」それが必要学ぼう。生涯学習への主な課題は、ある学習エージェントは、「限定されたこと限られた寿命のようなリソース」。上の一方、環境はオープンエンドであるそしてその感覚空間が非常に高いのである次元。そのため、エージェントは、サンプリングしています巨大な探索空間。心理的な開発の作品に触発された、私たちの考えは、学習エージェントを付与することです社会の両方を使用したサンプリング戦略指導·ベース自律探査人工好奇心で、また固有呼ばれる動機。我々は、アルゴリズムにこのアイデアを実装決定する学習エージェントのアーキテクチャ '何'と 'どのように'学ぶために; 「何を」、「とき」、 'どのように'と、 '誰'模倣する; 私たちが最初に我々の仕事の背景を設定してみましょう。我々は彼らの中に学ぶことのエージェントを有効にしたいに常に適合するように寿命オープンエンドと環境を変える。と1 成功した学習エージェントの一例である人間の赤ちゃん。彼らの開発中に、我々はそれを観察することができます彼らはさまざまなオブジェクトに焦点を当てることを選択し、や活動、発達に応じてシーケンス。しかし、この咲くと賑やか混乱その環境である、どのように赤ちゃんがやるまだ学ぶために管理し、自分のスキルを向上させる？これでこのオープンエンドな環境にもかかわらず多くのオブジェクトと動き回る人、どのような彼らに焦点を作る「原則は 'です注文した方法でおもちゃやゲームか？同様に、子供はと相互に作用することを決定社会的パートナーか。彼らはどのように決めるのですかいつ、誰と対話するために？我々は、学習から、この動作を分析します視点。どのようにこれらの選択肢は関連しているアクティブマルチタスクのための学習、生涯に学習？私たちは、分析することによって、これらの疑問にお答えします我々は、サンプル方法をオープンエンドと高次元生涯学習のための環境を提供します。私たちは、ロボット制御によって、主に興味を持っている。モータ制御学習を説明することができる確率分布の学習など「b」の「p」は、与えられた。例えば、用魚に学習の子供、彼女が与えられた、ことを知った彼女は彼女と一緒に達したいと思う位置彼女が実行するために必要なものを腕の動き、浮く。この例では、「B」は政策こととなり、の「a」、フロートの位置。このような確率分布を学習するための、学習エージェントはスペースをサンプリングしています BとAのしかし、私たちの現実の世界では、AとBは、連続的であることができると高次元空間。従って探索空間が非常に大きい。 AとBの間のマッピングは確率的であり得る。だから、同じポリシーを繰り返すことにつながる可能性異なる結果。マッピングも冗長にすることができます。到達する結果はA 2には、異なるポリシーを実行することができます。またhomogeneousity中の問題が発生することがあります。あなたは「非学習可能」のスペースを持っている。例えば、あなたは目の前に魚にどのように学習している場合は、あなただけの位置にフロートを置くことができ、湖あなたの周りの、しばらく2キロとなる位置あなたから国連にアクセスできます。無制限を探索するときにも問題を抱えている環境。データを取得するとかかるため時間、あなただけの「限定された '寿命を持っている、あなただけのトレーニングの数が限られていることができますデータから学ぶこと。したがって、積極的にデータ収集を導く寿命内で学習することができるものを最大限に高めることができます。複雑なモータ制御の2つの方法を学習するためのその我々が開発されており、「モード」と呼びます。それらのうち、最初の情報源として取り '先生'または社会的パートナー。我々はこれを呼び出すモードは、探査モードを「社会的に導かれた」。「適切なロボットコントローラを導出することができる人間自身のパフォーマンスの観察から、その "。教師との相互作用は、直接的を可能にしますロボットに人間の知識の移転。これらは、2つのサブカテゴリーに分類することができる。擬態モードでは、学習エージェントがでしょう教師の政策を模倣しようとします。左側の画像上の例では、少女は、姿勢や位置を模倣姉の棒の。エミュレーション中 [MODE、学習エージェントが生産しようとするだろう教師として同じ結果。少し右側の女の子が彼女を置くしようとし次の彼女の妹のフロートが、別のを使用していますポリシー。社会的に導かれた探査、いくつかの技術のためのロボットが開発されている。例えば、デモンストレーションの方法でプログラミングしている複雑な運動指令を学習するロボットを可能にするいくつかのデモからの特定の結果に到達する。社会的に導かれた調査では、人間の入力探検する「興味深い地域」を強調表示します。しかしながら、これらの方法によって制限され「スパースすることができ、データセットを教える次善 '。教師が不足を与えないかもしれないデモの数、または彼が与えるかもしれない悪いデモ彼は専門家ではないので、。これらの方法は、「対応関係に対処する必要が問題 'ときの本体とダイナミクス教師と学習者が異なっている。第三に、これらのメソッドは、主に到達するために開発されています 1つの目標は、殆ど拡張することはできないマルチタスク学習のため。第2のモードは、ソースのように「自分」を使用しています情報。我々は、これらのメソッド「自律」を呼び出す探査モード。学習エージェント実験それだけで。このような強化学習などのメソッドや逆モデルの目標指向の学習している複雑な運動を学習する学習エージェントを使用可能にスキル。これらの方法は可能にするという利点を有している「独立」のいずれかのを探求するための薬剤人間の努力。その学習にも適応されるそれがないことを意味し、エージェント自身の体に対応の問題に直面しているわけではありません。また、いくつかの方法は、マルチタスクのために開発されている学習。しかし、彼らはまだ問題に直面したとき探索可能スペースに制限はありません。方法のこれらの2つの主要なファミリーは2種類を使用情報源の。私たちはの利点を組み合わせるしたいと思います単一のアーキテクチャに近づい両方空間AとBの間のマッピングを学ぶデータを収集するには、自分で試すことができます。また、相手のことができ、先生を観察することができます観測されたポリシーを再生して模倣する、または、再生することでエミュレートすることができ、誰観測された成果。ここでの考え方は、単一のシステムを有することである探検の異なるモードを使用することができますし、サンプリングモードを使用すべきかを決める。能動学習のこの原則は、一般化することができるその教師について活発な意思決定を持っているそれがしたい場合は、エージェントは、模倣しよう実証結果をコピーするか、自己決定目標の結果には、コピーしたい場合は、ポリシーを実証した。同様に、自律のための場合学習、エージェントが決めることができます 'は成果」それはどのポリシー」するために、ターゲットしたい、と使用しています。これらの質問は、アクティブで答えることができます学習。能動学習の方法、探査を有効にしている予想される学習の進行状況を最大化する、そしてこの「経験的」を「評価する」に。この [[レート150]メタ探査[[率につながる 170]問題はバンディットアルゴリズムで対処。本研究では、異なる原理を使用能動学習のため。私たちは、「内発的動機づけ」の心理学の理論を使ってインスピレーションとして。本質的な動機は、何のように定義されているその固有の満足のために、活動のむしろ、いくつかの分離可能な結果については、より。本質的に動機づけすると、人がある伴う楽しみや挑戦のために行動するために移動のではなく、外来の製品、圧力や報酬。この理論は、心理学で最初に開発正常ロボット学習のために適用されているアクティブゴールせせらぎ、と。我々には、同じ原理を使用したい構築、複数の学習するシステムを[[165]評価] 成果の積極的な選択とタスク、生成すると、高次元の確率的」で、および連続「サーチスペース。私は今の例で説明したいと思いますデータ収集戦略を考案するこのアイデア、社会的な指導と人工に基づく好奇心、非常に簡単な例の[[レート 170]]してから、後でより複雑な参照実験装置。教師はテーブルの上にオブジェクトを置く、としましょう、対象物を認識できるようにするように要求後で、これまでどのような「位置」、そして、その上に「配向」それがあります。あなたがために何をするだろうこのオブジェクトを認識する方法を学ぶのか？一つの答えは、「操作」である。あなたは、プッシュすることができます異なる位置へのオブジェクト。あなたができる持ち上げてオブジェクトをドロップしたり、人間のできあなたのためのオブジェクトを操作する。質問ここにある：操作はあなたをもたらすであろうオブジェクトに関するより有用な情報。その後、だけでなく、1が、「いくつかの」がある場合認識するためのオブジェクトが、あなたも決定する必要がありますどの操作するオブジェクトです。このビデオでは、複数のオブジェクトを見ることができます。ヒューマノイドロボットiCubは持ち上げてドロップすることができますこのボール。このように操作することにより、ボール別の位置と向きに着陸する予定。ロボットはに、ボールの新しいイメージを取得しますそれを認識する方法を学びます。数学的に我々は、フレーズ、この問題をする場合は、我々は確率分布を学習している 'b'が目的である「b」のうち 'p'は与えられた '、とは 'a'は画像である。我々が作るアクティブな決定に関しては、私たちは、「操作」の選択を作っているか、我々が使用する「サンプリングモード」。我々も積極的に操作するために「どのオブジェクト」を選択するかにある他の用語、「部分空間」は探検する。これらの選択肢は、簡単に要約することができますこの表。各行は、オブジェクトに対応：車やキューブ。そして、各列に対応操作に：押し、リフト＆ドロップ、またはヒトとの対話。操作の組み合わせを選択し、オブジェクトは、このテーブル内のボックスを選択することを意味します。私たちの考えは、固有で能動学習を使用することです能力の進歩に基づく動機この選択をする。我々は、オブジェクトを選択しますそして作ってそれを有効な操作最も進歩。我々は、ガンマ能力指標を定義します。のために画像 'A'、 '能力あるのガンマ ''、正しいオブジェクト画像で認識で。私たちは、経験的に「Aガンマを測定します。私たちは、開始確率的にあらゆる可能性をサンプリングすることによって。それぞれが能力ガンマ箱のために我々は、プロット時間に関して。例えば、この中ケース、車を押すと、最高につながるスロープ。したがって、我々はプッシュし続けますより多くの進歩を遂げるために車、。私たちはプッシュし続けるように車、認識で私達の能力車が増加する。しかし、その「傾きは 'に始まり我々はすべてのことを学んだので、減少車について。の能力の進展車の減少を押す。 [[slnc 500]]だから、私たちは、別のオブジェクトと操作に切り替わりますつまり、より多くの能力を進行する。この中場合、我々は操作する人間に要求しますキューブ。繰り返しますが、私たちは求める人間を保つ助けて、能力が高くなるまで、私たちこれ以上進行することはありません。このアイデアを実装するために、我々は、アルゴリズムを設計した立っSGIM - 使徒と呼ばれるアーキテクチャ社会的に導かれた内発的動機づけを持つため教師と戦略を積極的に選択。それ階層的アルゴリズムのアーキテクチャを採用しています画像空間とサンプリングを探索するモードおよびオブジェクト空間。私たちは先生と対話した場合、我々は彼に尋ねる私たちのためにオブジェクトを操作する。彼が渡します私たちのオブジェクト「B」「G」。操作することにより、対象は、彼が新たな画像を生成する '' R ' オブジェクト。私たちの認識アルゴリズムと、我々は、このイメージでオブジェクトを '' r 'を認識「B」「R」。と認識との比較オブジェクト「B」「R」との正体オブジェクトの 'B' 'G'はあなたの尺度を与えるオブジェクトの 'B' 'g'を認識で能力。能力のこの措置はに記録されている能力の進行状況を計算し、選択次のサンプリングモードとオブジェクト。あなたが自律的に探索した場合と同じ方法、は、オブジェクト 'B' 'g'を操作することになる。操作することで、新たな画像を生成別の位置にあるオブジェクトの '' R ' と方向。私たちの認識アルゴリズムと、我々は、このイメージでオブジェクトを '' r 'を認識「B」「R」。と認識との比較オブジェクト「B」「R」との正体オブジェクトの 'B' 'G'はあなたの尺度を与えるオブジェクトの 'B' 'g'を認識で能力。能力のこの措置はに記録されている能力の進行状況を計算し、選択次のサンプリングモードとオブジェクト。我々は、このアルゴリズムのアーキテクチャをテストしたいと思います SGIM - 使徒、サンプリングモードを選択することができるかどうかを確認するオンライン学習のための。我々はまたしたいと思います SGIM - 使徒は悪い教師に堅牢であるかどうかをテスト。まず、どれだけのロボットを見てみたかった別のを認識し、区別するために学ぶことができますオブジェクト。私たちは、時間に対してプロットした F値としての認識レベル。各プロットは、それが認識できる程度を表している各オブジェクト。 SGIM - 使徒と、左のグラフに示すように、ロボットiCubが徐々に認識することを学習その認識レベルとして、すべてのオブジェクト増加します。比較では、右側にプロット認知度ロボットは、ランダムを使用する場合操作とオブジェクトの選択。我々はできるそれはほとんどすべて認識するように学習していることがわかりオブジェクトではなく、キューブ緑のプロット。さらに、我々はまた、選択肢の下にプロットされたロボットがで、操作するオブジェクトの時間に関して。我々に、実際にそれを見ることができますランダムサンプリング、オブジェクト例順序付けられていないようにして選択される。対照的に、 SGIM-行為はより規則でオブジェクトを選択するやり方。左のグラフは、ロボットが実際に検出することができ、そのキューブ認識し、集中することは困難であるそれを操作してください。したがって、SGIM - 使徒はランダムよりも良い学習サンプリング。これらの実験は、ガイドデータ収集、パフォーマンスが向上します。第2の実験では、我々はテストを希望上の教師の行動の影響 SGIM - 使徒のパフォーマンス。我々は行って同じ実験が、今回の先生常に同じ位置にオブジェクトが表示されますと方向。そのため、この悪い教師ロボットに有用な情報を持っていません。予想されたように、我々は右側に見ることができます側のグラフは、ロボットが悪く実行する以前よりも。ここでは、ランダムサンプリング、実際にロボットとキューブを認識するように学習することはありません。対照的に、左側のグラフ上、それは初めに苦労するが、SGIM - 使徒キューブを認識するために、最終的に管理しています。ザ· 下の選択したオブジェクトのプロット、ことを示してい再び、SGIM - 使徒はに集中できたキューブ。したがって、SGIM - 使徒は堅牢にすることができます社会の指導の質。我々は、この例示的な例で示した、本質的な動機に基づいて、その能動学習学習性能を向上させることができる。今我々は何が起こるか調べたいと思います我々は、より複雑な確率分布を学習する連続空間で。これは我々がこの第二のアドレスにしようとしたものです実験。釣りの実験では、ロボットアーム配置する釣竿を操作することができます水面に浮かんでいる。ここに水の表面は、この表される白い表面。上記のレコードからカメラフロートに上陸した位置ゴール位置に比べて緑の四角、白丸でマークされた。ロボットは行うことで、自律的に探索することができますランダムな動き。人間の教師はまた、デモを与えることを決定することができます。この場合、ロボットが実証模倣運動を数回どれだけ近いかを評価するそれがで実証位置に到達することができますフロート。定期的に、我々はまた、性能を評価どれだけ近いか、それが可能な測定によるロボットの事前に定義された位置に到達。ロボット缶よくそれは探検場所に近い位置に到達自律的に。また、うまく位置に到達することができますデモンストレーションがあります。しかし、未踏の上領域は、それがひどく行う。より正確には、私たちのロボットは、6度のを持っていた自由。その動きは、20で決定されるベジェを定義する5つのパラメータ、関節に対する目標軌跡の曲線ロボットの角度。そのため、ポリシー·スペース寸法は25である。各運動のために、ロボットが観察その行動の結果としてフロートの位置。結果空間は、水の表面である、その成果空間は2次元であるスペース。数学的に我々は、フレーズ、この問題をする場合は、我々は確率分布を学習している「b」のうち 'p'は所定の '、' b 'は動的である運動と「A」はフロートの位置である。力学の位置を考えると、どのような動きロボットはそれに到達するために実行する必要があるのか？この実験では、2サンプリングモードを使用自己探求と模倣されている。しかしこの実験では、学習者が決定するわけではありませんそれは使用すべきサンプリングモード、これは予めプログラム。アクティブな意思決定に関してはロボットになり、それは「成果」の選択をするか、「ポリシー」自律的に探索するとき、それは使用する必要があります。私たちのロボットは、これら二つの選択肢を作るために我々私たちのアルゴリズムの簡易版をデザインアーキテクチャ。このバージョンは、SGIM-Dと呼ばれているによる社会的ガイド内発的動機づけのためにデモンストレーション。ここで再び、我々は2つのモードを持っています。社会的に中ガイド付きサンプリングモード、先生がデモンストレーションを行い。対応して、ロボットが平行移動実証成果にこのデモ実演ポリシー。ロボット缶実証結果は 'D'をエミュレートし、 D 'B'の政策を模倣する。際にロボットの試行ポリシー 'b'はdは再現するためには、到達する結果は 'R'。との間の距離達した成果 'R'と実証結果は 'dがどれだけあなたの測定値を与えるロボットは、「D 'に到達することができます。の進展この対策はどのように「興味深い」の推定値を提供します結果は、 'dがある。一方、ロボットが自律的に探求している場合、ロボットが目標結果に自分自身を決定あなたが到達したい 'G'。ロボットも決定どのポリシー 'b'はr 'は'グラムに達する。私たちの実験は、政策のこの選択は、使用しています非線形最適化のためのネルダー·ミードアルゴリズムそれは、他の最適化によって置き換えることができるアルゴリズム。ロボットは、ポリシーの 'b' rは実行されると、実際の結果 'R'に達する。違い 'Rと' G 'の間であなたの測定値を与えるとなるように、 'G'に到達した時の能力のその結果は次の時間ステップを決める目標として設定します。我々はまだ物理の実験を行っているロボットが、最初のステップのために、テストしているシミュレータ上で我々のアルゴリズム。シミュレーション環境は、確率的である不均一な確率的分布。我々表面には左下のグラフにプロット水。赤い×印は、対応する繰り返すときフロートが到達位置同じ動き 'B' 1 20回。我々のようにそのため、いくつかの位置があり、見ることができます環境は、「確率的」である。緑ダイヤモンドは達し位置に対応別の移動を繰り返すことによりフロート 'B' 2。その分布が異なっている赤い十字架。したがって確率的分布が不均一である。前のビデオに示すように、評価する学習者のパフォーマンスは、我々は定義されているベンチマーク点のセット。灰色の円ロボットの位置が中央にある水面の。赤いポイント我々はロボットに尋ねる目標の成果は到達し、我々はすべてに距離を測定するこれらの点。我々はまた、人間のデモンストレーションを示して右下のグラフ。デモセットスパースかつ均一に分布している到達可能なスペース。デモはkinestheticsで与えられた。シミュレーション環境で見ることができる左の画面、および物理的なロボット右側の人のデモンストレーターを可能にしますシミュレーションでロボットを制御するため、およびフロートの位置を取得します。我々のアルゴリズムの性能を評価するために、我々は、いくつかの他の探査とそれを比較した戦略。ベースラインは、ランダムサンプリングであるロボットが選択した政策空間の学ぶためのランダムポリシー。第二の戦略 SAGG-R.I.A.Cと呼ばれています。それはアルゴリズムです内発的動機づけと学習のためのゴール指向の探査、および証明されてい高次元で運動技能を習得するのが効率的スペース。サンプリングの三種類の観測によるものであるロボットは、デモを見ているところ定期的な周波数。模倣との違い模倣で、ロボットが繰り返しだろうということですそしてそれだけで経験が実証小さな変化との政策。そうSGIM-Dは模倣とSAGG-R.I.A.Cのミックス。これは、デモを観察し、模倣5 回、その後、SAGG-R.I.A.Cに戻り先生は新しいデモを行うまで。この一連の実験では、テストしたい SGIM-Dは到達することを学ぶことができるかどうか、すべての目標は、他のアルゴリズムよりも良い結果。第二に、SGIM-Dができるより速く学ぶ他のアルゴリズム？第三に、成果いるSGIM-Dが改善しないロボットのパフォーマンス？最後に、我々はこれらの結果かどうかを調べる大きな成果スペースに拡張可能である。まず、実験を行った、プロット時間に対する平均誤差異なる学習アルゴリズム。左のグラフでは、我々は見ることができます赤 SGIM-Dの平均誤差でプロットされているつまり、他のものよりも低く、そのSGIM-D より良い精度で学習します。その分散従って、緑色プロットに比べて小さい SGIM-Dは、より確実にSAGG-R.I.A.Cよりも学習します。また、その平均誤差はから低くなるしたがってSGIM-Dはより速く学習し、始まる他のアルゴリズムよりも。エージェントが到達できる成果の面では、我々は、右側のヒストグラムをプロットした成果は、ロボットが到達する。上の水の2次元面、赤い領域は位置であるフロートは、多くの場合、上陸し、青はそこに地域フロートはほとんど上陸していません。グレー円は、ロボットの中心位置である。我々は、無作為抽出でロボットをそれを見ることができます主にそれのからわずかの領域に到達した。で SAGG-R.I.A.C、探求領域が増加している、とSGIM-Dで、探求スペースが増加しているさらに。右側のボックスで、私は十字架を入れてデモは、比較のために、どこ。これらのヒストグラムはSGIM-Dが増加していることを示しているその探求の空間と探索·より均一孤立を含む到達可能スペース、部分空間。どのような大きなスペースはどうですか？二組目の実験では、使用さ 100倍大きい成果スペース。左側には、我々のヒストグラムをプロットしたロボットがで設定されている目標の成果そのもの。一方、SAGG-R.I.A.Cのヒストグラムファジーで、目標自体のそれSGIM-Dセット到達可能な空間に良く対応している。そのため、何らかの形で、SGIM-Dは学習しているところ到達可能な空間である。右側に、私たちはとの平均誤差をプロットした時間に関して。赤いプロットは、より低い他のプロット。だから、SGIM-Dは良いと学習精度とランダムサンプリングよりも速くまたはSAGG-R.I.A.C。したがって、SGIM-Dは、大空間に堅牢である。これらのプロットはSGIM-Dはより速く学習していることを示すランダム探査、模倣学習よりまたはSAGG-R.I.A.C。また、目標の多種多様を生成することができます成果と大きな成果にスケーラブルですスペース。そこで質問は次のようになります。パフォーマンスがどのようにデモに依存SGIM〜dの？とデモの役割は何ですか？対応するSGIM-Dの感度を調べるため、問題は、我々は2教師を検討した。教師 1 SAGG-R.I.A.Cで学習しているロボットですそして現在、私たちの学習へのデモを提供しますエージェント。先生3は見た人間の教師である最後のビデオでは。右側に、我々はして平均誤差をプロットしたこれらの教師のそれぞれについて、時間に対してとSGIM-Dおよび観察と学習。すでに観察のためのエラープロットを知っていると教師3 SGIM次元シアンプロットは表し観察による学習のための平均誤差教師1で。誤差はより低い両方の教師のための教師3例、および学習者はロボットなので、何の対応はありません問題。そこで我々は、教師3でそのSGIM-Dを期待とSGIM-Dよりも低いエラーを持っているでしょう先生1。しかし、実際には、青色のプロットの教師1とSGIM-Dは、同程度の誤差があります教師3赤いプロットSGIM-Dまであるので、 SGIM-Dの性能は影響を受けにくい観察による学習よりも小さな対応。より正確には、私たちも、このことから考えることができます教師3よりも優れて教師であることをグラフ教師1、対応問題にもかかわらず。これは、我々は次のスライドで調べものです。私たちは詳細にデモを調べ、すべての立証の動きのためのプロットに対するモータ1の関節角度の値時間に。各行は、デモに対応しています。左の先生のデモンストレーションがあります 1。右側に先生のデモンストレーションである 3。私たちは、はっきりと目に見える構造を見ることができます教師のすべてのこれらの実証楽章 3彼らは、同じ動きであると見えるが違ったスケールされた。 ANOVA分析ショーデモ3、ランダムから来ていないことディストリビューション。私たちは、人間のデモがあると言うことができます異なる構造、ロボット学習それらの多くを利用することができます。我々は調査して次の質問はどのように堅牢である SGIM-Dは、デモの質である、デモは次善であるとき。のためにこれは、我々は、教師4,5みなさ誰実際に教師3のサブセットである。だからデモ 4ポイントに到達するデモ3アールロボットの後ろに、そしてデモ5は前のポイントに到達するデモ3 ロボットの。繰り返しますが、我々は関連して平均誤差をプロットした教師のそれぞれとSGIM-Dのための時間に。すでにランダム探査のためのプロットを知っていると教師1および3とSGIM次元。エラー先生とシアン4はより低いと思われるマゼンタの教師5でエラーが発生しました。私たちは、結果のヒストグラムを調べるとのグラフにフロートで到達下の、我々はその先生に4を増強を見ることができます教師5以上の探査。教師5 学習エージェントのみの領域を探索しますその前に、教師4も奨励しつつ、その背後にある領域の探査。したがって、SGIM-Dは、実証に敏感である成果。しかし、それはまだにもかかわらず、学習デモンストレーションの質とそのスパース。そのため、デモの構造とオリエント政策や成果の探究スペース。自律探査へのそれは堅牢にデモのスパースまたはその妥当性並びに限定された問題への対応。だから我々はこの一連の実験から結論付けることができます私たちが考案した釣りロボットと逆のオンライン学習のためのアーキテクチャ連続的な高次元のロボットのモデル達複数の目標を学ぶ感覚スペース、連続アンサンブルの上に一般化の結果、積極的にオンラインを選択する学ぶための目標。我々は、このアルゴリズムのアーキテクチャを再利用モデル化し、子どもの発達を理解し、発声のより正確な開発。この実験では、シミュレータを有したその学習エージェントが缶声道コントロール。学習エージェントは、を制御することができる様々な音を生成する声道のモーター。したがって、確率分布を学習するつまり、その運動指令との間でマッピングしますそれが生成できることに聞こえる。この例では、決定するシステムを有するにサウンドがどのサンプリングに使用するモード、生産しているモーターのコマンドを実行します。これは、これらの結果につながる。私たちは、自律せせらぎであることを示し、発達段階の出現があります。第一に、それはその声道を移動しても、それは発声するものではありません、ノイズが出てきません。すると、それはノイズのいくつかの種類になります非関節運動。唯一それが関節になる音節と似ていた音。私たちは、社会的な環境で同じ学習者を置くとき、それがエミュレートできる音で、我々はショーそれは初めに、位相がずれていることをここだけのフェーズに自分自身で探求それは周囲の音をエミュレートしようと場所。したがって、我々は二進化がある表示無関節から関節音にだけでなく、自律探査からの模倣。これらは、説明に対応の開発がなされていること幼児発声。この学習プロセスから構造を出現、これは定性的に対応乳児で観察発達順序。結論として、我々は、システムを設計しその物理的および社会的環境を検出およびその開発を構造化しようとします。我々は、アルゴリズムのアーキテクチャの3種類を設計した活性成分の異なる組み合わせを探索する選択肢。最初のものは両方を兼ね備えSGIM-Dである自律探査や社会指導。その選択肢は成果とポリシーです自律的に探索したとき。それは釣り実験に例示されている。私たちは、SGIM-Dも同様か学ぶことができることを示したより良い精度で、より確実にし、他のサンプリング·モードよりも高速。これは、使用しています政策の偏り検索をするデモと結果スペース。それは、自己探求を使用しています対応の問題を克服するため、およびへデモのスパース性を補うセット。第二のアルゴリズムのアーキテクチャは、SGIM-IMです、その私がここに存在していませんでした。これは、主に学習者が1以上を行うことができますSGIM-D アクティブな選択：サンプリングモードについて。私たちは、釣り実験にSGIM-IMをテストとエアホッケーの実験。ここでは、インタラクティブな学習のためのシステムを持っているから助けを要求するために場所を決定する教師か。これは、タイミングを自己調整コストによっては、ヘルプの要求のデモの要求。それをされている決定論と確率論の両方でテスト環境。最後に、我々はあるSGIM - 使徒を、持っているアルゴリズムのアーキテクチャの完全版。それは約すべてのアクティブな意思決定を行うサンプリングモード、成果や政策が、また、その先生に助けを求める。私たちは、実験のために結果を発表 iCubと発声した。我々もロボット実験でそれをテストタスクのとで、異なる種類を学ぶことができますいくつかの教師。我々は、アルゴリズムのアーキテクチャことを示しているインタラクティブな学習のための効率的であるいくつかのタイプを学習するには、いくつかの教師タスク。我々は継続的にSGIM - 使徒をテストと離散スペース、およびシミュレーションの両方でおよび物理的なロボットと。また、それを使用し子どもの発達をモデル化する。我々は、自動的に学習システムを実現しに最も適合したサンプリング·モードを選択する特定の結果だけでなく、最良の教師。これは、自動的に到達可能、簡単に発見困難な成果。 SGIMは発見することができますその物理的および社会の性質環境、およびその構造化するためにそれらを使用しています発達シーケンスにプロセスを学ぶ。我々は、インタラクティブな学習の面で貢献した初めての社会的指導を組み合わせることにより、と内発的動機づけ。我々はまた、戦略の最初の実装を持っている学習。我々のシステムを積極的に選択されます同じ原理コンテンツ、タイミング、手順と学習の源プロセス。その後、我々は生涯の分野で貢献したマルチタスクのためのシステムを構築することにより、学習タスクのオンライン選択と学習。と本質的な動機に基づいて、このアクティブな選択発達の出現を説明することができますシーケンス。