Computational Linguistics, by Lucas Freitas

>> LUCASフレイタス：ちょっと。すべての人を歓迎します。私の名前はルーカスフレイタスです。私は勉強[聞こえない]の3年生だ内を中心としたコンピュータサイエンス計算言語学。だから私の二言語であるおよび言語理論。私はあなたたちを教えるのは本当に興奮しているフィールドについて少し。それは勉強する非常にエキサイティングなエリアです。また、多くの可能性と将来のために。だから、私は本当に興奮していることをあなたたちプロジェクトを検討している計算言語学。そして、私は助言するよりも幸せになるでしょうあなたの任意のあなたがすることを決定した場合それらのいずれかを追求しています。 >> 計算が何であるか、すべてのそのように最初の言語学？そう計算言語学である言語学との交点コンピュータサイエンス。だから、言語学とは何でしょうか？コンピュータサイエンスとは何ですか？さて言語学から、どのような我々は言語である取る。だから、言語学は実際に研究である一般的に、自然言語の。だから、自然言語 - 我々は話を私たちが実際に使用している言語相互に通信します。だから我々は正確に話していない CやJavaについて。私たちは、英語とについての詳細を話しているその我々の中国と他の言語互いに通信するために使用します。 >> そのことについて挑戦的なことは、今、我々は持っている、ほとんど7000 世界の言語。だから、かなり高いものが用意されてい我々は勉強できる言語の。そして、あなたはそれはおそらくだと思う行うのは非常に難しい、例えば、 1つの言語からの翻訳その他、あなたが持っていることを考えるとほぼ7000そのうち。だから、あなたは翻訳を行うのではと思われる場合 1言語から他のお客様へ万人のほぼ多くを持っているそのあなたができるさまざまな組み合わせ言語から言語する必要があります。だから、実際にいくつかを行うには挑戦的たとえば翻訳システムの種類一つ一つの言語。 >> 構文を持つので、言語学のおやつ、意味論、語用論。あなたたちは正確にする必要はありません彼らが何であるかを知っている。しかし、非常に興味深いのは、ということですあなたが学ぶネイティブスピーカー、など子供の言語、実際に学ぶそれらのもののすべて - 構文のセマンティクスと語用論 - 自分で。そして誰ものためのあなたの構文を教えるために持っていませんあなたは文章であるかを理解するために構造化。だから、それは本当に面白いですので、それは非常に来るものだ直感的に。 >> そして、あなたは何を取っているコンピュータサイエンス？我々だけでなく、最も重要なことコンピュータサイエンスを持っていることの最初のものですすべて、人工知能機械学習。そこで、我々はそうしようとしているもの計算言語学ティーチですお使いのコンピュータに何かをする方法言語と。 >> したがって、たとえば、機械で翻訳。私はどのように自分のコンピュータを教えることをしようとしている 1へ遷移する方法を知っている他の言語。したがって、基本的に教えるようなコンピュータ2の言語。私は、自然言語処理を行う場合、例についてはそうであるあなたが教えるFacebookのグラフを検索、お使いのコンピュータ方法を理解するよくクエリ。 >> だから、あなたは「私の写真を言えば友人は「Facebookは扱わない持って全体を文字列として単語のちょうど束。これは、実際の関係を理解して「写真」と「私の友人」との間で「写真」であることを理解しているのプロパティ "私の友人。" >> だから、それは、例えば、の一部である自然言語処理。それは何を理解しようとしているとの間の関係である文中の語。そして大きな問題は、次のことができている話すことをどのようにコンピュータを教える一般的に言語？非常に興味深い質問へである将来的には多分あるかのように、考えて、次のことができるようにするつもりだあなたの携帯電話に話す。種類の我々はシリに何をすべきかに似ていますが、より多くの何かのように、あなたが実際にすることができ好きなことを言うと電話すべてを理解しようとしている。そして、それが質問にフォローアップすることができと話を続ける。それは本当にエキサイティングなものですが、私の意見で。 >> だから、自然言語について何か。本当に面白いもの自然言語は、であり、これは私の言語学教授の功績によるもの、マリア·ポリンスキー。彼女は例を与え、私は思うそれは本当に面白いです。私たちはいつから言語を学ぶので、我々は我々のネイティブその後生まれている言語は一種の私たちに成長する。 >> そして基本的には、言語を学ぶ最小限の入力から、右？あなたは自分からの入力を取得しているお使いの言語が鳴るものの両親のような、あなたはそれを学ぶ。あなたが見ればのでそう、それは面白いですこれらの文章で、例えば。あなたが見て、「メアリーは、すべてのコートの上に置いて彼女は家を出る時間」 >> この場合には、持っている可能性があります単語 "彼女は「右、メアリーを参照してください？あなたは、「メアリーはコートの上に置いて言うことができますメアリーは葉毎回家。「だから、大丈夫です。しかし、あなたが文を見れば「彼女は、メアリーのコート上のすべての時間を置く家を離れた。「あなたはそれがあることを知っている "彼女"であることを言うことは不可能メアリーを参照。 >> メアリーは置く」というの方法はありませんコート上のすべての時間メアリーの葉家は。」だから、面白いだからこれは直感のようなものです。すべてのネイティブスピーカーが持っていること。そして誰もが、これがあることを教えられなかった構文の動作方法。そして、あなたは、この "彼女"を持つことができることこの最初のケースではメアリーを参照すると、そして実際にこの他にあるあまりにもではなく、この1中。しかし、誰もがこの種の取得同じ答えに。誰もがその上で同意します。だから、どのようにが、本当に面白いですあなたはすべてのルールを知らないあなたの言語では、種類の理解言語がどのように機能する。 >> とても自然で興味深い言語は、あなたがする必要がないことです知っている任意の構文を知っていれば、文のための文法的あるいは非文法的であるほとんどの場合。あなたはと思わせるものかもしれないものを起こることは、あなたは、あなたの人生を介して行われただ、より多くを得ておく文章はあなたに語った。そして、あなたは覚えておく文章がすべて表示されます。して、誰かがあなたに伝えたとき何か、あなたがその文を聞き、あなたの語彙を見て文章のと表示された場合その文があります。そして、それはそこにある場合それは文法的だと言う。そうでない場合は、それがだと言う非文法的。 >> だから、その場合、あなたは、ああ、と言うでしょうだから、すべての巨大なリストを持っている可能な文章。してから、文を聞いたとき、それは文法的だかどうかは知っているそれに基づいていない。ことは、あなたが見れば、ということです文章、例えば、「 5頭CS50のTFは盲目の調理 DAPAマグを使ってタコ。「イッツ· 絶対にない文あなたが前に聞いた。しかし同時にそれは知っている右、文法的なほとんど？文法的に間違いはありませんあなたが言うことができるそれは可能文です。 >> だから、私たちは、その実際に考えさせる我々は言語を習得する方法だけではありません可能性の巨大なデータベースを有することにより、単語や文章が、より多くのとの関係を理解することこれらの文章中の単語。それは理にかなっていますか？だから、その後の質問は、することができますですコンピュータは、言語を学ぶのか？私たちはコンピュータに、言語を教えることはできますか？ >> それでは、違いを考えてみましょう言語のネイティブスピーカーとの間にとコンピュータ。だから、何がスピーカーになりますか？さて、ネイティブスピーカーを学習それへの暴露から言語。通常、その幼児年。したがって、基本的に、あなただけの、赤ちゃんを持っているそしてあなたはそれに話しておくと、それただ話す方法を学ぶ言語、右？だから、あなたは基本的に与えている赤ちゃんへの入力。だから、あなたが主張することができ、そのコンピュータ右、同じことを行うことができますか？あなただけの言語を与えることができますコンピュータへの入力として。 >> 例えばなどのファイルの束英語の本を持っている。多分それはあなた1の方法だおそらく教えることができるコンピュータ英語、右？実際には、あなたが考えてみれば、それは多分カップルを移動します日本を読むこと。コンピュータにとっては、2番目を取るブック内のすべての単語を見てください。だから、それがちょうどこのかもしれないと思うことができますあなたの周りからの入力引数、それはそれがだと言うには十分ではありません人間だけが行うことができるもの。あなたはコンピュータを考えることができますまた、入力を得ることができます。 >> 2つ目はネイティブスピーカーまた、持って脳を持っている語学学習機能。しかし、あなたが考えてみれば、脳は立体物である。あなたが生まれている場合は、既に設定されている - これはあなたの脳です。あなたが育つようにと、あなただけの多くを得る言語の入力と多分栄養素や他のもの。しかし、ほとんどあなたの脳固体のものです。 >> だから、まあ、あなたができる、と言うことができますの束を持ってコンピュータを構築ただ模倣する関数とメソッド語学学習機能。だから、そういう意味では、私は、よく、言うことができるすべてされているコンピュータを持つことができます私は言語を習得する必要があるもの。そして最後の事はことをネイティブであるスピーカーは、試行錯誤から学ぶ。そこで、基本的に別の重要なことにある言語学習はあなた優しいということです作りで物事を学ぶあなたが聞くものの一般化。 >> あなたが育っているようにあなたがいることを学ぶいくつかの単語は、より多くの名詞のようなもので、他のいくつかのものは形容詞です。そして、あなたはいずれかを持っている必要はありません言語学の知識それを理解する。しかし、あなただけのいくつかの単語があると知っているの一部に配置されている文と他のいくつかの他のもの文章の一部。 >> そして、それは何かを行うときに正しくない文のように - 多分理由オーバー一般化次に例を示します。あなたが成長しているときに、多分、あなたが気づく複数形は通常であることのSを入れて形成された単語の終わり。そして、あなたは、複数のをやろう「鹿」や「歯」のように "鹿" 「tooths。 "それでは、あなたの両親や誰かがあなたを修正し、言ういいえ、「鹿」の複数形は「鹿」であり、「歯」の複数形は「歯」です。その後あなたはそれらの事を学びます。だから、試行錯誤から学ぶ。 >> しかし、あなたはまた、それを行うことができますコンピュータと。あなたはと呼ばれるものを持つことができます強化学習。与えているようなものは基本的にあるそれがないときはいつでも、コンピュータの報酬正しく何か。それに報酬の反対を与えるそれが何か間違ったことをしたとき。あなたが実際にあれば、あなたが行くことがわかります Googleが翻訳し、あなたがしようとするセンテンスを翻訳、それフィードバックをお願いします。あなたが言うのであれば、ああ、良いがありますこの文のための翻訳。その後、それを入力し、ことができれば、多くの人々は、それが優れていると言っておく翻訳は、それだけで学習すること代わりに、その変換を使用する必要がありますそれが与えていた1。 >> だから、それは非常に哲学的な質問だコンピュータがあることを行っているかどうかを将来的に話をしたりしないことができる。しかし、私は大きな期待を持って、彼らができることをただ、これらの引数に基づいて。しかし、それは哲学のちょうどより多くの質問。 >> コンピュータはまだ話すことはできないがそう、私たちにできる事は何ですか？いくつかの本当にクールなものがありますデータ分類。そのため、たとえば、皆さんが知っているそのEメールサービスのために、何たとえば、スパムフィルタリング。ですから、それをスパムを受け取るたびに、別のボックスにフィルタリングしようとします。だから、どのようにそれを行うのですか？これは、コンピュータだけで知っているようではありませんどのような電子メールアドレスは、スパムを送信している。だから、それはより多くの内容に基づいているメッセージ、または多分タイトル、たぶん、あなたは持っているいくつかのパターン。 >> だから、基本的に、何を行うことができますことは得ることであるスパムである電子メールのデータが多く、スパムではないメール、および何を学ぶあなたが持っているパターンの種類スパムであるもの。そして、これは、計算の一部である言語学。これは、データ分類と呼ばれています。そして、我々は実際に見ることになるだろう次のスライドでそれの例。 >> 2つ目は、自然言語であるそのことで、処理グラフ探索をさせるのでやっているあなたが文章を書く。そして、それはあなたが何を理解し信頼し意味ですとなりますもし良い結果。実際には、GoogleやBingに行けばあなたは女性のようなものを検索するガガの高さは、あなたが実際に行っている 5 '1 "の代わりに情報を取得するそれが実際に理解しているので、彼女からあなたは何を言っているのか。だから、自然の一部だ言語処理。 >> あるいはまた、あなたはまず、シリを使用しているときあなたがしようとしたアルゴリズムを持っている何を言っている翻訳する単語に、テキスト中。そして、それは変換しようと試みその意味に。だから、すべての自然の一部である言語処理。 >> その後、機械翻訳を持っている - 実際に1である私のお気に入りの - ちょうどから翻訳されている別の言語。だから、あなたがやっているときに考えることができます機械翻訳は、次のものが文章の無限の可能性。だから保存する方法はありません一つ一つの翻訳。だから、面白い思い付くする必要がありますアルゴリズムができるようにするには一つ一つを翻訳何らかの方法で文。 >> あなたたちは、これまで不明な点がある？なし？ [OK]をクリックします。 >> それでは、今日は見に行くのですか？まず第一に、私が話をするつもりです分類問題。私がいたので、1 迷惑メールについて述べた。私は何をするつもりだと、歌詞を考えると、ある歌には、次のように把握しようとすることができます高い確率で歌手は誰ですか？のは、私は女性から曲を持っているとしましょうガガとケイティ·ペリー、私はあなたを与える場合は、新しい曲は、あなたがどうかを把握することができますそれはケイティ·ペリーやレディー·ガガの？ >> 第1、私は話をするつもりだセグメンテーション問題について。だから私は君たちが知っていれば知っているが、しないでください中国語、日本語、他の東アジア言語、およびその他の言語一般的に、持っていない単語間のスペース。そして、あなたはそのように考えてみればしようとするのにコンピュータの種類自然言語処理を理解し、それは言葉を見て、関係を理解しようとしますそれらの間に、右か？しかし、あなたは、あなたが中国を持っている場合、およびゼロスペースを持って、それを使用するハードを本当にですとの関係であるかを調べる言葉、彼らはいずれかを持っていないため、最初は言葉。だからと呼ばれる何かをしなければならないちょうど置くことを意味セグメンテーション我々は呼んでおきものとの間のスペースこれらの言語の単語。理にかなって？ >> そして、我々はするつもりだ構文について話しています。自然についてとても少しだけ言語処理。それはちょうど概観になるだろう。だから、今日、基本的に私は何をしたいのかみんなにあなたの少しを与えるされている可能性があるものの内部あなたは、計算で行うことができます言語学。そして、あなたはあなたが何を考えて見ることができますこれらのものの間でクールです。そして多分あなたはプロジェクトを考えることができますと私に話してくる。と私はあなたの助言を与えることができますそれを実装する方法について。 >> だから、構文は少しになるだろうグラフ探索と機械について翻訳。私は方法の例を与えるつもりだあなたは、例えば、翻訳することができ英語からポルトガル語から何か。いいですね？ >> したがって、最初、分類問題。私はセミナーのこの部分と言うでしょう最も困難になるだろう 1そこに起こっているという理由だけでいくつかのコーディングされるように。しかし、それは、Pythonになるだろう。私は、君たちがPythonを知らない知ら私は高い所に説明するつもりです私がやっているレベルです。そして、あなたは本当にあまりにも気にする必要はありませんそれだから、構文について多くあなたたちが学ぶことができる何か。 OK？旨そうだな。 >> だから、分類問題とは何でしょうか？ですからをするためにいくつかの歌詞を与えられている歌、そしてあなたが推測したい誰が歌っている。そして、これはどのような種類であることができる他の問題。だから、例えば、あなたが持っていることができます大統領選挙、あなたが持っているスピーチ、あなたが検索したいそれがあった出た場合、例えば、オバマまたはミット·ロムニー。または、電子メールの束を持つことができ、あなたは彼らがあるかどうかを把握したいスパムかどうか。だから、単にいくつかの分類だ単語に基づいてデータあなたがそこに持っている。 >> そうこれを行うには、その必要はありいくつかの仮定を行う。だから、計算言語学について多く仮定を作っている、通常、スマートな仮定、その結果、あなたは良い結果を得ることができます。それのためのモデルを作成しようとしている。そして、それを試してみるとそれが動作するかどうかを確認それはあなたに良い精度が得られます。そして、それがない場合は、あなたそれを改善してみてください。そうでない場合は、似ている、[OK]を、多分私別の仮定をしなければならない。 >> だから我々はするつもりだという仮定作る芸術家は通常、歌うことですトピックについて複数回、多分言葉だけを複数回使用しています彼らはそれに慣れているので。あなたは自分の友人と考えることができます。私はあなたたちのすべての友人を持っていると確信しているそれは彼らの署名フレーズを言って、文字通り一つ一つの文のための - いくつかの特定の単語やいくつかの特定のような彼らが言うフレーズ一つ一つの文章。 >> そして、何あなたが言うことができることが表示された場合ということです署名を持っている文フレーズは、おそらくそれを推測することができますあなたの友達です 1は右、それを言って？だから、という仮定を行ってから、つまり、モデルの作成方法を説明します。 >> 私は与えるつもりだ例がオンになっているどのようにレディー·ガガ、例えば、人々彼女は「赤ちゃん」を使用していることを言うすべての彼女のナンバー1曲。そして、実際にこれは、ビデオであることを示している彼女は単語 "赤ちゃん"のために言って異なる曲。 >> [ビデオ再生] >> - （SINGING）赤ちゃん。赤ちゃん。赤ちゃん。赤ちゃん。赤ちゃん。ベイブ。赤ちゃん。赤ちゃん。赤ちゃん。赤ちゃん。 >> [ENDビデオ再生 - >> LUCASフレイタス：だからそこにある、私が思うに、彼女が言うにいるここに40曲単語 "赤ちゃん。"だから、基本的に推測することができますそのあなたが持っている曲が表示された場合単語 "赤ちゃん、「いくつかの高があるとそれはレディー·ガガだという確率。しかし、ここではこれを開発してみましょうさらにより正式に。 >> したがって、これらのによる歌の歌詞ですレディー·ガガやケイティ·ペリー。ですから、レディー·ガガを見て、あなたは彼らを参照してください。 "赤ちゃん"の出現がたくさんあるの発生が多く、 "道"その後ケイティ·ペリーはの発生をたくさん持っている "、"の発生が多く、 "火" >> そこで、基本的に我々が望むものを表示していますが、歌詞を取得している。例えば、あなたがのために歌詞を取得したとしましょう "ベイビー"だけで "赤ちゃん"です。歌もしあなただけの単語 "赤ちゃん"、およびこれを取得あなたから持っているすべてのデータであるレディー·ガガやケイティ·ペリー、だろうあなたは人ですね誰が歌を歌っている？レディー·ガガやケイティ·ペリー？レディー·ガガ、右？彼女は言うだけだから "赤ちゃん"これは右、愚かに聞こえる？ [OK]を、これは本当に簡単です。私はちょうど2曲にと探していますもちろん、彼女が持っている唯一の一つだ "赤ちゃん" >> しかし、あなたが言葉の束を持っているか？あなたは、実際の歌詞、何かを持っている場合のような、「赤ちゃん、ちょうど私 [を見に行きました？ CFT？] 講義」、またはそのような何か、とあなたが実際に把握する必要があります - すべての単語に基づいて - おそらく誰アーティストは誰ですかこの歌を歌った？それでは、開発してみましょうもう少しこの。 >> [OK]を、ので、ちょうど私たちのデータに基づいてだ、それは·ガガ、おそらくあると思われる歌手。しかし、どのように我々は書くことができますこのより正式に？少しがあるように起こって統計のビット。だからが失われた場合は、単に試し概念を理解する。あなたが理解していれば、それは問題ではありません方程式完璧。これは、すべてのオンラインになるだろう。 >> そこで、基本的に私は計算してることはあるこの曲がである確率レディー·ガガはそれを与えられた - ので、このバーは、その与えられた意味 - 私は言葉を見た」赤ちゃんを。 " それは理にかなっていますか？だから私は、計算しようとしているある確率。 >> いわゆるこの定理がありますと言っているベイズ定理所与のBの確率は、である、回与えられ、Bの確率確率上のAの確率、 Bのこれは長い方程式である。しかし、あなたから理解する必要がつまり、これは私がしたいものであるということです右、計算？その歌はであるように確率レディー·ガガは、私は言葉を見たことを考えると "赤ちゃん" >> そして今、私が得ていることである「赤ちゃんは「与えられた単語の確率私は、レディー·ガガを持っていること。そして、それは基本的には何ですか？その手段が何であるか、何単語 "赤ちゃん"を見ての確率ガガの歌詞にある？私は非常にそれを計算する場合簡単な方法、それは数だけです回私は総数に対する「赤ちゃん」を参照してください。ガガの歌詞の単語のですよね？私が見る頻度はどのくらいですガガの作品にその単語？理にかなって？ >> 第二項はあるガガの確率。どういう意味ですか？つまり、基本的に何であるか、意味分類の確率ガガのようないくつかの歌詞？そして、それは一種の奇妙ですが、それでは例を考えてみましょう。それでは確率としましょう歌の "赤ちゃん"を持つことは同じですガガやブリトニー·スピアーズのために。しかし、ブリトニー·スピアーズが二回ありますレディー·ガガよりも多くの曲。だから、誰かがランダムにあなたが提供している場合まず最初に、「赤ちゃん」の歌詞あなたの確率は何である、ATが見えるガガの曲で「赤ちゃん」を有する、 "赤ちゃん" ブリトニーの曲の中？そして、それは同じことだ。 >> ですから、わかります2つ目は、あるよく、確率は何ですかそれだけでこの歌詞はガガの歌詞であること、との可能性は何ですかブリトニーの歌詞であること？だからブリトニーは非常に多くのより多くの歌詞を持っているので、ガガよりも、おそらくだろうたとえば、まあ、これはおそらく、ブリトニーの歌詞。我々はこれを持っている理由ので、それはです右ここでいう。ガガの確率。理にかなっている？それはありません？ [OK]をクリックします。 >> そして最後の1は単なる確率であるしません "赤ちゃん"の本当に問題はそれほど。しかし、それは確率だ英語で「赤ちゃん」を見て。我々は通常、それを気にしないその用語についての多く。それは理にかなっていますか？だから、ガガの確率である事前確率と呼ばれるクラス·ガガの。それだけで何があることを意味するのでそのクラスを有する確率 - ガガこれは - ただ一般的には、単になし条件。 >> そして私は可能性を持っている場合「赤ちゃん、 "我々はそれを呼び出す与えガガプラスそれはだから確率は涙有する確率ガガは、いくつかの証拠が与えられた。だから私はあなたに証拠を与えている私は言葉の赤ちゃんを見ていることを歌は理にかなって？ [OK]をクリックします。 >> だから私は、それぞれのためにそれを計算した場合レディー·ガガのための曲、それがどうなるか - どうやら、私はこれを移動することはできません。ガガの確率はなり何かのように、2 24以上、回1/2、 53以上の2以上。あなたは何を知っていれば、それを問題ではありませんこれらの数字は、から来ている。しかし、それは起こっているだけの数だ右、0以上になるように？ >> そして私はケイティ·ペリーを行うときケイティ与えられた「赤ちゃん」の確率であるすでに0、右？全く「赤ちゃん」がないためケイティペリー。そう、これは0になり、ガガ勝、ガガがあることを意味しますおそらく歌手。それは理にかなっていますか？ [OK]をクリックします。 >> だから私はこれをより正式にする場合は、私は実際にモデルを行うことができます複数の単語のために。それでは、私は何かを持っているとしましょうのような、「赤ちゃん、私は火に、「または何か。だから、複数の単語を持っています。この場合には、次のように表示することができます「赤ちゃんは「ガガにあることを、それはケーティではありません。と "火"はケイティにあるが、それは右、ガガにない？だから、右、トリッキーなってきた？それはあなたのほとんどと思われるので、 2間のネクタイを持っている。 >> それで、あなたがしなければならないことは想定している単語間の独立性。そこで、基本的にそれが何を意味するかというです私は何であるかを計算してい何であるか」、赤ちゃんを「見ての確率見ての可能性「I」をし、「火」「AM」、および「ON」とすべて別途。その後、私はそれらのすべてを掛けることだ。そして、私は確率が何であるかを見ている文全体を見ての。理にかなって？ >> そこで、基本的に、私はちょうど1単語がある場合は、私が知りたいことのarg maxのですが、つまり、あるクラスは何ですか私に最も高い確率を与える？そのように与えているクラスは何ですか私のために最も高い確率クラスの確率は言葉を与えられた。この場合、ガガは、与えられた "赤ちゃん" またはケイティは "赤ちゃん"を与えられた理にかなって？ >> そして、ちょうどそのベイズから私が示した式、私たちは、この画を作成します。唯一のことは、あなたがいることがわかりということです与えられた単語の確率依存クラスの変更クラスの、右？私が持っている「赤ちゃん」の数ガガにケイティは異なります。クラスの確率もそれだけの数の変化するため、それらの曲のそれぞれが持っています。 >> しかし、言葉自体の確率すべてのために同じことを行っているアーティスト、右？そのように、単語の確率であるただ、確率は何ですかでその単語を見て英語？だから、それらのすべてに同じです。これは一定であるためそのように、私たちはできるこれを削除し、それを気にしない。だから、これは実際になります私たちが探している方程式。 >> 私は複数の単語を持っている場合と、私は今それでも前を持っているつもりここ確率。唯一の事は私が掛けるんだということですの確率他のすべての単語。だから私はそれらのすべてを掛けることだ。理にかなって？それは奇妙に見えますが、基本的に意味し、クラスの前に、との計算各確率を掛けそのクラスにある単語の。 >> そして、あなたは知っているの可能性クラス指定された単語があることを行っているあなたがその単語を参照する回数数で割ったそのクラス、あなたがその中に持っている言葉一般的には、クラス。理にかなって？それは、「赤ちゃんが "2終わっただけでどのようだその単語の数私は歌詞に持っていた。だから周波数。 >> しかし、一つのことがあります。私が見せていたか覚えている "赤ちゃん"という歌詞の確率ケイティ·ペリーから0だったという理由だけでケイティペリーは、すべての「赤ちゃん」を持っていなかった？しかし、それだけでは少し耳障りな音単純に歌詞からできないことを言う彼らが持っていないという理由だけで、アーティストいつでも、特にその単語。 >> もしそうであれば、あなただけの、よく、言うことができるこの言葉を持っていない、私はするつもりだあなたのより低い確率を与え、しかし、私はちょうどするつもりはないすぐにあなたに0を与える。多分それはのようなものだったので、「火、火、火、火」である完全にケイティ·ペリー。とし、 "赤ちゃん"、それだけに行く 0すぐに1があったので、 "赤ちゃん" >> そこで、基本的に我々は何をすべきか何かであるラプラススムージングと呼ばれる。そして、これはちょうど私が与えていることを意味しますでも、言葉にはいくつかの確率それは存在しません。だから、私は何をして私がいる時ということですこの計算は、私は常に1を追加分母。だから、言葉はで、存在しない場合でも、これが0であれば、この場合、私はまだだ上で1としてこれを計算する単語の合計数。そうでなければ、私はどのように多くの単語を取得私が持っていると私は1を追加します。だから私は両方のケースのために数えています。理にかなって？ >> だから今のには、いくつかのコーディングを行うことができます。私は、かなり速いそれをしなければならないつもりだそれはあなただけのことが重要です人は概念を理解しています。それでは、私たちがやろうとしている正確にこれを実装されている私が今言った事 - 私はあなたから歌詞を入れたいレディー·ガガやケイティ·ペリー。プログラムができるようにするつもりされているこれらの新しい歌詞·ガガからのものである場合に言うまたはケイティ·ペリー。理にかなって？ [OK]をクリックします。 >> だから私は、私は行くよ、このプログラムがある classify.pyを呼び出します。だから、これはPythonのです。それは、新しいプログラミング言語です。これは、いくつかの非常に類似している CとPHPの方法。あなたがしたいのであれば、それは似ています Cを知った後にPythonを学ぶ、それはだ挑戦の本当にあまりない Pythonははるかに簡単ですからといってまず、C、より。物事の多くは、すでにあなたのために実装されています。だから、どれだけのPHPのような機能を有しているリストを並べ替え、または何かを追加配列、何とか、何とか、何とかする。 Pythonは、同様にそれらのすべてを持っています。 >> だから、僕はすぐに説明するつもりですどのようにして分類を行うことができますここでは問題。それでは、この場合は、私が持っているとしましょうガガとケイティ·ペリーの歌詞。私はそれらの歌詞を持っている方法があることである歌詞の最初の単語ですアーティスト名、および残りは歌詞です。それでは、私はこのリストを持っているとしましょうその最初のものはガガ作詞です。だからここに私は正しい軌道に乗っています。そして次はケイティであり、それはまた、歌詞を持っています。 >> だから、これはあなたが宣言する方法です Pythonで変数。あなたは、データ型を与えることはありません。あなただけの "歌詞"を書いてください PHPのような一種の。理にかなって？ >> だから私がする必要が物事は何ですか計算することができるように計算する確率？私は、「事前分布」を計算する必要があります異なるそれぞれの私が持っているクラス。私は「事後」を計算する必要がまたはかなりの確率のその異なる単語のそれぞれ私は、それぞれのアーティストのために持つことができます。そう·ガガ内、例えば、私は行くよ私が見る何回のリストを持っている各単語。理にかなって？ >> そして最後に、私はちょうど持っているつもりですまさに起こっている "言葉"と呼ばれるリストどのように多くの単語、私持っているそれぞれのアーティストのために持っている。そう·ガガのために、例えば、ときに私が見て歌詞に、私が、私が考えていたが、24 合計言葉。したがって、このリストは単に持ってしようとしているガガ24、およびケイティ別の番号。理にかなって？ [OK]をクリックします。 >> だから今、実際には、みましょうコーディングにアクセスしてください。そうPythonでは、あなたが実際にすることができ異なるの束を返す関数からのもの。だから私は、この関数を作成するつもりです予定された「条件付き」と呼ばれる、それらのもののすべてを返す「事前確率」、「確率」、および「単語」だから「条件付き」で、それはだを呼び出すされようとして "の歌詞。" >> だから今私はあなたが実際にしたいこの関数を書く。私はこれを書くことができますので、道機能私は、これを定義されているを持つ関数「DEF」。だから私はDEF」でした条件付き、「それは取っている「歌詞。 "そして、これが何を何が起こっているか、まず第一に、私は自分の事前分布を持っている私が計算したいという。 >> だから私はこれを行うことができます方法は作成される Pythonで、どの辞書ハッシュとしてほとんど同じことですテーブル、またはそれは、反復のようなものだ PHPの配列。これは私が辞書を宣言する方法です。基本的にこれが意味することはガガの事前確率は、例えば、場合には、0.5である歌詞の50％はからですガガ、50％はケイティからのものである。理にかなって？だから私はどのように把握する必要があります事前分布を計算する。 >> 私がしなければならない次のものを、また、確率との言葉である。だから、ガガの確率はリストである私のすべての確率のガガのためのワードのそれぞれのために持っている。だから私はガガの確率に行けば「赤ちゃん」、例えば、それは私を与えるだろうその場合には24以上の2のようなもの。理にかなって？だから私は「確率」に行くために行くすべてのリストを持っている "ガガ"バケツガガの言葉は、私は「赤ちゃん」に行くと私は確率を参照してください。 >> そして最後に、私はこれを持っている「言葉」の辞書。だからここに、「確率。」その後「単語」だから私は「言葉」「ガガ」を行う場合何が起こるだろうと、それがあるということですその私が言って、私に24を与えるつもりガガの歌詞の中に24の言葉を持っています。理にかなっている？だからここに、「言葉は「DAH-DAH-DAHに等しい。 [OK] >> だから、私は何をするつもりだと、私は行くよですだから、歌詞のそれぞれを反復その文字列の各私は、リストを持っている。そして、私はそれらの事を計算するつもりです候補の各々のために。理にかなっている？だから私は、forループを行う必要があります。 >> だから私は何ができるかをPythonではラインのため」である歌詞にある。」と同じもの PHPの文の「それぞれに」。それは、PHPだった場合、どのように私ができる覚えている各歌詞の "と言う行が「理にかなって？だから私はこの中で、ラインのそれぞれを取っている場合、この文字列と次の私はどのようなラインのそれぞれのためのため、文字列何をするつもりは、私はするつもりだ、最初のものであるのリストに次の行を分割するスペースで区切られた単語。 >> だから、Pythonのすごいところは、ということですあなたは可能性だけのGoogleどのようにすることができます」のような単語に文字列を分割？「それはですそれを行うには、どのように言うつもり。そして、それを行う方法は、それだけで "ラインです = line.split（）」で、それは基本的にだあなたのリストを提供するつもりここで各単語。理にかなっている？だから今私がしたことを私は知ってほしいことその歌の歌手は誰ですか。と私は取得する必要があることを行うには配列の最初の要素ですよね？だから、僕は言うことができる私は "歌手 =行（0） "の意味なのでしょうか？ >> して、私は何をする必要があることは第一に、あるすべて、私はどのように多くの更新するつもりです言葉は私が下に持っている「ガガ」。私はちょうどよ計算しようとしてどのように多くの言葉私右は、このリストを持っている？これは私が持っているどのように多くの言葉であるため歌詞と私はするつもりだ「ガガ」の配列に追加します。それは理にかなっていますか？構文にあまり集中しないでください。概念の詳細を考えてみてください。つまり、最も重要な部分です。 [OK]をクリックします。 >> 「ガガ」であるので、もし私がそれを行うことができますことはある既にそのリストのため、「歌手に入った場合その私はすでに意味の言葉 " ガガの言葉を持っている。私は、追加を追加したいとの言葉。だから、私は何をすることは「言葉（歌手）です + = LEN（ライン） - 1 "。そして私はちょうど行うことができますラインの長さ。だから、どのように多くの要素が、私は配列を持っている。そして私がしなければならない1マイナスという理由だけで配列の最初の要素だけです歌手、それらの歌詞はありません。理にかなっている？ [OK]をクリックします。 >> 「そうでなければ、「それは私が実際にすることを意味しますリストにガガを挿入します。だから、僕は言葉（歌手）」を行う = LEN（ライン） - 1、 "申し訳ありません。だから、2間の唯一の違い行は、この1つは、それがないということですまだ存在していたので、私はちょうどよそれを初期化する。この1私は実際に追加している。 [OK]をクリックします。だから、これは言葉に追加した。 >> 今、私は事前分布に追加する。それでは、どのよう私は、事前分布を計算するのですか？事前確率を計算することができる。何倍。あなたはその歌手を参照してくださいので、何回あなた歌手のすべての中で持っているよね？、·ガガやケイティ·ペリーのためにそうこの場合、私はガガを参照してください。一度、ケイティ·ペリー回。 >> ガガのためにそのように基本的には事前分布とケイティ·ペリーの場合とちょうど、1であること？あなたはどれだけ多くの回数私は芸術家を参照してください。だから、これは計算することは非常に簡単です。私はIF」などのような似ただけで何かをすることができ事前分布での歌手は、「私は行くよその事前分布ボックスに1を追加します。 "だから、「事前確率（歌う）" + = 1 "とし、"他私は、「事前分布（歌手）するつもりです = 1。 "理にかなって？ >> だから、それが存在しない場合、私はちょうど置く 1のように、そうでなければ私はちょうど1を追加します。 [OK]を、だから今、すべて私がやり残していることまた、ワードのそれぞれを追加している確率。だから私は何度もカウントする必要が私は言葉のそれぞれを参照してください。だから、僕は別のものをしなければならない行のforループ。 >> 私がやろうとしていますので、最初のものです歌手が既に持っているかどうかを確認確率配列。歌手にはないので、もし私がチェックしています確率配列を持って、私はちょうどよ彼らのために1を初期化しようとして。それも、配列ではありません、申し訳ありませんが、それは辞書だ。だから、歌手の確率が起こっているオープン辞書であると、私はよちょうどそれのための辞書を初期化する。 OK？ >> そして今、私は実際にループのために何ができる '各単語を計算する確率。 [OK]をクリックします。それでは、私にできることは、forループである。だから、僕は繰り返し処理をするつもりだアレイ全体。私はPythonでそれを行うことができますので、道「範囲で私のために」である。 1から私は2番目に起動するので、要素最初の1であるからである歌手名。だから、1からまでラインの長さ。そして、私はそれが実際にから行くの範囲ないときここのような1からのLENへラインを引いた1。だから、すでにやってのことを行います非常にあるアレイ用のNマイナス1 便利な。理にかなっている？ >> したがって、これらのそれぞれについて、どのような私はするつもりですやるだけ他の1のように、あるこの中の単語かどうかは確認するつもりだ行の位置がすでにある確率。そして私は確率は、ここに述べたように言葉は、のように私は置く「確率（歌手）」。歌手の名前がそう。だから、すでにいた場合「probabilit（歌手）」、それはつまり、私それに1を追加したいので、私はするつもりだ「確率（歌手）」を行って、ワードは "行（I）」と呼ばれています。私はちょうど私1を追加しようと「それ以外」だ 1に初期化しようとして。「ライン（I）」。理にかなっている？ >> だから、私はすべてのアレイを計算した。だから、今、すべて私がしなければならないことこの1は単に「事前分布を返されて、確率と単語 "レッツ [OK]を、任意のがあるかどうかを確認。それはすべてがこれまでに取り組んでいるようです。だから、それは理にかなっている？何らかの方法で？ [OK]をクリックします。だから今、私はすべての確率を持っている。だから今、私は残っている唯一のことまさにそのことを持つことであることすべての積を計算します私は歌詞を取得するときに確率。 >> それでは、私は今、電話をかけたいとしましょうこの機能は、「分類（）」と事その関数が取るただ引数です。それでは「赤ちゃんは、私は燃えています」としましょう、それはだ何であるかを把握しようとしてこれはガガである確率？確率とは何ですかこれはケイティであること？いいですね？だから、僕は作成する必要がありますするつもりだと呼ばれる新しい機能」（分類）」とそれはいくつかを取ることになるだろう歌詞にも。歌詞に加えて私はまた、事前分布を送信する必要があり、確率との言葉。だから私は歌詞、事前分布を送信するつもりだ、確率、言葉。 >> だから、これは歌詞、事前分布を取っている、確率、言葉。だから、それは何をするのでしょうか？それは基本的にすべてを通過しようとしている可能性のある候補があること歌手として持っている。どこでこれらの候補者は何ですか？彼らは正しい、事前分布にいる？だから私はそこに、それらのすべてを持っている。だから私は辞書を持っているつもりだすべての可能な候補者の。し、各候補者のためにある事前分布するので、それがために起こっていることを意味します私が持っていた場合·ガガ、ケイティもより多くの、よりになります。私は計算を開始するつもりだこの確率。私たちが見たように、確率 PowerPointは前回ですそれぞれの積他の確率。 >> だから私はここで同じことを行うことができます。私はちょうど確率は行うことができます最初は直前に。候補者の事前確率はそう。右？そして今、私はすべてを反復しなければならない私はあると歌詞を持っている言葉確率を追加することができ [OK]を、それらの各々のために？だから、「歌詞の中の単語の「私は行くよ何単語がでている場合行うには、ある「確率（候補）」、そのそれは、Wordのことを意味し候補者は彼らの歌詞があります - ガガについては、例えば、 "赤ちゃん" - 私は何をするつもりだと、ということです確率を掛けたことになるだろう 1による確率プラスその単語の候補。そして、それは、「ワード」と呼ばれています。これは、単語の数で割っ私はその候補者のために持っていること。私が持っている単語の総数私が見ている歌手のために。 >> 「エルス」。それは新しい単語であることを意味ので、例えばのようになるだろうレディー·ガガは「火」。だから私は、わずか1をやってみたい「ワード（候補）」。だから私はここでこの用語を置きたくない。 >> だから、基本的になるだろうコピーとこれを貼り付ける。しかし、私はこの部分を削除するつもりです。だから、ちょうどそれ以上の1になるだろう。いいですね？そして今、最後に、私はするつもりだ候補者の名前を印刷し、あなたが持っている確率それらの歌詞にSを有する。理にかなっている？そして、私は実際にもないんこの辞書を必要としています。理にかなっている？ >> だから、これは実際に動作するかどうかを見てみましょう。私はこれを実行するのであれば、それはうまくいきませんでした。 1秒待ちます。「言葉（候補）」、「単語（候補）」、それはです配列の名前。 [OKだから、それはいくつかのバグがあると言っている事前分布における候補者のために。私はほんの少し冷やしてみましょう。 [OK]をクリックします。試してみましょう。 [OK]をクリックします。 >> だから、ケイティ·ペリーがこれを持って提供しますこの10倍の確率マイナス7とガガはこれを持ってマイナス6回10。だから、それがそのガガを示しています参照してください。より高い確率を有する。そうです "ベイビー、私は燃えてんだ」おそらくガガの歌。理にかなっている？だから、これは我々がやったことです。 >> このコードは、オンラインで公開されようとしている、そうあなたたちはそれをチェックアウトすることができます。たぶん、あなたがしたい場合は、のためにそれのいくつかを使用プロジェクトまたは似たようなことを。 [OK]をクリックします。これはちょうど示すことであったどのような計算言語学のコードは次のように見えます。しかし、今度は、それ以上に行ってみよう高レベルのもの。 [OK]をクリックします。 >> だから、他の問題は、私について話していた - セグメンテーション問題そのうちの最初のものです。だから、ここに日本を持っています。そして、あなたはいることがわかりはスペースはありません。だから、これは基本的にそれはだことを意味している椅子の上、右？あなたが日本語を話す？それは右、椅子の上か？ >> 学生：私は何かわからない漢字はあそこです。 >> LUCASフレイタス：それは[日本語を話す]だ [OK]をクリックします。だから、基本的には、トップの椅子を意味します。ですから、スペースを入れていた場合は、それはここになります。そして、あなたは[持っている？上田さん。？] その基本的には上田氏のことである。そして、あなたは「上田」とあなたが持っていることがわかりますスペースとし、 "さん。"だから、ことがわかりますここでは「UE」は、それ自体でのようなものです。そしてここでは、文字を持っているそれに隣接しています。 >> だから、これらの言語ではないようですあなたので単語、それを意味の文字ただ、スペースの多くを置く。文字は相互に関連する。そして、彼らは一緒にすることができます二、三、のような。だから、実際にはいくつかの種類を作成する必要がこれらのスペースを置くことの道の。 >> そしてこのことは、あなたが得るときはいつでもということですこれらのアジアの言語からのデータを、すべてがセグメント化されていない来る。日本を書き込み誰理由または中国人はスペースで書き込みます。あなたは中国を書いているときはいつでも、日本のあなただけのすべてを書くスペースを入れずに。それも意味がありませんスペースを入れて。そう、あなたはからデータを取得するときに、いくつかのあなたがしたい場合は、東アジア言語、実際にそれと何かをするあなたが最初のセグメントする必要があります。 >> の例を行うのではと思いますスペースなしの歌詞。だから、あなたが持っている唯一の歌詞右、文章になりますか？ピリオドで区切られた。しかし、ちょうど文意志を持つ本当に情報を与えることで助けないこれらの歌詞による誰であるの。右？だから、最初に空白を置く必要があります。それでは、どのようにそれを行うことができますか？ >> それでは、言語のアイデアが来る本当に何かですモデル計算のために重要言語学。そのように言語モデルは、基本的にことを示してい確率のテーブル確率とは何か、まず言語の単語を持っていることの？そう言葉がどのように頻繁に示している。そして、その後も関係を示す文中の単語間。 >> 見知らぬ人が来たのであれば主なアイデアは、あるあなたとの文に言ったまで確率のため、というものであるあなた、例では、「これは私の妹である[？GTF "？] 人が言ったことを文でしたか？だから、明らかにいくつかの文章があります他のものよりも一般的。たとえば、「おはよう」や「良い夜は、「または」は、ちょっと "だけではありません最も文章よりも一般的な私たちは英語を持っていること。では、なぜこれらの文章があるより頻繁な？ >> あなたが持っているので、まず第一に、それはだより頻繁に言葉。あなたが言うのであれば、例えば、犬がある大きな、そして犬は、巨大です通常はおそらく大きい犬を聞くより頻繁に "大きな"がよりあるので、より英語で頻繁に「巨大」。そのように、一つ物事は単語の頻度である。 >> 実際に二つ目重要なのは、単にある単語の順番。だから、それは猫である」と言うのが一般的です。箱の中」はできますが、通常はない「内側のボックスは猫である」に表示そうあなたには、いくつかの重要性があることを参照してください。言葉のためである。あなただけの言うことができないもの2 フレーズは、同じ確率を有する彼らは同じ言葉を持っているという理由だけで。実際には気にする必要があります順序についても同様。理にかなって？ >> だから我々は何をしますか？だから、私はあなたを取得しようとするのでしょうか？私はあなたが私たちを取得しようとしている nグラムモデルを呼び出します。そのようにnグラムモデルは、基本的に想定しその各単語のことあなたが文を持っている。それが有する確率だと言葉だけでなくそこに依存します言語でその単語の頻度、だけでなく、言葉でそのそれを囲むれる。 >> ですから、例えば、通常、あなたが見るときまたはあなたがしている時のようなものおそらく見に行くそれの後に名詞、右？なぜならあなたは前置詞を持っているとき通常、それは後に名詞を取ります。それとも、他動詞である動詞を持っている場合通常は、しようとしている名詞句があります。だから、名詞を持っているために起こっているその周りのどこか。 >> だから、基本的には、どのようなそれがないと、それがあることである有する確率を考慮しつまり隣同士に、ときあなたが計算しているセンテンスの確率。そして、それはどのような言語だモデルは基本的に。ただ確率何と言って特定のを持っていることの言語の文？では、なぜそれが基本的には、役立ちましたか？そして、すべての最初のものです nグラムモデルは、？ >> そのようにnグラムモデルは、意味各単語が依存次のNマイナス1言葉。したがって、基本的に、それは私が見ればことを意味し、例えば、CS50のTFのとき Iは、確率を計算するよ文は、次のようなことでしょう」単語 ""を有する確率回」を有する確率 CS50」時代有する確率「CS50タスクフォース。 "だから、基本的に、私は数えそれを延伸するすべての可能な方法。 >> した後、通常はこれをやっているときに、プロジェクトのように、あなたがなるように、Nを入れる低い値。だから、通常はバイグラムまたは卦を持っている。あなただけの二つの言葉は、Aを数えるように 2ワード、3単語のグループ、単にパフォーマンスの問題のために。またので、多分あなたが持っている場合のようなもの "CS50タスクフォース。"ときに、持っている「TFを "と、それは非常に重要だということ「CS50は「右、それに隣接しています？これら二点は、通常、隣同士に。 >> あなたが考える場合は「TF、 "それはおそらく何を持っているつもりそれがためにTF'ingだクラス。また、 ""は本当に重要です CS50タスクフォースのため。しかし、あなたは「CS50のようなものを持っている場合タスクフォースは、クラスに行って、自分のを与えた学生お菓子」「キャンディ」と「」右、本当に関係ない？彼らはお互いにそう遠くだそれは実際にどのような問題ではありませんあなたが持っている言葉。 >> そうバイグラムまたはトライグラムにすることで、ちょうどあなたが制限していることを意味します自分自身いくつかの単語にそのまわりにある。理にかなって？ですから、セグメンテーションを行いたい場合には、基本的に、何をあなたがしたいことを参照してくださいですすべての可能な方法はどのようなものであることをあなたは、セグメントの文章をことができます。 >> あなたが何であるかを見ているようなこれらのフレーズの各々の確率言語で、既存の？それでは、あなたが行うことは、十分に、しましょう、のようなものです私はここにスペースを入れてみてください。だから、そこにスペースを入れてあなたが何であるかを参照してください。その文の確率？その後、多分、[OK]を、のようなものそれはよくありませんでした。だから私はそこにスペースとスペースを入れるそこに、あなたが計算確率今、あなたがいることがわかりそれは高い確率だ。 >> だから、これはタンゴと呼ばれるアルゴリズムであるあるセグメント化アルゴリズム、実際には本当になると何かこれは、プロジェクトのために冷却する基本的にセグメント化されていないテキストをとる日本語や中国語または多分することができます英語領域を使わないとputしようとします言葉とそれがない間のスペース言語モデルを用いて、そのかつ最高であるかを確認しようとしていあなたが得ることができる確率が高くなる。 [OK]をクリックします。だから、これはセグメント化である。 >> 今構文。だから、構文は次のとおりに使用されている今たくさんのこと。グラフ検索のため、シリ用のためにそう自然のほとんどすべての種類あなたが持っている言語処理。とても重要なことである構文についての事？だから、一般的に文章が持っている私たちは、構成要素と呼んでいるもの。どの種類の言葉のグループのようなもの文中の機能を有すること。そして、彼らは本当にすることはできません互いに離れて。 >> 私が言うのであれば、例えば、「ローレンは大好きミロ。ローレン」が「私がいることを知っている " 構成要素とし、 "愛ミロ "も別の1つです。あなたは「ローレン·ミロのように言うことができないので、同じ意味を持つこと」が大好き。それは持っているつもりはない同じ意味。または私はミロローレン "のように言うことができない愛している "すべてが同じを持っていないそれをやって意味。 >> だから、約2もっと重要なことは、構文は次のとおりです。字句タイプです基本的に、関数自らの言葉を持っている。だから、あなたが知っている必要があること」ローレン」と "ミロ"は名詞である。 "愛"は動詞である。そして第二の重要なことは彼らは句のタイプだということ。だから、「ミロを愛する」ことを知っている実際に動詞句である。だから私は、私がいることを知っている "、ローレン"と言うとき、ローレンは、何かをしている。彼女は何をやっている？彼女はミロを愛するだ。だから、全体のことだ。しかし、その構成要素である名詞と動詞。しかし、一緒に、彼らは動詞句を作る。 >> だから、私たちは実際に何ができる計算言語学？だから、私は何かを持っている場合は「アリソンの友人。 "私が表示された場合、私だけ構文木は、私が知っているだろうなかったこと「友人は「それが名詞句である「アリソンの「それから名詞とは「の」の前置詞句がある命題と "アリソン"は名詞である。私は何ができることは、私のコンピュータを教えるですその私が名詞句1を持っているときその後、前置詞句。の "その後、この場合は、「友人」だからとミロ「私はこれがあることを意味していることを知っている NP2は、第1には、NP1を所有しています。 >> だから私は関係のいくつかの種類を作成することができ、それのための機能のいくつかの種類。だから私は、この構造を見るたびに、そのの友人」と正確に一致するアリソンは、「私が知っているアリソン友人が所有しています。だから友達が何かあるアリソンは、持っていること。理にかなっている？だから、これは基本的には何ですかグラフ探索していますか。それだけで、ルールを作成します。多くのことのために。だから、「アリソンの友人」「私の友人私の友人は「 "ケンブリッジ、誰が住んでいるハーバード大学に行く人。「それは、ルールを作成し、それらのもののすべてのため。 >> 今機械翻訳。そのため、機械翻訳でもある統計的なもの。そして、実際にあなたがに巻き込ま場合は、計算言語学、多くの自分のものは、統計になるだろう。私は、との例をしていたように私がいた確率がたくさん計算した後、あなたはこのに行く最終の非常に少ない数確率、それが何あなたの答えを与える。機械翻訳にも使用しています統計モデル。そして、あなたは、マシンを考えたい場合最も単純な内訳方法は、あなたが考えることができることだけである右、単語、単語を翻訳？ >> あなたが使用する言語を学習しているときは初めて、それは通常、何あなたは正しい、のですか？あなたがしたい場合は、センテンスを翻訳言語にあなたの言語であなたは、通常、最初に、学習している各単語を翻訳個別に、次にあなたがしよう所定の場所に言葉を入れて。 >> だから、私はこれを翻訳したい場合、 [ポルトガル語を話す] 「白猫が逃げた。」を意味する私はからそれを変換したい場合英語からポルトガル、どのような私何ができる私は、まず、ワード単位で変換します。そのように「○」は「猫 ""、 ""ガトー」である「ブランコ」、「白」、次に「fugio」です「逃げた。 " >> だから、私は、ここにすべての単語を持っているしかし、彼らは順番ではありませんね。それは、 "猫の白が逃げた」ようなものだこれは非文法的である。だから、私は第二段階を持つことができる理想的なの発見されようとしている各単語のための位置。だから私は、私が実際にしたいことを知っている「白猫 "の代わりに"猫の白。 "そう私ができることは、最も単純な方法であり、すべて作成することですの可能な順列ポジションの言葉。して、1が持っているかを確認最も高い確率に従って私の言語モデルに。そして、私が持っているものを見つけるときで最も高い確率IT、おそらく「白猫は、逃げた " それが私の訳です。 >> そして、これは説明の簡単な方法ですどのように機械翻訳の多くアルゴリズムが働く。それは理にかなっていますか？また、これは本当にエキサイティングなものであるあなたたちは、おそらくのために探索することができていること最終的なプロジェクト、ええ？ >> 学生：さて、あなたはそれがあったと述べ素朴な方法なので、何が非素朴な方法？ >> LUCASフレイタス：非素朴な方法？ [OK]をクリックします。約悪いので、まず最初にこの方法では、私はちょうど翻訳ということですつまり、言葉による言葉。しかし、時にはあなたは言葉を持っている複数の翻訳を持つことができます。私が考えて試してみるつもりだ何か。ポルトガルCANの例では、 "マンガ" も「マングル」または「スリーブ」のどちらかそうあなたは単語を翻訳しようとしているとき言葉で、それはあなたを与える可能性があります意味がありません何か。 >> だから、実際にはまったく見てあなたにしたいの可能な翻訳単語や参照、まず第一に、オーダーは何ですか。私たちは、並べ替えるを話していた物事？可能なすべての注文を参照して、最高のものを選ぶ確率？また、すべての可能なを選択することができますそれぞれの翻訳単語として参照してください - 順列と組み合わせ - その1は、最も高い確率を持っています。 >> さらに、あなたもしないで見ることができる単語だけが、フレーズ。だから、間の関係を分析することができます言葉、次に取得より良い翻訳。また、何か他のものなので、今学期私は実際に研究をしています中国語 - 英語機械翻訳、これから翻訳英語に中国人。 >> そして我々は何かが使用する以外、あるただで統計モデル、見ての確率を見て文中のある位置、私は実際にも、私のためにいくつかの構文を追加するモデル、私はこの種を見れば、ああ、言って建設した、これは私が欲しいものである私が翻訳したときにそれを変更します。だから、あなたはまた、いくつかの種類を追加することができます確認するための構文の要素翻訳をより効率的より正確な。 [OK]をクリックします。 >> あなたが望むのであれば、あなたは、どのように始めることができます計算で何かをする言語学？ >> まず、プロジェクトを選択つまり、言語を必要とする。だから、そこに非常に多くのがあります。あなたが行うことができますので、多くのことがあります。し、モデルと考えることができますあなたが使用できる。通常、それはの思考を意味し仮定、私がいたとき、ああ、など歌詞を考えよう。私が理解したい場合、私は、よく、のようだったこれを書いた人を、私はおそらくしたい使用された単語を見て、人と非常に多くの場合、その単語を使用しています誰が参照してください。そう仮定を作ってみると、モデルを考えてみてください。そして、あなたはまた、オンラインで検索することができますあなたが持っている問題の種類、それが示唆するようになるだろう多分あなたのモデルによくそのことをモデル化した。 >> そしてまた、あなたはいつも私を電子メールで送信できます。 me@lfreitas.com。と私はあなたの質問に答えることができます。我々はそうであっても私ができる会うかもしれないことができますの方法についての提案を与えるプロジェクトを実施する。あなたと巻き込まあれば私は意味計算言語学、それが起こっている素晴らしいことです。あなたはそこに見ることになるだろうそんなに可能性がある。そして業界が雇用を希望そのための、あなたが悪い。だから私はあなたたちがこれを楽しんでほしい。君たちは不明な点がございましたら、あなたは、この後に私に尋ねることができます。しかし、あなたに感謝します。