どのように検索ワークス

こんにちは。私は Google のエンジニアでサーチクオリティーを担当している Matt Cutts です。今日はウェブ検索の裏側を紹介します。実は Google 検索が行われるとき、ユーザーはウェブを検索しているのではなく Google が持つウェブのインデックス、つまり Google がウェブ上で見つけることができたものの中から検索をしているのです。ウェブ上から情報を集めるとき、スパイダーというプログラムが使われています。スパイダーは最初にいくつかのウェブページの情報を取得し次にそれらのページのリンクからリンク先のページの情報を取得します。そしてさらにそのページのリンク先のページを辿り情報を取得していき、これを繰り返します。こうしてとても大きなウェブのかたまりをインデックスします。数十億ものウェブページは何千ものマシンに保存されています。たとえば、チーターの走る速さを知りたいとします。「チーター　走る　速さ」と検索ボックスに入力して実行すると、 Google のソフトウェアはインデックスを検索してこれらの検索クエリを含むすべてのページを探します。この場合、何十万ものページが該当するかも知れません。では Google はどうやって、ユーザーが本当に求めているページがどれかを判断しているのでしょうか。-- Google では 200 以上の「問い」を立てて、そこから判断をしています。たとえばキーワードがそのページに何回含まれているか、そのキーワードはタイトルに現れているのか、それとも URL か、またキーワード同士隣接して現れるのか、キーワードの類義語が含まれているか、そのページを所有するウェブサイトの品質は高いか、低いか、スパムでかどうか、PageRank はどれぐらいか、などの問いを立てて、各ページを評価しています。ちなみに PageRank とは、Google の創立者 Larry Page と Sergey Brin が発明したアルゴリズムで、どれぐらい多くの、そしてどれぐらい重要な外部からのリンクが存在するかによって各サイトを評価する仕組みです。最終的に、わたしたちはこれらすべての要因を組み合わせて各ページの総合得点を算出して検索結果をユーザーに返します。その間わずか 0.5秒ほどです。 Google は、公平で役に立つ検索結果を届けることに真剣に取り組んでいます。お金をもらって、あるサイトをインデックスに追加することや、より頻繁にそのサイトのインデックス上の情報を更新すること、またそのサイトの順位を上げることは決してありません。では、検索結果の一例を見てみましょう。各エントリにはタイトル、URL、スニペットがあり、そのページが探していたページかどうかを判断できるようになっています。他にも、類似ページへのリンクや Google が保存しているそのページの最新のバージョンへのリンク、次に検索するかもしれない関連する検索キーワードが表示されます。検索結果の右側や上に広告が表示されることもあります。 Google は広告事業にも積極的に取り組んでいますが、広告主のためにより適した閲覧者に広告を配信し、ユーザーのためには見たい広告だけを表示するよう努力しています。広告を通常の検索結果と区別できるように表示することにわたしたちはとても気をつけています。探している情報を見つけるのに役に立つ広告が見つからないときは広告は一切表示しません。ちなみに、チーターが走るときの最高速度は時速 100 km 以上です。ご覧頂きありがとうございます。 Google のサービスを理解するうえでお役に立てましたら幸いです。