技術評論社(C)JAVAPRESS(ジャバプレス) Vol.35
超・超・超おもしろいー!!っていうか保存版。検索エンジンのアルゴリズム特集なのです。Google PageRankの数式(P.99、Sergy Brin and Lawrence Page,The Anatomy of a Large-Scale Hypertextual Web Search Engine、 山名早人、情報処理42巻8号pp.775)なんか、マニアの垂涎モノ(笑) P.101を読めばざっと仕組みがわかる。
P.101 Googleの全体構成と流れ
・CとかでかかれてUNIXで動いてる。
・URLをクローラに渡す。
・クローラがwebページをダウンロードしてくる。
・Store Serverがそれらを圧縮し、リポジトリに格納。各docにはIDが。
・インデクシングがIndexerとSorterによってなされる。
・Indexerはリポジトリのwebページを解凍して分析し、HitsになおしてBarrelsというDBに収める。
・Indexerはwebページのリンク情報を分析し、結果をAnchorsに保持、Pagerankやクローラに使う。
・その後URLResolverがURLを相対パスから絶対パスに変換。
・LinksというリンクDBを作成
・ユーザからの問い合わせにはSearcherが応対。
話かわって。
The rebuke to Madrid is felt in Washington
Herald Tribune(C) March 17, 2004
おっとろしー。スペインでアルカイダの報復テロだ。軍をイラクに派遣したスペインがターゲットになった。日本だってモチロンひとごとではない。
・・・そんなころ私は、無理言って映像の魔術師?!Shugoにビデオを撮ってもらい、その後、よっちゃん・トモコと荳庵(03-6215-8250)へ。ここはコリドー街だし、どカジュアルなんだけど、おいしかったし、内装もプチ町屋の箱庭っぽくコってて、好感持てました。