GREE Labs 第16回 オープンソーステクノロジー勉強会

GREE Engineering
に参加してきました。

いやー。かなり面白かった。久々のヒットです。
落ち着いてレポートを書こうかと思ったのですが、id:zegenvsさんのサイトにまとめてあったのでリンク張っちゃいます。
勉強会レポート

Preferred Infrastructureの太田さんの「Hadoopについて」

個人的には、MapReduceの概要は把握していたんですが、なぜMapReduceという技術が出てきたかというところを把握できていなかったので、
MPIの問題(耐障害性、通信部分の実装の煩雑さ)を解決するというところからMapReduceという技術ができたというところは、MapReduceの技術の本質が見えてわかりやすかった。(もちろん対象とする領域が異なっているという側面はありますが・・)

また、Hadoopを実運用に使っているというところが興味深かった。

海外の事例
  • Yahoo
    • 〜2000ノード
    • 検索、広告、ログ処理、データ解析などの部分で使われている
  • Amazon,Facebook
    • 〜400ノード
    • ログ処理、データ解析
国内の事例

BlogEyeの大倉さん

Amazon S3 + EC2 + Hadoopでの実運用事例

データマインニングの研究→Blogを適用対象とした

  • 対象
    • 500万サイト、記事2億+60万/day、
    • データ量200〜300GB
Hadoopは動的にノードの追加・削除が可能

時間単位で使えるEC2と相性が良い
→普段はクローラーにslaveを4台、データ分析時に80台に一時的に増やす

クローラとHadoopも相性良し

クローリングは、レスポンスが帰ってこない場合やレスポンスに非常に大きなデータをふくむこともありうる。ファイルセーフのためはクローラーをslaveに使うとmasterに影響を出さず続行できるので相性いいよ!とのこと。

システム構成
WEBサーバ 2台
全文検索用サーバ 1台
Hadoop Master + MySQL 1台
Hadoop Slave クローラー(4台)、意味解析時(80台になることも・・)
Hadoopの問題点

あんまりない、強いて言うなら

  • Reducerの開始をMapperの終了まで待たせられない
  • ログがすごく大きくなる→一週間くらいで消しちゃえ