双六工場日誌

平凡な日常を淡々と綴ります。

Hadoop Conference Japan 2014 参加メモ(キーノート) #hcj2014

久々にブログを更新しようと思ったら、この数カ月で記事らしい記事は「一人遊園地」しか書いていないことに軽い絶望を覚えたせちろーです。

今日は、Hadoop Conference Japan 2014に参加してきたので、その時に取ったメモを整理してアップ。長くなるので、まずはキーノートから。間違いがあってもご容赦ください。

当日の資料は、以下のページにアップされると思うので、詳しい情報は以下を見てください。

http://www.eventbrite.com/e/hadoop-conference-japan-2014-tickets-12016613013

それぞれ別の立場から話しているのに、Hadoopの用途が大量データの保存と単純な集計から、汎用的な分散処理基盤かつMPPまで包含するような方向で進化しているという観点が共通しているところが面白いですね。

キーノート

開会挨拶

f:id:sechiro:20140708101830j:plain

  • 参加登録者
    • 1296名 -> 最終的には1299名
    • 約65%が初めて参加する人
  • データ

    • 利用経験のアンケートでは、44%以上の人が半年以上の経験。始める人も増えている。
    • エコシステムでは、Hiveが半数使っている、2位がHBaseで意外、新しいプロダクトとして、Impala、Sparkが入っている。
    • NTT/NTTデータが第9位のソースコードコミットで日本からの貢献も多い
  • Hadoopのこれまで

    • はじめて普及した並列分散処理
    • データの読み込みのスループットの最大化
    • シンプルなモデル(MapReduce
  • だんだんYARNが中心に座ってきている

    • MRの経験をもとに複数の分散処理エンジンを使い分ける時代に

『The Future of Data』

  • Speaker: Doug Cutting (Hadoop生みの親, Apache Software Foundation, Cloudera)

f:id:sechiro:20140708104221j:plain

  • 未来は予測できないが、いくつかの事実が真実を予測

    • HWの性能が上がり、安くなっている。
    • データの価値はさらに高まり 
      • 競争力を維持するためには、データ活用が必須
    • OSSが勝ち残る
    • Hadoop機能はさらに向上
    • Hadoopが当たり前に   * Hive: SQLができる人が、アフォーダブルなスケーラブルな基盤を支える

    • Hadoopビッグデータ界を席巻

  • Hadoopが「エンタープライズデータハブ」となる

『The Future of Spark』

  • Speaker: Patrick Wendell (Apache Spark主要開発者, Databricks)

f:id:sechiro:20140708105920j:plain

  • 今日のスライドは、自分で日本語に翻訳した

  • Spark開発者の一週間

    • 500 Patch
    • 200 update issue
    • 140 Mail thread
    • ...
  • Spark開発目標

    • Data scientist, engineerの能力拡張
    • CleanなAPI
    • 多様な環境に適用
    • 強力な標準ライブラリ
  • API互換性を維持

    • 標準APIと試験的APIがある
    • 互換性を維持した安定したプロダクト
    • マイナーリリースは3ヶ月毎に
    • 必要に応じてメンテナンスリリース
    • パッチリリースは慎重に
  • Spark Stack

    • Spark SQL
    • MLlib
    • Graph X
    • Spark Streaming
  • Sparkの未来は「ライブラリ」

    • パッケージ化してどこでも使えるように
  • Spark SQL

    • 急速に成長
    • SQL 92を目指している
    • Hadoop、NoSQL、RDBMSを統合
      • Sharkから直接アップグレードできる
  • DatabricksではクラウドでSparkを提供している

Hadoopエコシステムの変遷と、見えてきた使いどころ』

  • Speaker: 太田 一樹 (Treasure Data CTO)

f:id:sechiro:20140708112953j:plain

  • Hadoopの本質的な価値とは
    • Collect any types of Data
    • Store any types of Data Economically
    • Faster use of Data
    • Better use of Data
  • ここまで使うことでHadoopの価値が出る

  • Collect any types of Data

    • Fluentd
    • Apache Flume
    • Kafka
    • Sqoop
  • Store any types of Data Economically

    • どんなタイプのデータも格納可能
      • ファイルフォーマットに注目が集まっている 
  • Faster use of Data

    • DAG型
    • External DSL
      • Hive,Pig
    • Internal DSL
  • Better use of Data

    • Impala, Presto, Drill
    • Mahout, Hivemall
  • データベースの進化

    • クエリプランナ、オプティマイザからHadoopにクエリが生成される
    • Vertica Zonemapで準構造化データも扱えるようになっている
  • スキーマ管理がもたらす問題

    • 一部のレポートしか作れない
    • データの整合性はとれるが、出てくるころには使えない
  • 現在のトレンド

    • Hadoopにとにかく生データを集約。スキーマも意識しない。
    • 集約した結果をMPPに入れる
  • 今後、Hadoopは構造化データとの境界線に突入

    • HadoopだけでMPPができるように
    • トレンドを読みながら技術を利用すべき

キーノートのメモはここまで。