久々にブログを更新しようと思ったら、この数カ月で記事らしい記事は「一人遊園地」しか書いていないことに軽い絶望を覚えたせちろーです。

今日は、Hadoop Conference Japan 2014に参加してきたので、その時に取ったメモを整理してアップ。長くなるので、まずはキーノートから。間違いがあってもご容赦ください。

当日の資料は、以下のページにアップされると思うので、詳しい情報は以下を見てください。

それぞれ別の立場から話しているのに、Hadoopの用途が大量データの保存と単純な集計から、汎用的な分散処理基盤かつMPPまで包含するような方向で進化しているという観点が共通しているところが面白いですね。

キーノート

開会挨拶

f:id:sechiro:20140708101830j:plain

参加登録者
- 1296名 -> 最終的には1299名
- 約65％が初めて参加する人
データ
- 利用経験のアンケートでは、44％以上の人が半年以上の経験。始める人も増えている。
- エコシステムでは、Hiveが半数使っている、2位がHBaseで意外、新しいプロダクトとして、Impala、Sparkが入っている。
- NTT/NTTデータが第9位のソースコードコミットで日本からの貢献も多い
Hadoopのこれまで
- はじめて普及した並列分散処理
- データの読み込みのスループットの最大化
- シンプルなモデル（MapReduce）
だんだんYARNが中心に座ってきている
- MRの経験をもとに複数の分散処理エンジンを使い分ける時代に

f:id:sechiro:20140708104221j:plain

f:id:sechiro:20140708105920j:plain

今日のスライドは、自分で日本語に翻訳した
Spark開発者の一週間
- 500 Patch
- 200 update issue
- 140 Mail thread
- ...
Spark開発目標
- Data scientist, engineerの能力拡張
- CleanなAPI
- 多様な環境に適用
- 強力な標準ライブラリ
API互換性を維持
- 標準APIと試験的APIがある
- 互換性を維持した安定したプロダクト
- マイナーリリースは3ヶ月毎に
- 必要に応じてメンテナンスリリース
- パッチリリースは慎重に
Spark Stack
- Spark SQL
- MLlib
- Graph X
- Spark Streaming
Sparkの未来は「ライブラリ」
- パッケージ化してどこでも使えるように
Spark SQL
- 急速に成長
- SQL 92を目指している
- Hadoop、NoSQL、RDBMSを統合
  - Sharkから直接アップグレードできる
DatabricksではクラウドでSparkを提供している

f:id:sechiro:20140708112953j:plain

Hadoopの本質的な価値とは
- Collect any types of Data
- Store any types of Data Economically
- Faster use of Data
- Better use of Data
ここまで使うことでHadoopの価値が出る
Collect any types of Data
- Fluentd
- Apache Flume
- Kafka
- Sqoop
Store any types of Data Economically
- どんなタイプのデータも格納可能
  - ファイルフォーマットに注目が集まっている　
Faster use of Data
- DAG型
- External DSL
  - Hive,Pig
- Internal DSL
Better use of Data
- Impala, Presto, Drill
- Mahout, Hivemall
データベースの進化
- クエリプランナ、オプティマイザからHadoopにクエリが生成される
- Vertica Zonemapで準構造化データも扱えるようになっている
スキーマ管理がもたらす問題
- 一部のレポートしか作れない
- データの整合性はとれるが、出てくるころには使えない
現在のトレンド
- Hadoopにとにかく生データを集約。スキーマも意識しない。
- 集約した結果をMPPに入れる
  - BIツールとの接続性がよいため
今後、Hadoopは構造化データとの境界線に突入
- HadoopだけでMPPができるように
- トレンドを読みながら技術を利用すべき

キーノートのメモはここまで。