Hadoop Conference Japan 2014 参加メモ(キーノート) #hcj2014
久々にブログを更新しようと思ったら、この数カ月で記事らしい記事は「一人遊園地」しか書いていないことに軽い絶望を覚えたせちろーです。
今日は、Hadoop Conference Japan 2014に参加してきたので、その時に取ったメモを整理してアップ。長くなるので、まずはキーノートから。間違いがあってもご容赦ください。
当日の資料は、以下のページにアップされると思うので、詳しい情報は以下を見てください。
http://www.eventbrite.com/e/hadoop-conference-japan-2014-tickets-12016613013
それぞれ別の立場から話しているのに、Hadoopの用途が大量データの保存と単純な集計から、汎用的な分散処理基盤かつMPPまで包含するような方向で進化しているという観点が共通しているところが面白いですね。
キーノート
開会挨拶
- 参加登録者
- 1296名 -> 最終的には1299名
- 約65%が初めて参加する人
データ
Hadoopのこれまで
だんだんYARNが中心に座ってきている
- MRの経験をもとに複数の分散処理エンジンを使い分ける時代に
『The Future of Data』
未来は予測できないが、いくつかの事実が真実を予測
『The Future of Spark』
- Speaker: Patrick Wendell (Apache Spark主要開発者, Databricks)
今日のスライドは、自分で日本語に翻訳した
Spark開発者の一週間
- 500 Patch
- 200 update issue
- 140 Mail thread
- ...
Spark開発目標
- Data scientist, engineerの能力拡張
- CleanなAPI
- 多様な環境に適用
- 強力な標準ライブラリ
API互換性を維持
Spark Stack
- Spark SQL
- MLlib
- Graph X
- Spark Streaming
Sparkの未来は「ライブラリ」
- パッケージ化してどこでも使えるように
Spark SQL
DatabricksではクラウドでSparkを提供している
『Hadoopエコシステムの変遷と、見えてきた使いどころ』
- Speaker: 太田 一樹 (Treasure Data CTO)
- Hadoopの本質的な価値とは
- Collect any types of Data
- Store any types of Data Economically
- Faster use of Data
- Better use of Data
ここまで使うことでHadoopの価値が出る
Collect any types of Data
- Fluentd
- Apache Flume
- Kafka
- Sqoop
Store any types of Data Economically
- どんなタイプのデータも格納可能
- ファイルフォーマットに注目が集まっている
- どんなタイプのデータも格納可能
Faster use of Data
Better use of Data
- Impala, Presto, Drill
- Mahout, Hivemall
データベースの進化
スキーマ管理がもたらす問題
- 一部のレポートしか作れない
- データの整合性はとれるが、出てくるころには使えない
現在のトレンド
今後、Hadoopは構造化データとの境界線に突入
- HadoopだけでMPPができるように
- トレンドを読みながら技術を利用すべき
キーノートのメモはここまで。