Hadoop Conference Japan 2014 参加メモ(個別セッション③) #hcj2014
Hadoop Conference Japan 2014 参加メモ(キーノート) #hcj2014 と Hadoop Conference Japan 2014 参加メモ(個別セッション①) #hcj2014 と Hadoop Conference Japan 2014 参加メモ(個別セッション②) #hcj2014 の続きです。
メモはここまで。
並列SQLエンジンPresto - 大規模データセットを高速にグラフ化する方法
- 古橋 貞之(Treasure Data)
会場でPrestoを使っている人はどれぐらいいますか?
- 10人ぐらい
- これは話し甲斐がある
- 10人ぐらい
HDFS上のデータを可視化したい
- Hiveは、可視化には遅すぎる
- ODBC接続が安定しない
- ただし、Hiveは、巨大なJOINなどでは有効
- ODBC接続が安定しない
- Redshift, PostgreSQLは、コストが高いし、スケーラビリティが低かったり
- 中間データベースを使うと、余計な手間がかかる
- Hiveは、可視化には遅すぎる
Prestoを使うと解決可能
- PrestoはHiveにもMySQL上にあるデータにもクエリを投げられる
- Prestoをハブとして解析プラットフォームを作れる
全体アーキテクチャ
Connector
- Hive
- Cassandra
- MySQL(beta)
BI tools needs
Prestgres
- PostgreSQL protocol gateway
- PostgreSQLのODBC/JDBCで接続できる
PostgreSQL に見えるんだけど、裏ではPrestoが動く
- pgpool-Ⅱを改造してクエリを書き換える
- 書き換えたクエリがPostgreSQLの中でさらに各サービスへのクエリに変換される
Tableau/ChartIOからクエリをかけられる
- PostgreSQL protocol gateway
Prestoの実行モデル
Monitoring
Laad map
- Huge JOIN and Group by
- Task revovery
- Create View
- Plugin repository
- Native store
情報源
QA
- 想定質問としてあるのが、Impalaと較べてどうなのか
- 確かにImpalaと比べると遅い
- アグリゲーションの最適化が図られているので、だんだん早くなっている。開発スピードが早い。
- impalaよりも、リソース管理がしっかりしており、メトリクスが取りやすい。運用が考慮されている。
- 拡張性が高く、開発がオープン。
- プルリクエストが2,3週間でマージされる
- 確かにImpalaと比べると遅い
- 想定質問としてあるのが、Impalaと較べてどうなのか
内容のメモは以上です。