オープンソースカンファレンス2011 Tokyo/Springにいってきました〜1日目〜
先週金曜日・土曜日に早稲田大学で行われたオープンソースカンファレンス2011 Tokyo/Springの参加報告です。
かなり参加者数も多く盛り上がっている印象を受けました。
特に聴講者の多いセッションは、Hadoopやクラウドで、
やはりこの辺りの注目度が高いようでした。
まずは1日目です。
個人的にはZabbix関連の話が聞けたことがおもしろかったです。
特に、Zabbix2.0や2.xで追加される機能面が興味深かったです。
今、Zabbixの1.8.3を利用していて少し不便に感じている箇所が解消される予定だったり、
さらにはタスクスケジューリング機能の追加も予定されているなど、
ユーザが望んでいる機能がどんどんリリースされる予定なところに魅力を感じました。
IBMのHadoopの話では、MasterNodeの冗長化を進めるのではなく、
IBMのPowerSystemsを使ってスケールアップする方法もあるというちょっと違った観点からのアプローチも面白かったです。
以下に聴講メモを展開します。
ZABICOM1.8の機能紹介 【NTTコムテクノロジー 福島氏】
概要
ZABICOMとZabbixとの違いの説明
Zabbix2.0での改善点の紹介
詳細
ZABICOMとは、Zabbixそのままではできない仮想化基盤の監視や簡易レポート機能、IPv6への対応強化などNTT
comtechnologyが日本向けに開発している製品。
Zabbixの開発ポリシー
ZABICOMによりできること
・ SNMPトラッパーの機能強化
標準だとどこからトラップがあがってきたかを判別しにくいそのため、
高機能SNMPトラッパーによりどこの端末からあがったトラップかの判別を簡単にしている
・ 高精度イベント識別機能
標準だと時分秒を確認してエラーを検知するため秒間に2個以上発生した場合に識別できない。
そのため、ナノ秒単位で識別できるよう機能拡張。
・仮想化環境監視機能
VMwareESX,ESXiなどをvSphereからAPIを利用して監視情報を収集
・レポート作成機能
監視情報を定期的に取得して保存する。設定したレポート形式で出力が可能。
・SNMPMIB取り込み機能
SNMPエージェントが動作している機器からMIB情報を取り込みその情報を基にテンプレート作成可能。
・configのバックアップ機能
zabbix_server.confなどのバックアップを別サーバに定期的に転送が可能。
Zabbix2.0
- GUIの向上→操作性や表示速度向上
- よりシンプルに→初期設定等をシンプルに
- すべてのプラットフォームで公式パッケージを用意→DEB,RPM,Windows公式バイナリ
- アプライアンス化→VMware用イメージ、ISOイメージ、インストールCD
- クオリティの向上→リリース候補版の作成、UnitTestの導入
Zabbix2.0の新機能
- DBの整合性→現在RDBであるにも関わらずリレーションを使っていない
- ローレベルディスカバリ→サーバ毎に異なるマウントポイントやNICの情報を自動的にディスカバリして監視設定テンプレートに組み込み可能に☆
- テンプレートにScreenを追加可能
- 1つのホストに複数のネットワークインタフェースを設定可能に
- JMXリモート監視→より詳細にJavaアプリケーションの稼働状況の監視が可能
- エージェント設定の一元管理→各エージェントの設定項目をServer側から一括で監視可能に
Zabbix2.xの予定
- タスクスケジューラ機能
- 通信の暗号化
- 分散監視機能の再構成
Hadoopを利用した大量データ処理 IBM石川氏
概要
Hadoopをより使いやすくする機能の紹介
大規模な環境でのMasterNodeの設計
詳細
Hadoopを使いやすく
BigSheets
Jaql
Hadoop上での具体的な処理を記述するプログラミング言語
HDFSからデータを読み出して加工する処理を記述。
処理は自動的にHadoopジョブとして実行pig,Hiveと比べて後発。
SQL系の書き方ではない。
処理をパイプ(->)でつないで実行。書き方は以下。
$p = read(hdfs('products') ->transform systemT($aogPlan,$) ->filter $.brand='Sony'
処理を矢印(->)でつないでいく。
JSONデータモデル採用。
jaqlshell -cでjaqlシェルを起動してプログラムを実行可能。
Hadoop on IBM CoD
大規模なHadoop環境をオンデマンドで実行可能。
Amazon Elastic MapReduceとの違いはIBMのハードウェアの性能をフルで利用可能な点。
MasterNodeはスケールアップ型も有効
HadoopだとMasterNodeはスケールアウト型のアプローチが難しいので、スケールアップ型が有効に活用できるポイント。
ここにIBM PowerSystemsの導入がいいのではないか。
PowerSystemsの高性能・高信頼性が安定したHadoopの稼働に有効。
PowerSystemsの高信頼性
Cloudera's Distribution for Apache Hadoopって何ができるの HP 古賀氏
詳細
Cloudera Distribution for Hadoop概要
Hadoop環境を容易に構築できるようにすることを目的としている。
RPM,Deb形式のパッケージが用意されている。
ClouderaEnterpriseという有償管理ソフトウェアも提供。
本体以外(Hive,Hbase)などもRPMパッケージ化。
Cloudera Enterprise
認証管理・プロビジョニング・監視・リソース管理・自動化(計画中)これらの機能を持った管理ソフトウェアを提供。
Hadoop Streamingを利用することでJavaで記述しなくてもPythonやPerlなどのスクリプトでMapReduceを実現できる
システム構成
NameNode1台(JobTrackerを兼用)それ以外はDataNode5台、ネットワークは1GbE。
DataNodeは最低でも5台(CPU2×QC Xeon 18GBメモリ)。8台ぐらいあれば性能が出てくる。
台数が増えてくるとNameNodeのメモリ量が圧迫されるので注意が必要。
"コモディティハードウェアはローエンドという意味ではない。"
2×QC(2-2.5GHz),16-24GBメモリFacebookCPU16コア、Mem32GB、Disk12〜24TB
Yahoo1億ファイルの場合
NameNodeのメモリが60GB以上必要。
1PBの物理ストレージ容量確保にはメタデータ用のRAMが1GB必要。
1億ファイルに必要なHDFSクラスタは10000ノードで1ノードあたり8TBディスクが必要。
Hadoopの監視
NagiosではHadoop用の監視プラグインが容易されており、
Hadoop関連のプロセスの監視等を実施可能。
「check_hadoop-datanode.plcheck_hadoop_hdfs.shcheck_hadoop_tasktracker.plcheck_port.plcheck_hadop_metrics.sh」