HBaseのTableMapper
前回の逆というか、TableMapperを使ってHBase上のテーブルからデータとってそれを普通のReducerで処理する
という事なので前回のと今回のを合わせれば、「HBaseで取ってHBaseに出力」なんていう事も出来る。というかベースはそれでなっててそれを分割しているにしかすぎないのが今回の件
前回の逆というか、TableMapperを使ってHBase上のテーブルからデータとってそれを普通のReducerで処理する
という事なので前回のと今回のを合わせれば、「HBaseで取ってHBaseに出力」なんていう事も出来る。というかベースはそれでなっててそれを分割しているにしかすぎないのが今回の件
タイトル通り、Hadoop MapReduce上でReducer側から処理したデータをHBaseにぶっこむ為にTableReducerを使う事が出来る。やってみた
今更って感じですが... っていうか元ブログ(自宅用)からの現在のバージョンで動くか確認しつつの転用っていう形
※ちなみに検証したHadoopのバージョンは1.2.1
例えばシステム側で処理したデータをHadoopで処理するためにはデータをうpしないといけなかったりする(InputFormatによる)
でhadoop fs putとか使わずにそれをやるには
WebHDFS Rest APIを使えばHDFS操作をRESTサービスベースでHTTPリクエストをぶん投げる事で出来るようになった模様。ちょっと興味あったので使ってみた
(Hadoopのバージョンは1.0.4です)
Hadoop MapReduceのテストを書く方法としてMRUnitっていうのがあるのを以前から知ってて、だけどまったく検証する気配が無いのでやってみた。但し、相変わらずMaven2を使う
HadoopでCassandraを使ってみるネタシリーズはこれで終わり。1回目と2回目をくっつけて、Cassandraから読み込みCassandraにプッシュしてみる。で、MapperとReducerは1回目で書いたSampleCassandraMapperと2回目で書いたSampleCassandraReducerをそのまま使います。なのでHadoopジョブを投げる側だけを作れば良い
前回はCassandraなデータを使うMapperを作って、HDFS上にMapReduce結果を出したので今回はその逆をやってみる。HDFSにインプットデータを用意して、それをMapReduceで処理後CassandraのColumn Familyにプッシュしてみる
HadoopからCassandraのColumn Familyを読んで云々してみる。とりあえずまったく意味の無いことで書くので、あくまでHadoopからCassandraを使う場合の設定例とか
(基礎的なHadoopのセットアップは省略します)