こんにちは
、私は Web クローラーを生成しています。それについていくつか知りたいことがあり
ます。1) Map reduce を使用して NET からデータをフェッチ
できますか?
3) HBase からデータを取得するために PHP でアプリを作成できますか? はいの場合、コード スニペットを提供できますか? PHP を使用して HBase からデータを追加/表示/削除するにはどうすればよいですか?
3 に答える
質問 3 については、PHP から Hbase を操作できますが、Thrift インターフェースを介して行う必要があります。詳細については、このブログ投稿を参照してください。お役に立てれば
あなたの質問については、はい、それはすべて行うことができます。どのようにアプローチするかは、正確に何を達成したいかによって異なります。
1) メイン コントロールは、タスクを分割する必要があります。クロールするアドレスのある種のリストを維持する可能性が高く、毎回リストを読み取り、クロールを実行できるマッパー間でリストを分割し、hbase または別の仲介者に直接書き込む一連の mapreduce タスクを実行する可能性があります。また、生成された URL を出力して次にクロールすることも考えられます。これは、reduce フェーズで一意のものに絞り込まれ、reduce は次にクロールするもののリストを出力します。最近クロールされたもののリストを維持し、それも除外する必要がありますが、これは MR/Hbase に固有のものではありません。
2)テーブル出力形式を使用して、出力を hbase に送信できます。HTable を使用して HBase 接続を作成し、マッパーに直接書き込むこともできます。
3) TheDeveloper が言ったように、はい、倹約します。彼のリンクは良いです。
Stargate を使用して REST 経由で簡単に実行できます。