問題タブ [nutch2]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
675 参照

hadoop - apache Nutch 2.x をリモート HBase クラスターに接続するにはどうすればよいですか?

私は2台のマシンを持っています。1 台のマシンは疑似分散モードで HBase 0.92.2 を実行し、もう 1 台は Nutch 2.x クローラーを使用しています。HBase-0.92.2 を搭載した 1 台のマシンがバックエンド ストレージとして機能し、Nutch-2.x を搭載したもう 1 台がクローラーとして機能するように、これら 2 台のマシンを構成するにはどうすればよいですか?

0 投票する
1 に答える
42 参照

hadoop - Apache Nutch が上限を超えて gora レコードをフラッシュする

Hadoop/Hbase エコシステムで Nutch 2.3.1 を構成しました。私は変更gora.buffer.read.limitしていませんgora.buffer.read.limit。つまり、どちらの場合もデフォルト値の 10000 を使用しています。生成フェーズで、topN を 100,000 に設定しました。生成ジョブ中に次の情報を取得します

ジョブの完了後、100,000 個の URL が取得対象としてマークされていることがわかりました。しかし、上記の警告が何を示しているのか混乱していますか? クロールに対する gora.buffer.read.limit の影響は何ですか? 誰かがガイドできますか?

0 投票する
1 に答える
68 参照

parsing - 言語固有の Web サイトの Apache Nutch タイトル解析の問題

Hadoop 2.7.5 および Hbase 0.98 で apache Nutch 2.3.1 を構成しました。いくつかのウルドゥー語の Web サイトをクロールする必要があります。デフォルトのパーサー、html、tika を使用しています。一部の文書にはウルドゥー語のタイトルが付いていても問題ありませんが、一部の文書にはウルドゥー語のタイトルと見出し 1 があります。つまり、h1 にはbbc-pageなどの元のタイトルがあります。同様に、メタタグにもタイトルが付けられている場合があります。このオプションを処理できる組み込みオプション (パーサー) はありますか?利用可能な場合、タイトルに h1 を選択する必要があります。

または、私がそれをしなければならない場合、この目的のために可能な方法は何ですか.