Web ページからノイズを除去しようとしています。しかし、私はこれが初めてなので、どこから始めればよいかわかりません。誰かがそれを行う方法についての情報を私に与えることができれば、それは非常に役に立ちます.
ノイズ - リンク、著作権表示など
スーダンシュ
ボイラーパイプは、あなたが求めているもののようです: http://code.google.com/p/boilerpipe/
ボイラーパイプ ライブラリは、Web ページのメイン テキスト コンテンツの周りにある余剰の「混乱」 (ボイラープレート、テンプレート) を検出して削除するアルゴリズムを提供します。
ライブラリは、一般的なタスク (ニュース記事の抽出など) に対する特定の戦略を既に提供しており、個々の問題設定に対しても簡単に拡張できます。