4

ニュース Web サイトをクロールしており、ニュースのタイトル、ニュースの要約 (最初の段落) などを抽出したい

Webkit パーサー コードにプラグインして、Web ページをツリーとして簡単にナビゲートしました。ナビゲーションやその他の非ニュース コンテンツを排除するために、記事のテキスト バージョンを使用します (html タグを除いて、webkit は同じ API を提供します)。次に、同じ Web サイトのさまざまな記事のテキストを比較する diff アルゴリズムを実行すると、同様のテキストが削除されます。これにより、一般的なナビゲーション コンテンツなどを除いたコンテンツが得られます。

上記のアプローチにもかかわらず、最終的なテキストにはまだかなりのジャンクが含まれています。これにより、誤ったニュース アブストラクトが抽出されます。エラー率は 10 件中 5 件、つまり 50% です。のようなエラー

あなたはできる

  1. 純粋なコンテンツを抽出するための代替戦略を提案し、

  2. 自然言語処理を学ぶことは、これらの記事から正しい要約を抽出するのに役立ちますか?

  3. 上記の問題にどのように取り組みますか?

  4. これらは同じ研究論文ですか?

よろしく

アンクル・グプタ

4

3 に答える 3

3

Google Code で私のボイラーパイププロジェクトを見て、Google AppEngine のライブ Web アプリ (そこからリンク) を使用して、選択したページでテストすることができます。

私はこの分野を研究しており、HTML ページからのコンテンツの抽出/ボイラープレートの削除に関するいくつかの論文を書いています。たとえば、「浅いテキスト機能を使用したボイラープレート検出」を参照し、VideoLectures.net で対応するビデオを見てください。この論文は、この分野の最新技術の概要をよく示しているはずです。

乾杯、

キリスト教徒

于 2010-11-21T18:55:50.363 に答える
2

質問(1)については、よくわかりません。私は前にこれをやったことがありません。たぶん、他の答えの1つが役立つでしょう。

質問(2)については、アブストラクトの自動作成は未発達の分野です。現在の典型的なアプローチは文全体を選択することであるため、通常は「文の選択」と呼ばれます。

質問 (3) の場合、機械学習から要約を作成する基本的な方法は次のとおりです。

  1. 既存の抄録のコーパスを作成する
  2. 有用な方法で要約に注釈を付けます。たとえば、元の各文が選択されたかどうか、およびその理由 (または選択されなかった理由) を示したいと思うでしょう。
  3. コーパスである種の分類器をトレーニングし、それを使用して新しい記事の文を分類します。

機械学習に関する私のお気に入りのリファレンスは、Tom Mitchell のMachine Learningです。ステップ (3) を実装するためのいくつかの方法がリストされています。

質問 (4) については、アドバイザーが昨年言及したのでいくつかの論文があると確信していますが、私はその分野の専門家ではないので、どこから始めればよいかわかりません。

于 2009-11-09T02:44:39.177 に答える
0

どのように機能するかはわかりませんが、読みやすさをチェックしてください。それはまさにあなたが望んでいたことをします。

于 2010-10-28T14:00:02.493 に答える