ニュース Web サイトをクロールしており、ニュースのタイトル、ニュースの要約 (最初の段落) などを抽出したい
Webkit パーサー コードにプラグインして、Web ページをツリーとして簡単にナビゲートしました。ナビゲーションやその他の非ニュース コンテンツを排除するために、記事のテキスト バージョンを使用します (html タグを除いて、webkit は同じ API を提供します)。次に、同じ Web サイトのさまざまな記事のテキストを比較する diff アルゴリズムを実行すると、同様のテキストが削除されます。これにより、一般的なナビゲーション コンテンツなどを除いたコンテンツが得られます。
上記のアプローチにもかかわらず、最終的なテキストにはまだかなりのジャンクが含まれています。これにより、誤ったニュース アブストラクトが抽出されます。エラー率は 10 件中 5 件、つまり 50% です。のようなエラー
あなたはできる
純粋なコンテンツを抽出するための代替戦略を提案し、
自然言語処理を学ぶことは、これらの記事から正しい要約を抽出するのに役立ちますか?
上記の問題にどのように取り組みますか?
これらは同じ研究論文ですか?
よろしく
アンクル・グプタ