4

ドイツのウェブサイトnandoo.netは、ニュース記事を短縮する可能性を提供しています。スライダーでパーセンテージ値を変更すると、テキストが変更され、一部の文が省略されます。

あなたはここでそれが実際に動いているのを見ることができます:

http://www.nandoo.net/read/article/299925/

ニュース記事は左側にあり、タグがマークされています。スライダーは2列目の上部にあります。スライダーを左に動かすほど、テキストは短くなります。

どうすればそのようなものを提供できますか?それを達成するために使用できるアルゴリズムはありますか?

私の考えは、彼らのアルゴリズムが文中のタグと名詞の数を数えるというものでした。次に、タグ/名詞の数が最も少ない文が省略されます。

それは本当でしょうか?それとも別のアイデアがありますか?

あなたが私を助けてくれることを願っています。前もって感謝します!

4

2 に答える 2

3

これは、計算言語学のホットな研究トピックです。ベイジアンフィルタリングを使用する浅いアプローチでは、完全な結果が得られる可能性は低くなりますが、とにかく完全な結果は必要ないでしょう。

CLでは、80-20の法則はすぐに95-5の法則になるため、浅い方法で達成できることに満足している場合は、この回答をスキップしてください。

結果を改善できるかどうかを確認したい場合は、より良いリソースを探すことができます。あなたが言及しているタスクは、研究コミュニティでは「テキスト要約」と呼ばれ、それは絶望的に時代遅れの独自のWebページを持っています。Mani and Maybury(1999)は、おそらく良い概要です(私はそれを自分で読んでいませんが)が、かなり時代遅れでもあります。最近では、このトピックに関するMartin Hasselsの論文があり、言語に依存しない(統計的、つまり浅い)方法を含め、非常に網羅的です。

いつものように、Googleもあなたを助けることができるでしょう。テキストの要約を検索するだけです。

于 2009-05-05T22:16:21.490 に答える
2

通常、その記事に固有の単語を含む文を保持する必要があります。

つまり、文が「一般的」であるほど、この特定の記事の説明は少なくなります。

これを行う通常の方法は、スパムフィルターによく似たベイズ分析です。まず、記事全体で予想よりも頻繁に出現する単語を特定し、次にそれらの単語を特徴とする文を見つけます。

于 2009-04-13T00:36:41.047 に答える