text - 「AUTOMATIC TEXT SUMMARIZER（言語ベース）」について

Question

私は最終年度のプロジェクトとして「自動テキスト要約（言語的アプローチ）」を行っています。私は十分な研究論文を収集し、それらを調べました。それでも、「どうやってそれを行うか」ということについてはあまり明確ではありません。基本的に「AUTOMATIC TEXT SUMMARIZER (statistical based)」を見つけ、私のプロジェクトに比べてはるかに簡単であることがわかりました。私のプロジェクトガイドでは、これ (統計ベース) を選択せず、言語ベースを選択するように指示されました。

この種のプロジェクトに取り組んだことがある、または聞いたことがある人なら誰でも、ドキュメントを要約することは、(いくつかの特定のアルゴリズムを含むいくつかのアプローチによって) 各文にスコアを付け、次にしきい値スコアよりも高いスコアを持つ文を選択することに他ならないことを知っているでしょう。このプロジェクトで最も難しい部分は、スコアリングに適切なアルゴリズムを選択し、後でそれを実装することです。

私は中程度のプログラミングスキルを持っており、JAVA でコードを書きたいと考えています (そこには多くの API があり、オーバーヘッドが少なくなるからです)。今、私は自分のプロジェクトで、どのようなアプローチとアルゴリズムを使用すべきかを知りたいと思っています。また、それらを実装する方法。

score 5 · Accepted Answer

テキストの要約に語彙チェーンを使用する (Microsoft Research)

さまざまなアルゴリズムの分析: DasMartins.2007

ドキュメントの最も重要な部分:

• Nenkova (2005) は、どのシステムも統計的に有意なベースラインを超えることはできないと分析してい
ます。 • 驚くべき結果！

言語学的アプローチには 2 つの異なるニュアンスがあることに注意してください。

言語評価システム (ここですべてクリア)
言語生成（要約を構築するために文章を書き直す）

score 2 · Accepted Answer

自動要約は非常に複雑な領域です。最初にJavaスキルを習得し、機械学習を使用する統計的NLPを理解するようにしてください。その後、実体のあるものを構築する作業を行うことができます。ソリューションを評価し、測定変数と評価の進め方を具体的に定義していることを確認してください。そうでなければ、プロジェクトは失敗する運命にあります。これは一般に、最終学年の学部生にとってリスクの高いプロジェクトと見なされます。なぜなら、彼らは原則を正しく理解できず、それを正しくない方法で実施することができず、評価尺度がすべて明確に定義されておらず、反映されていないためです。明らかに彼ら自身の仕事。私のアドバイスは、単一および複数のドキュメントの要約を持つことができるので、要約では多くではなく1つの領域に焦点を当てることです。プロジェクトのバリエーションが多ければ多いほど、良い評価を得られる可能性は低くなります。焦点を絞り、深くしてください。他の人々の仕事を評価し、次にあなたがとることを決めたプロセスとその結果を評価します。

読み物：-NLPに関するJurafskyの本には、要約とQAに関する後部セクションがあります。-インデルジートマニによるテキスト要約の進歩は本当に良いです

用語の重み付け、重心ベースの要約、対数尤度比、コヒーレンス関係、文の単純化、最大の限界関連性、冗長性、および焦点を絞った要約が実際に何であるかなどを理解します。

ハイブリッドだけでなく、監視ありまたは監視なしのアプローチを使用して試行できます。言語学はより安全なオプションであるため、そのアプローチを取るようにアドバイスされています。言語的に試してから、統計を構築してソリューションをハイブリッド化します。アルゴリズムの理論と実際的な意味を学び、知識に基づいて構築するための演習として使用してください。あなたは間違いなくあなたのプロジェクトを審査委員会に説明し、擁護しなければならないでしょう。

score 0 · Accepted Answer

それらの研究論文や研究書を実際に読んだことがあるなら、おそらく何が知られているかを知っているでしょう。これらの研究論文や研究書の知識を Java アプリケーションに実装するのはあなた次第です。または、何らかの革新/発明を行うことで、人間の知識を拡張することもできます。人間の知識を広げれば、あなたは真の科学者になります。

score 0 · Accepted Answer

シェフィールド大学は、数年前に EU FASiL プロジェクトの一環として、電子メールの自動要約に関する作業を行いました。

score 0 · Accepted Answer

次の 2 つの主な分野で、質問をより具体的にしてください。

プロジェクトの定義: プロジェクトの目標は何ですか? 入力単位は単一のドキュメントですか? ドキュメントのリスト？プログラムで機械学習を使用するつもりですか? 出力は何ですか？成功をどのように測定しますか?
背景知識: 統計的手法ではなく言語学的手法を使用するつもりです。自然言語の構文解析の経験はありますか? セマンティック表現では？これらの質問のいくつかは難しいと思います。研究の過程で同様の質問に答えるのに多くの時間を費やしたので、私は彼らに尋ねています. これらを整理したら、いくつかのヒントを提供できるかもしれません。Mani の "Automatic Summarization"は、少なくとも導入の章では良いスタートのように見えます。

text - 「AUTOMATIC TEXT SUMMARIZER（言語ベース）」について

5 に答える 5

Related

Reference