コンテンツを要約または言い換えるための既存のライブラリを探しています (ブログ投稿を目指しています) - 既存の自然言語処理ライブラリの経験はありますか?
私はさまざまな言語にオープンなので、能力と正確さにもっと興味があります。
コンテンツを要約または言い換えるための既存のライブラリを探しています (ブログ投稿を目指しています) - 既存の自然言語処理ライブラリの経験はありますか?
私はさまざまな言語にオープンなので、能力と正確さにもっと興味があります。
Grokについての議論がありました。これは現在 OpenCCG としてサポートされており、OpenNLP でも再実装される予定です。
OpenCCG はhttp://openccg.sourceforge.net/にあります。ここで入手できる Curran and Clark CCG パーサーもお勧めします: http://svn.ask.it.usyd.edu.au/trac/candc/wiki
基本的に言い換えると、最初にブログ投稿の文を解析し、これらの投稿の意味的意味を抽出し、次に同じ意味を構成的に作成する語彙のスペースを検索する何かを作成する必要があります。意味を調べてから、現在の文に一致しないものを選択してください。これには長い時間がかかり、あまり意味がないかもしれません。これを行うには、ほぼ完璧なアナフォラの解決と、談話レベルの推論を拾う能力が必要になることを忘れないでください.
マシンで識別可能な重複コンテンツを含まないブログ投稿を作成するだけの場合は、トピックとフォーカスの変換と WordNet シノニムをいつでも使用できます。これまでに AdWords で収益を上げたサイトは確かにありました。
彼は、このシステムが監視しているブログが何であれ、自動的に言い換えることによってブログ投稿を生成したいと考えています。
これは、類似しているが異なるソースからの 2 ~ 10 のブログ投稿を組み合わせて、自動的に言い換えられた「実際の」要約 (1 つのブログ投稿のサイズ) を作成できれば、非常に興味深いものです。
宿題にも最適です。残念ながら、それを行うのはそれほど簡単ではありません。
私が見ることができる唯一の方法は、すべての文を「意味」に分解し、文の構造と意味を保持するいくつかの単語をランダムに変更できることです。
これらの文は同じ意味です:
これらの文の 1 つを別の文に変換するプログラムを作成することは自明ではありません。これらは単純な文であり、ブログの実際の文ははるかに複雑です。
それらのリンクをありがとう。GROKは死んでいるように見えますが、私の目的ではまだ機能する可能性があります。
さらに2つのリンク:
Attempto Controlled Englishは興味深い概念です。それは、問題を完全に逆に見る方法だからです。私がやろうとしていることにはあまり実用的ではありません。
@mmattax数文を取ることの提案に関しては、私は要約を提示しようとはしていません。そうでなければ、それは素晴らしい柔道の解決策になるでしょう。他の評価に使う内容を実際にまとめたいと思っています。
あなたは本当に遠いAIタイプのドメインに入っています。私は主に Attempto Controlled English ( http://attempto.ifi.uzh.ch/site/を参照)を使用してテキストを機械知識に変換する広範な作業を行ってきました。OWLDL などのさまざまなオントロジー。
それはやり過ぎのように思えますが...
ブログ投稿の最初の数文だけを取り出して、要約に楕円を追加しない理由はありますか?