c# - さまざまな非構造化テキストファイルから情報を取得する-テキストマイニング？

Question

この問題を解決するには助けが必要です。

特定のドメインのドキュメントが大量にあります。これらのドキュメントはさまざまなソースからのものであるため、構造も大きく異なる可能性があります。反対側には、ドキュメントの抜粋からいくつかの図を入力する必要がある、いくつかの指定されたフィールドを含むテーブルがあります。

例えば：

x社の2010年の取引量は2,000万ドルでした。今年は、y社の交換額が1,000,000ドルでした。

結果は次のようになります

|| Company | Year | Volume  
||  X      | 2010 |  200,000  
||  Y      | 2010 | 1000,000

そのような問題を解決する方法の詳細情報を見つけることができるいくつかのリンクまたはトピックを教えてください。

これに対するすぐに使える解決策がないことは知っていますが、どこから探し始めればよいのでしょうか。

前もって感謝します。

score 2 · Accepted Answer

Ok。そのようなものに専念しているコンピュータサイエンスラボ全体があります！たぶん、RapidMinerと呼ばれるツールを探すことから始めましょう

また、私がPDFとして持っているいくつかの研究論文のタイトルもあります（残念ながら、リンクはもうありません）。

1.ニューラルネットワークとセマンティック文法を使用した財務諸表の自動理解

James Markovitch Dun＆Bradstreet、Search Technologies 1995年4月Eメール：jsmarkovitch@yahoo.comCopyright1995James Markovitch

2.ドキュメント画像の自動意味構造抽出のための統合アプローチ

Margherita Berardi、Michele Lapi、Donato Malerba Dipartimento di Informatica –Orabona経由のUniversitàdegliStudi di Bari 4-70126 Bari {berardi、lapi、malerba} @ di.uniba.it

私はあなたが何を求めているかという点で、最初のものが最も興味深いと思います。それがどれだけの価値になるかはよくわかりませんが:)

c# - さまざまな非構造化テキストファイルから情報を取得する-テキストマイニング？

1 に答える 1

Related

Reference