database - データマイニング用の非構造化テキストファイルを保存する最良の方法は何ですか?

Question

私のマシンには何百万ものテキストニュースがあります。その上でテキストマイニングを行いたいと思います。

最初に、テキストニュースをより構造化された方法で保存したいと思います。それを行う最良の方法は何ですか？後でデータマイニングを行うのがより便利になります。

現在、これらのニュースファイルは、ニュースの見出しとファイルパスによってインデックス化されたデータベースに保存するだけです。

どんな提案でも本当に感謝します。ありがとう！

score 1 · Accepted Answer

「テキストマイニングを行う」とはどういう意味ですか? テキストを保存するだけですか？または、解決策をお探しですか？

多くのデータベースは、テキストを保存して高速に検索する機能を提供しています。

ただし、通常、テキストマイニングはより幅広いテーマをカバーします。ここではいくつかの例を示します。

似たようなテーマのドキュメントを見つける。
文書で感情を暴露する。
自然言語で出された質問に答える。
ドキュメントの要約。
ドキュメントからの情報をデータ構造に入力します。
ドキュメントからの情報を予測モデリングの目的で使用する。
ドキュメントへのコードの割り当て。

このような分析には、通常、テキストマイニングツールを使用します (たとえば、 kdnuggets.comで検索できます)。このツールは、テキストの保存方法に影響を与えます。

「マーケティング、セールス、およびカスタマーサポートのためのデータマイニング手法」の最後の章は、テキストマイニングに関するもので、顧客サービスレコードに適用されるテキストマイニングに関する非常に優れたケーススタディがあります。

【コメントのお返事】

これは学術プロジェクトですか、それとも「現実世界」ですか? テキストはモノリンガルですか？もしそうなら、それは英語ですか？あなたは間違いなくいくつかの研究を行う必要があります. テキスト分析/マイニングは、少なくとも 1930 年代にアランチューリングがチューリングテストを提案して以来、かなり熱心に研究されてきた分野です。

例として、分析用のテキストを格納するための 4 つの非常に異なるオプションをすぐに思いつくことができます。1 つ目は「現状のまま」です。これは、多くのプロセッサとメモリがある場合に最も役立ちます。2 つ目は「文法的に」で、文法と意味でタグ付けされたテキストを使用します。これは、多くの博士号を持つチームを持っている場合に最も効果的です。3 つ目は、逆インデックスとしての方法です。これは、検索といくつかの近接一致の基本的な形式です。4 つ目は、特異値分解を使用して直交空間に射影する方法です (テキストを他の統計手法への入力として使用する場合に最も役立ちます)。

score 1 · Accepted Answer

それは、より構造化されたデータで何を達成したいかによって大きく異なります。

データサイズが大きくない場合は、データベースで「テキスト内」検索を使用できます。これで完了です。

このスタックオーバーフローのようなカテゴリまたは「タグ」は、コンテンツを分類およびグループ化するのに非常に役立ちますが、純粋なテキストベースからそれを抽出するのは非常に難しいと思います.

また、単純なタイムスタンプ (ファイル自体から取得することもできますが、ファイルがコピーされたときにその日付を変更するシステムがあることに注意してください...) も役立ちます。

コンテンツの抽出については、http://www.opencalais.com/をご覧ください。興味深いと思われる「テキスト」分析用の API が提供されています。

database - データ マイニング用の非構造化テキスト ファイルを保存する最良の方法は何ですか?

2 に答える 2

Related

Reference

database - データマイニング用の非構造化テキストファイルを保存する最良の方法は何ですか?