私のマシンには何百万ものテキスト ニュースがあります。その上でテキストマイニングを行いたいと思います。
最初に、テキストニュースをより構造化された方法で保存したいと思います。それを行う最良の方法は何ですか?後でデータマイニングを行うのがより便利になります。
現在、これらのニュース ファイルは、ニュースの見出しとファイル パスによってインデックス化されたデータベースに保存するだけです。
どんな提案でも本当に感謝します。ありがとう!
「テキストマイニングを行う」とはどういう意味ですか? テキストを保存するだけですか?または、解決策をお探しですか?
多くのデータベースは、テキストを保存して高速に検索する機能を提供しています。
ただし、通常、テキスト マイニングはより幅広いテーマをカバーします。ここではいくつかの例を示します。
このような分析には、通常、テキスト マイニング ツールを使用します (たとえば、 kdnuggets.comで検索できます)。このツールは、テキストの保存方法に影響を与えます。
「マーケティング、セールス、およびカスタマー サポートのためのデータ マイニング手法」の最後の章は、テキスト マイニングに関するもので、顧客サービス レコードに適用されるテキスト マイニングに関する非常に優れたケース スタディがあります。
【コメントのお返事】
これは学術プロジェクトですか、それとも「現実世界」ですか? テキストはモノリンガルですか?もしそうなら、それは英語ですか?あなたは間違いなくいくつかの研究を行う必要があります. テキスト分析/マイニングは、少なくとも 1930 年代にアラン チューリングがチューリング テストを提案して以来、かなり熱心に研究されてきた分野です。
例として、分析用のテキストを格納するための 4 つの非常に異なるオプションをすぐに思いつくことができます。1 つ目は「現状のまま」です。これは、多くのプロセッサとメモリがある場合に最も役立ちます。2 つ目は「文法的に」で、文法と意味でタグ付けされたテキストを使用します。これは、多くの博士号を持つチームを持っている場合に最も効果的です。3 つ目は、逆インデックスとしての方法です。これは、検索といくつかの近接一致の基本的な形式です。4 つ目は、特異値分解を使用して直交空間に射影する方法です (テキストを他の統計手法への入力として使用する場合に最も役立ちます)。
それは、より構造化されたデータで何を達成したいかによって大きく異なります。
データサイズが大きくない場合は、データベースで「テキスト内」検索を使用できます。これで完了です。
このスタックオーバーフローのようなカテゴリまたは「タグ」は、コンテンツを分類およびグループ化するのに非常に役立ちますが、純粋なテキストベースからそれを抽出するのは非常に難しいと思います.
また、単純なタイムスタンプ (ファイル自体から取得することもできますが、ファイルがコピーされたときにその日付を変更するシステムがあることに注意してください...) も役立ちます。
コンテンツの抽出については、http://www.opencalais.com/をご覧ください。興味深いと思われる「テキスト」分析用の API が提供されています。