これが問題です。文章の段落と段落を含む大きなテキスト ファイルがたくさんあります。各段落には、数人の人物 (名前) への参照が含まれており、いくつかのトピック (場所、オブジェクト) が文書化されています。
この山をデータマイニングして、分類されたライブラリを組み立てるにはどうすればよいですか? ...一般的に、2つのこと。
何を探しているのかわからないので、最もよく使われる単語/複数の単語 (「Jacob Smith」または「bluewater inn」または「arrow」) を取得するプログラムが必要です。
次に、キーワードを知っているので、関連するパラグラフを検索し、結果を並べ替えて絞り込むのに役立つプログラムが必要です (手動で)。