scikit-learn (または nltk または他の提案を受け入れます) で tfidf を試してみたいと思います。私が持っているデータは、比較的大量のディスカッション フォーラムの投稿 (最大 65k) であり、収集して mongoDB に保存しています。各投稿には、投稿のタイトル、投稿の日時、投稿メッセージのテキスト (既存の投稿への返信の場合は re:)、ユーザー名、メッセージ ID、および子投稿か親投稿か (スレッド内) があります。 、元の投稿がある場所、次にこの op に返信するか、ネストされた返信、ツリー)。
各投稿は個別のドキュメントになると思います.20ニュースグループと同様に、各ドキュメントには上に述べたフィールドがあり、下にメッセージ投稿のテキストがあり、mongoから抽出してに書き込みます.各テキスト ファイルに必要な形式。
データを scikit にロードするために、 http:
//scikit-learn.org/dev/modules/generated/sklearn.datasets.load_files.html (ただし、私のデータは分類されていません)
http://scikit-learn を知っています。 org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html - 入力については、ファイル名を使用することはわかっていますが、大量のファイル (各投稿) があるため、方法はありますか?テキストファイルからファイル名を読み取っていますか?または、誰かが私を指し示すことができるいくつかの実装例がありますか?
また、これらのディスカッション フォーラムの投稿ごとにファイル名を構造化するためのアドバイスがあれば、後で tfidf ベクトルとコサイン類似度配列をいつ取得するかを特定できます。
ありがとう