皆さん、私はタイトルと要約を持ったたくさんの文書(約200k)を持っています。各ドキュメントで利用できる他のメタデータがあります。たとえば、カテゴリ(料理、健康、運動などの1つのみ)、ジャンル(ユーモア、行動、怒りの1つのみ)などです。メタデータは適切に構造化されており、これらすべてが利用可能です。 MySqlDBで。
彼女が私たちのサイトでこれらのドキュメントの1つを読んでいる間、私はユーザー関連のドキュメントを表示する必要があります。このサービスを試すには、タイトル、要約、メタデータのウェイトエイジをプロダクトマネージャーに提供する必要があります。
このデータの上でクラスタリングを実行することを計画していますが、すべてのMahoutクラスタリングの例では、数値の上に定式化されたDenseVectors 、またはLuceneベースのテキストベクトル化のいずれかを使用しているために妨げられています。
例は、数値データのみまたはテキストデータのみです。誰かが以前にこの種の問題を解決したことがありますか。私はMahoutinActionの本とMahoutWikiを読んでいますが、あまり成功していません。
私は最初の原則からこれを行うことができます-すべてのタイトルと要約をDBに抽出し、TFIDFとLLRを計算し、各単語を次元として扱い、多くのコードを記述してこの実験を行います。それは解決への長い道のりのようです。
一言で言えば、それは私が閉じ込められている場所です-私は最初の原則に運命づけられているのか、それとも私がどういうわけか見逃したツール/方法論が存在するのですか?同様の問題を解決してくれた人々からの連絡をお待ちしています。
前もって感謝します