問題タブ [carrot2]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
solr - ニンジン2ワークベンチとフィルタークエリfq
solr からアプリケーションにclusteringComponentを追加する必要があります。clusteringComponent を調整するために、Carrot2 ワークベンチを使用します。これは、適切なパラメーターを見つけるのに非常に役立ちます。ポイントは、過去 24 時間に solr/lucene インデックスに追加された新しいデータを分析/クラスター化することだけです。そのために、通常、次のように、querytime にファイルされた timestemp を使用します。
問題は、このフィルター クエリを検索パラメーターとしてキャロット 2 ワークベンチに追加する方法はありますか?
carrot2 - Carrot2のJavaヒープサイズを増やすには?
Carrot2 Document Clustering Workbench の Java ヒープ サイズを増やすにはどうすればよいですか?
tweets - cluto および cart2 ツールを使用してツイートをグループにまとめることができますか?
cluto と cart2 ツールを使用してツイートをグループにまとめることはできますか?
そして最後の質問は、carrot2 と cluto 言語に依存しない NLP ツールですか?
solr - ドキュメントのタグ付け
私は非常に巨大なsolrインデックスを持っています。このようなドキュメントをより適切に表す用語ですべてのドキュメントにタグを付けたいと思います。このタイプのクラスタリング結果もドキュメントのタグ付けに分類されますか?
インデックス時間のドキュメントのタグ付けと、ニンジンのようなクエリ時間のドキュメントのタグ付けのどちらのアプローチが優れていますか?
nlp - キャロット 2 と同様のドキュメント クラスタリングを可能にする Java のスタンドアロンおよびオープン ソース ライブラリ
それぞれ数百文字の長さの短いテキスト ドキュメントをクラスター化しようとしています。
私はcartoon2ワークベンチを使用しており、その機能がとても気に入っていますが、APIは本当に古臭く、理解/使用が困難です。
同様の機能 (クラスタリング アルゴリズム) を持ち、より優れた API を備えた代替品を探しています。
私はJavaまたはPythonで何かを本当に探しています.それはオープンソースであり、ビールのように無料でなければなりません.
そのため、lingpipe ( http://alias-i.com/lingpipe/ ) は対象外です。
ありがとう。
carrot2 - キャロット2 - フォルダーからドキュメントをクラスター化できますか?
研究プロジェクトの一環として収集したドキュメントをクラスタ化しようとしています。Carrot2 ワークベンチを使用しようとしていますが、ドキュメントを含むフォルダーにキャロットを向ける方法がわかりません。どうすればいいですか?(比較するドキュメント (.txt) の数が少なく、それらはスタンドアロンの研究用マシン上にあるため、Web に接続してそこで処理することはできません)。
どんな助けもありがたく受け取った!
(ドキュメント全体で類似点/テーマ/グループを特定しようとしています。Carrot2 が適切なツールでない場合は、代替の提案に感謝します!)
どうもありがとう、
ジョン
solr - Solr/Carrot2 の統合
SOlr/Carrot2 の統合
以下のようにSolrでドキュメントにインデックスを付けるために作成したXMLごとに複数のテキストファイルがあります
インデックス作成で使用されるスキーマ
私の問題は、クラスタークエリの結果として、次のようにクラスターを1つだけ取得しています
もっとクラスタを取得する必要があります 私のコーパスには 60 個のテキスト ドキュメントが含まれています