問題タブ [carrot2]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - APIドキュメントに基づいてJavaクラスを使用する方法
私はJavaにまったく慣れていないので、オープンソースソフトウェアの使用を必要とするプロジェクトに取り組む必要があります。私はそれらのJavaAPIのドキュメントを理解することについて非常に混乱しています。例として、JavaAPIに基づいて関連するJavaクラスRemoteXmlSimpleSearchEngineBaseを使用する方法を教えてください。
このリンクを参照してください http://download.carrot2.org/stable/javadoc/org/carrot2/source/xml/RemoteXmlSimpleSearchEngineBase.html
私はこの派生プロセスに非常に興味があり、APIドキュメントを読んで他のJavaクラスを使用できるようにしています。ありがとう。
search - Solr3.2Carrot2クラスタリングは「その他のトピック」に他なりません
Solr 3.2のリリース以降、SolrへのCarrotの統合は改善されたと言われていますが、私にとっては異なることがわかりました。私はまったく同じ構成のSolr1.4.1サーバーを実行していましたが、Carrotはうまく機能しており、Solr3.2は「その他のトピック」しか提供していません。例外や異常なことは何も起こらないので、これは私を夢中にさせています。結果のxmlでも同じように見えます...
ただし、クラスタリングコンポーネントの標準構成にはあまり変更を加えていません。
私の推測では、ニンジンはedismax(Solr 1.4.1では実装されていません)と一緒に適切に動作していませんが、誤解を招く可能性があります。
これが問題ではないことを確認するために、データのインデックスを作成し直しました。
キャロットワークベンチでは、クラスタリングはアルゴリズムとしてLingoでうまく機能しています。「ソース別」を選択すると、xmlのように「その他のトピック」が表示されます。Lingoが適切に構成されていない可能性がありますか?それを修正するには、solrconfig.xml以外のものを構成する必要がありますか?
助けてくれてありがとう。
solr - (ニンジン)クラスタリングはSolrでどのように機能しますか?
Lucene / Solr 4を実行して、さまざまな機能と「クラスタリング」をテストしています。現在、100万のドキュメントが索引付けされています。すべてのドキュメントには次のフィールドがあります。
すべてのフィールドにインデックスが付けられて保存されます。TEXTはインデックスが付けられているだけで、保存されていません。次の特定の構成を使用します。
ご覧の例を見ると、トピックは異なりますが、日本は同じです。このようにsolr/carrotを構成することは可能ですか?example1とexample2は1つのクラスターに含まれますか?一致する「日本」のために?!
さらに、「ニュース/原子力」のような3番目のトピックがあり、内部に「日本」はありませんが、HEADLINEとTEXTは「日本の発電所」という言葉を使用しています。これらの3つのニュースを1つのクラスターで受信するには、どのsolr / carrot構成が関係しますか?
ありがとうございました!
search - 複数の引数でのCarrot2クラスター
ハロー、
SolrとCarrot2を使用するSearchEngineに取り組んでいます。
すべてが順調ですが、キャロットは私が理解できない奇妙なことをします。Solrから結果を取得し、Carrotを使用してそれらをクラスター化したい。私はすべてを統合し、それはうまく機能しますが、Carrotは私の属性の1つだけにクラスタリングしています。結果に一致し、他の属性に一致しないもの。好き:
データ
名前:ピータータウン:ロンドン趣味:ゴルフ、スキー
名前:アーサー町:ベルリン趣味:ゴルフ、サイクリング
名前:パリ町:ロンドン趣味:ゴルフ、ハイキング
検索:ゴルフ
クラスターのようなもの:スキー、サイクリング、ハイキング
..しかしロンドンではありません。
それだけでは驚きませんが、CarrotClusteringWorkbenchを使用すると、他の引数でクラスター化されます。
最初に、ワークベンチからSolrconfigに構成をエクスポートしようとしましたが、何も変更されませんでした。Solrは構成を使用しますが、この問題に変更を加えるものはありません。
誰かが私を助けたり、それを説明したりできますか?
solr - Solr ClusteringComponent Carrot2 : ClassNotFoundException
クラスタリング コンポーネントで Solr を実行しようとすると、次のエラーが発生します。
を使用して apache-solr-clustering.3.2.0.jar を含めました
しかし、cart2 jar ファイルがいくつか欠けているようです。他に何が欠けているか、または何が間違っているかを示すドキュメントが見つかりません。
助けてください
sunspot - 黒点レールとキャロット2
Rails アプリケーションに sunspot_rails gem を使用しています。クラスターエンジンのcart2をレールアプリに統合する方法はありますか? solr configsでコメントされているように、明らかにcarrot2はsunspotの一部です。しかし、誰かがすでにそれを統合しているかどうか知りたいです。
data-mining - クラスタリングの結果をCarrot2で比較する
私は論文にCarrot2ツールを使用しており、このツールでさまざまなアルゴリズムを実行しています。私の質問は、さまざまなアルゴリズムの結果を科学的に比較するにはどうすればよいですか?つまり、アルゴリズム1のクラスタリング結果がアルゴリズム2の結果よりも優れているという証拠が必要です。エントロピーと純度の値が機能する場合、それらをどのように適用できますか?
ありがとう。
java - キャロット2クラスタの表示 目次
私は(Java APIを介して)carrot2クラスタリングエンジンを使用しており、データベースにあるダミーデータのクラスターを取得しています。コンソール アプリケーションまたは Web アプリケーションで人間が読める形式でどのように表示するのだろうかと思っていました。
現在、クラスターは次の形式になっています。
最終リスト Cluster_List= result.getClusters();
結果は、Carrot2 API で定義された "ProcessingResult" 型です。
単純なアプローチを使用して Cluster_List の内容を出力しようとすると、オブジェクトのアドレスが取得されます。クラスターの内容 (ラベル、内容、および可能であればスコア) を表示する方法を設定する方法を教えてください。
乾杯!アネルード
solr - Hadoop に保存されたドキュメントの検索 - どのツールを使用するか?
迷っている: Hadoop、Hbase、Lucene、Carrot2、Cloudera、Tika、ZooKeeper、Solr、Katta、Cascading、POI...
1 つについて読むと、多くの場合、他のツールのそれぞれが言及されることを確信できます。
すべてのツールについて説明してくれるとは思っていません。私の特定のシナリオでこのセットを絞り込むのを手伝っていただければ、それは素晴らしいことです. これまでのところ、上記のどれが適合するかはわかりません。(いつものように) やるべきことを行う方法は複数あるようです。
シナリオは次のとおりです: 500GB - Hadoop に保存された最大 20 TB のドキュメント。複数の形式のテキスト ドキュメント: 電子メール、doc、pdf、odt。SQL データベースに保存されているドキュメントに関するメタデータ (送信者、受信者、日付、部門など) ドキュメントの主なソースは ExchangeServer (電子メールと添付ファイル) ですが、それだけではありません。検索について: ユーザーは、これらのドキュメントに対して複雑な全文検索を実行できる必要があります。基本的に、検索設定パネル (webapp ではなく Java デスクトップ アプリケーション) が表示されます - 日付範囲、ドキュメント タイプ、送信者/受信者、キーワードなどを設定します - 検索を開始し、ドキュメントの結果リストを取得します(および各ドキュメント情報について、検索結果に含まれる理由、つまり、ドキュメントで見つかったキーワード)。
考慮すべきツールとそうでないツールは? ポイントは、最小限の必要な「グルー」コードのみを使用して、このようなソリューションを開発することです。私は SQLdbs に精通していますが、Apache および関連するテクノロジにはかなり慣れていません。
基本的なワークフローは次のようになります: ExchangeServer/その他のソース -> doc/pdf/... からの変換 -> 重複排除 -> Hadopp + SQL (メタデータ) -> インデックスの構築/更新 <- ドキュメントを検索 (そして迅速に実行) ) -> 検索結果を表示
ありがとうございました!