“carrot2”の関連問題_Stack Overflow日本語サイト

0 投票する

4 に答える

243 参照

java - APIドキュメントに基づいてJavaクラスを使用する方法

私はJavaにまったく慣れていないので、オープンソースソフトウェアの使用を必要とするプロジェクトに取り組む必要があります。私はそれらのJavaAPIのドキュメントを理解することについて非常に混乱しています。例として、JavaAPIに基づいて関連するJavaクラスRemoteXmlSimpleSearchEngineBaseを使用する方法を教えてください。

このリンクを参照してください http://download.carrot2.org/stable/javadoc/org/carrot2/source/xml/RemoteXmlSimpleSearchEngineBase.html

私はこの派生プロセスに非常に興味があり、APIドキュメントを読んで他のJavaクラスを使用できるようにしています。ありがとう。

2011-05-11T14:39:44.930

0 投票する

1 に答える

1353 参照

search - Solr3.2Carrot2クラスタリングは「その他のトピック」に他なりません

Solr 3.2のリリース以降、SolrへのCarrotの統合は改善されたと言われていますが、私にとっては異なることがわかりました。私はまったく同じ構成のSolr1.4.1サーバーを実行していましたが、Carrotはうまく機能しており、Solr3.2は「その他のトピック」しか提供していません。例外や異常なことは何も起こらないので、これは私を夢中にさせています。結果のxmlでも同じように見えます...

ただし、クラスタリングコンポーネントの標準構成にはあまり変更を加えていません。

私の推測では、ニンジンはedismax（Solr 1.4.1では実装されていません）と一緒に適切に動作していませんが、誤解を招く可能性があります。

これが問題ではないことを確認するために、データのインデックスを作成し直しました。

キャロットワークベンチでは、クラスタリングはアルゴリズムとしてLingoでうまく機能しています。「ソース別」を選択すると、xmlのように「その他のトピック」が表示されます。Lingoが適切に構成されていない可能性がありますか？それを修正するには、solrconfig.xml以外のものを構成する必要がありますか？

助けてくれてありがとう。

search solr cluster-analysis edismax carrot2

2011-06-28T11:52:12.957

0 投票する

1 に答える

4480 参照

solr - （ニンジン）クラスタリングはSolrでどのように機能しますか？

Lucene / Solr 4を実行して、さまざまな機能と「クラスタリング」をテストしています。現在、100万のドキュメントが索引付けされています。すべてのドキュメントには次のフィールドがあります。

すべてのフィールドにインデックスが付けられて保存されます。TEXTはインデックスが付けられているだけで、保存されていません。次の特定の構成を使用します。

ご覧の例を見ると、トピックは異なりますが、日本は同じです。このようにsolr/carrotを構成することは可能ですか？example1とexample2は1つのクラスターに含まれますか？一致する「日本」のために？！

さらに、「ニュース/原子力」のような3番目のトピックがあり、内部に「日本」はありませんが、HEADLINEとTEXTは「日本の発電所」という言葉を使用しています。これらの3つのニュースを1つのクラスターで受信するには、どのsolr / carrot構成が関係しますか？

ありがとうございました！

solr lucene cluster-analysis carrot2

2011-07-01T14:44:39.907

0 投票する

1 に答える

426 参照

search - 複数の引数でのCarrot2クラスター

ハロー、

SolrとCarrot2を使用するSearchEngineに取り組んでいます。

すべてが順調ですが、キャロットは私が理解できない奇妙なことをします。Solrから結果を取得し、Carrotを使用してそれらをクラスター化したい。私はすべてを統合し、それはうまく機能しますが、Carrotは私の属性の1つだけにクラスタリングしています。結果に一致し、他の属性に一致しないもの。好き：

データ

名前：ピータータウン：ロンドン趣味：ゴルフ、スキー

名前：アーサー町：ベルリン趣味：ゴルフ、サイクリング

名前：パリ町：ロンドン趣味：ゴルフ、ハイキング

検索：ゴルフ

クラスターのようなもの：スキー、サイクリング、ハイキング

..しかしロンドンではありません。

それだけでは驚きませんが、CarrotClusteringWorkbenchを使用すると、他の引数でクラスター化されます。

最初に、ワークベンチからSolrconfigに構成をエクスポートしようとしましたが、何も変更されませんでした。Solrは構成を使用しますが、この問題に変更を加えるものはありません。

誰かが私を助けたり、それを説明したりできますか？

search solr full-text-search carrot2

2011-07-12T13:39:09.027

0 投票する

1 に答える

1284 参照

solr - Solr ClusteringComponent Carrot2 : ClassNotFoundException

クラスタリングコンポーネントで Solr を実行しようとすると、次のエラーが発生します。

を使用して apache-solr-clustering.3.2.0.jar を含めました

しかし、cart2 jar ファイルがいくつか欠けているようです。他に何が欠けているか、または何が間違っているかを示すドキュメントが見つかりません。

助けてください

solr carrot2

2011-08-04T08:30:36.000

0 投票する

0 に答える

123 参照

sunspot - 黒点レールとキャロット2

Rails アプリケーションに sunspot_rails gem を使用しています。クラスターエンジンのcart2をレールアプリに統合する方法はありますか? solr configsでコメントされているように、明らかにcarrot2はsunspotの一部です。しかし、誰かがすでにそれを統合しているかどうか知りたいです。

sunspot sunspot-rails carrot2

2012-03-26T10:08:22.000

0 投票する

3 に答える

908 参照

data-mining - クラスタリングの結果をCarrot2で比較する

私は論文にCarrot2ツールを使用しており、このツールでさまざまなアルゴリズムを実行しています。私の質問は、さまざまなアルゴリズムの結果を科学的に比較するにはどうすればよいですか？つまり、アルゴリズム1のクラスタリング結果がアルゴリズム2の結果よりも優れているという証拠が必要です。エントロピーと純度の値が機能する場合、それらをどのように適用できますか？

ありがとう。

data-mining cluster-analysis carrot2

2012-05-07T06:23:24.527

0 投票する

1 に答える

545 参照

java - キャロット2クラスタの表示目次

私は（Java APIを介して）carrot2クラスタリングエンジンを使用しており、データベースにあるダミーデータのクラスターを取得しています。コンソールアプリケーションまたは Web アプリケーションで人間が読める形式でどのように表示するのだろうかと思っていました。

現在、クラスターは次の形式になっています。

最終リスト Cluster_List= result.getClusters();

結果は、Carrot2 API で定義された "ProcessingResult" 型です。

単純なアプローチを使用して Cluster_List の内容を出力しようとすると、オブジェクトのアドレスが取得されます。クラスターの内容 (ラベル、内容、および可能であればスコア) を表示する方法を設定する方法を教えてください。

乾杯！アネルード

java api carrot2

2012-07-10T00:07:37.040

0 投票する

5 に答える

8799 参照

solr - Hadoop に保存されたドキュメントの検索 - どのツールを使用するか?

迷っている: Hadoop、Hbase、Lucene、Carrot2、Cloudera、Tika、ZooKeeper、Solr、Katta、Cascading、POI...

1 つについて読むと、多くの場合、他のツールのそれぞれが言及されることを確信できます。

すべてのツールについて説明してくれるとは思っていません。私の特定のシナリオでこのセットを絞り込むのを手伝っていただければ、それは素晴らしいことです. これまでのところ、上記のどれが適合するかはわかりません。(いつものように) やるべきことを行う方法は複数あるようです。

シナリオは次のとおりです: 500GB - Hadoop に保存された最大 20 TB のドキュメント。複数の形式のテキストドキュメント: 電子メール、doc、pdf、odt。SQL データベースに保存されているドキュメントに関するメタデータ (送信者、受信者、日付、部門など) ドキュメントの主なソースは ExchangeServer (電子メールと添付ファイル) ですが、それだけではありません。検索について: ユーザーは、これらのドキュメントに対して複雑な全文検索を実行できる必要があります。基本的に、検索設定パネル (webapp ではなく Java デスクトップアプリケーション) が表示されます - 日付範囲、ドキュメントタイプ、送信者/受信者、キーワードなどを設定します - 検索を開始し、ドキュメントの結果リストを取得します(および各ドキュメント情報について、検索結果に含まれる理由、つまり、ドキュメントで見つかったキーワード)。

考慮すべきツールとそうでないツールは? ポイントは、最小限の必要な「グルー」コードのみを使用して、このようなソリューションを開発することです。私は SQLdbs に精通していますが、Apache および関連するテクノロジにはかなり慣れていません。

基本的なワークフローは次のようになります: ExchangeServer/その他のソース -> doc/pdf/... からの変換 -> 重複排除 -> Hadopp + SQL (メタデータ) -> インデックスの構築/更新 <- ドキュメントを検索 (そして迅速に実行) ) -> 検索結果を表示

ありがとうございました！

solr hadoop lucene cloudera carrot2

2012-07-18T18:53:09.460

問題タブ [carrot2]

Reference