問題タブ [lucidworks]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
regex - 特定のファイル タイプのみをクロールするように LucidWorks のインクルード パスを構成する
特定のファイル タイプのみをインデックス化するように LucidWorks Web データ ソースを構成しようとしています。ただし、インクルード パスを.*\.html
.html ファイルのみをクロールするように設定すると (簡単な例として)、トップ レベルのフォルダーのみがインデックス化されます。 クロールの深さが に設定されて-1
おり、インクルード パスを空白のままにすると、期待どおりにサブツリー全体がクロールされます。
Web データ ソースの作成と正規表現の使用に関するドキュメントを参照しましたが、どの文字にも一致する必要があるため、.*\.html
機能しない理由が見つかりません。.*
alfresco - Lucidworks CMIS コネクタ/データ ソース?
Lucidworks 2.5 エンタープライズ検索を CMIS 準拠のレポジトリと alfresco または documentum として統合したいのですが、同じデータ ソース/コネクタが表示されません。しかし、Lucidworks サイト @ http://www.lucidworks.com/about-us/press-releases/application-developers-worldwide-endorse-lucidworks-20-open-source-search-platform-creatingでは、CMIS がOOTB コネクタと記載されています。
新しい LucidWorks Open Connector Framework のおかげで、SHI は、LucidWorks 2.0 を Microsoft Exchange や IBM Lotus Notes、および Alfresco ECM や Documentum などの CMIS 対応リポジトリと統合するためのコネクタを提供します。これらのコネクタは、企業がそのようなシステムに保存されているデータから貴重なビジネス インサイトを抽出するのに役立ちます。Exchange コネクタは 2011 年末までに利用可能になり、Lotus Notes/CMIS コネクタは 2012 年初頭に利用可能になる予定です。
誰も私を助けてくれますか? OOTB は別の場所で利用できますか、それとも利用できず、カスタム コンポーネントとして作成する必要がありますか?
よろしく。
xml - 「Solr XML」ファイルを解析して結果にインデックスを付ける際に、Solr にリンクをたどらせるにはどうすればよいですか?
Solr (Lucidworks を使用) でインデックスを作成する必要がある、何千もの PDF ファイルの Web アクセス可能なファイル システムがあります。
それぞれに対応するデータを含む XML ファイルがあります。XML には、ID、単純なメタデータ、およびファイル システム内の対応する PDF の URL が含まれています。
現在、Solr が XML を読み取り、必要なすべてのメタデータ (PDF の URL を含む) のインデックスを作成できるように、XML をフォーマットできます。
Solr がファイルを解析しているときに、実際に URL をたどり、参照されている PDF データを XML 提供のメタデータと一緒にインデックス付けしてほしいと思います。これは可能ですか?
bigdata - 単一のキーを複数の値にマップするシーケンスファイル
索引付けのために LucidWorks ビッグデータにフィードされるデータに対して前処理を行おうとしています。LWBD は、Sequencefile ファイルの形式で SolrXML を受け入れます。ディレクトリ内のすべての SolrXML ファイルを取得し、それらを次の形式で出力する Pig スクリプトを作成したいと考えています。
Pig のネイティブPigStorage()
ロード関数は、データが抽出されたファイルの名前を含む列を自動的に作成できます。理想的には次のようになります。
ただし、PigStorage() は自動的に '\n' を行区切り文字として使用するため、実際には次のようなバッグになります。
私はあなたが絵を手に入れると確信しています。私の質問は、このバッグを SequenceFile に書き込むとしたら、他のアプリケーションはどのように読み取るのでしょうか? として組み合わせることができますか?
、私がそれをフィードするアプリケーションのデフォルトの処理によって?または、この形式にするためにできる後処理はありますか? ご協力ありがとうございました。
apache - Lucidworks と Documentum の接続
検索エンジンとして lucidworks を使用し、ドキュメントとメタデータを格納するためのバックエンド テクノロジとして EMC Documentum を使用するエンタープライズ検索アプリケーションを構築しています。現在、DQL を使用してクエリを起動し、中間シナリオでデータを取得していますが、 2 つのおそらくサード パーティのコネクタまたはその他のものを接続するための他の機器を探しています。lucidworks を Documentum に接続する方法を教えてください。
solr - Solr インデックスを検証するツール
Solr インデックスを検証し、破損しているかどうかを確認できるツールはありますか? グーグルで検索しましたが、ツールが見つかりませんでした。基本的に私が必要としているのは、インデックスを調べて不一致を見つけることができるソフトウェアのようなものです