0

特定のファイル タイプのみをインデックス化するように LucidWorks Web データ ソースを構成しようとしています。ただし、インクルード パス.*\.html.html ファイルのみをクロールするように設定すると (簡単な例として)、トップ レベルのフォルダーのみがインデックス化されます。 クロールの深さが に設定されて-1おり、インクルード パスを空白のままにすると、期待どおりにサブツリー全体がクロールされます。

Web データ ソースの作成正規表現の使用に関するドキュメントを参照しましたが、どの文字にも一致する必要があるため、.*\.html機能しない理由が見つかりません。.*

4

1 に答える 1

0

質問を校正していると、どれが正しい解決策であるかがわかりました。後世のためにここに投稿します。


クロールされるコンテンツはファイル共有であるため、.html 拡張子がないために除外された Web サーバーのディレクトリ リストに依存しています。したがって、インクルードパス.*/に追加するだけで問題が解決しました。

于 2012-10-02T15:08:50.000 に答える