0

私のフラストレーションのレベルは、Dokuwiki サイトをクロールすることで最大になっています。

Dokuwiki/doku.php サイトをクロールするように設定した SharePoint の FAST 検索を使用するコンテンツ ソースがあります。私のクローラー ルールは次のように設定されています: http://servername/ * 、大文字と小文字を区別し、複雑な URL をクロールするこのパス内のすべてのアイテムを含めます。クロール ルールでコンテンツ ソースをテストすると、クローラーによってクロールされることが示されます。ただし..... クロールは常に 2 分未満で終了し、指定したページのみをクロールして完了し、そのページには他のリンクはありません。Dokuwki 管理者に確認したところ、ロボットのテキストを許可するように設定されています。ページのソースを見ると、 meta name="robots" content="index,follow" と書かれていることがわかります

他のリンクされたページに問題がないことをテストするために、これらのリンクを手動でコンテンツ ソースに追加し、再クロールしました。例のソース ページには 3 つのリンクがあります。

  • サイトA
  • サイト B
  • サイトC。

サイト A、B、C の URL をクロール ソースに追加しました。このクロールの結果は 4 回成功し、プライマリ ソース ページと他のリンク A、B、および C が手動で追加されました。

私の質問は、クローラーがページ上のリンクをクロールしないのはなぜですか? これは私の側のクローラーで行う必要があることですか、それとも名前空間の定義方法と Dokuwiki でのリンクの作成方法と関係があることですか?

どんな助けでもいただければ幸いです

エリック

4

2 に答える 2

0

FAST Crawl Logsでの認証であることを示唆する問題は報告されていませんが、問題は認証に関するものでした。修正は、検索インデックスサーバーのIPアドレスに$ freepass設定を追加して、Appacheがページヒットごとに認証プロセスを実行しないようにすることでした。

返信いただきありがとうございます

エリック

于 2011-07-14T18:46:28.453 に答える
0

遅延インデックス作成オプションと rel=nofollow オプションを無効にしましたか?

于 2011-07-12T12:27:50.963 に答える