0

Google CSE(Custom Search Engine)有料サービスを使用して、Webサイトのコンテンツのインデックスを作成しています。このサイトは、ほとんどがインクルードファイルでアセンブルされたPHPページで構成されていますが、データベースから単一のページテンプレートに情報をプルする動的ページがいくつかあります(たとえば、新しいリリース)。私たちが抱えている問題は、データベース内のコンテンツに有効期限を設定できるため、「id=2」と言うと「このコンテンツは期限切れです」という通知が表示されることです。ただし、ID 2にアップロードされたPDFが添付されている場合、PDFファイルは検索インデックスに残ります。

クリーンアップスクリプトを記述してcronに実行させ、データベースを調べ、期限切れのコンテンツを見つけ、アップロードされたファイルが添付されているかどうかを確認し、名前を変更するか削除することができますが、より良い解決策が必要です(私は願っています)。

過去にこれに遭遇したことがあるかどうか、そしてあなたが提案することを私に知らせてください。

ありがとう。

4

2 に答える 2

0

最終的に行ったのは、チェックスクリプトをアップロードスクリプトに結び付けることでした。現在のアップロードが完了すると、古いファイルは「リンク解除」され、DBレコードは削除されました。

私たちにとって、これは、設定された数のアイテムをローリング順序で表示する「1つ追加/1つ削除」のような状況であるために機能します。

于 2010-08-06T22:03:56.447 に答える
0

残念ながら、現時点では正解を示す方法はありません。PDFがページに「添付」されている方法や、DBがどのように構成されているかについてはわかりません。

最善の解決策は、robots.txt削除する特定のPDFファイルのURLをブロックするファイルを作成することです。Googleは、次のパスでインデックスからそれらを削除します(通常は約1時間以内)。

http://www.robotstxt.org/

于 2010-02-21T06:27:51.367 に答える