問題タブ [search-engine]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
windows - Windows Search や Copernic Desktop Search などのデスクトップ検索エンジンによって生成されたファイルのキーワードにアクセスする方法
さまざまなファイルタイプの何千ものドキュメントを含む、私の部門の共通ファイル共有でファイルを注文しようとしています。私のアイデアは、コンテンツに関連するキーワードで並べ替えることでした。Windows が提供するキーワード ファイル属性に有効な情報が含まれているファイルはごくわずかです。私のアイデアは、デスクトップ検索エンジンにファイル (およびそのコンテンツ) のインデックスを作成させ、インデックスから生成されたキーワードを使用することでした。
問題は、これらの生成されたキーワードを検索インデックスから読み取る方法がわからないことです。
Microsoft も Copernic も、インデックス ファイルへのアクセス方法に関する情報を提供していないようです。MSDN は、Windows 検索エンジンをプログラムから直接クエリする方法に関する情報のみを提供しますが、結果には Windows ファイル属性とファイル情報のみが含まれ、インデックス作成に使用される生成されたキーワードは含まれません。コペルニクスはまったく情報を提供していないようです。
これらの生成されたキーワードにアクセスする方法についてのアイデアに非常に感謝しています. 前もって感謝します!
web - 検索エンジンのスパイダーがサイトを攻撃している場合はどうすればよいですか?
私は小さな Web サーバーを実行していますが、最近、検索エンジンのスパイダーによってクリーム化されています。冷やす正しい方法とは?定期的に 5xx 応答を送信する必要がありますか? 使用すべき robots.txt 設定はありますか? または、他の何か?
apache - Apache Nutch のパフォーマンス ベンチマーク
Apache Nutch ベースの検索エンジンの展開に関する既存のベンチマークとサイジング情報があるかどうかを知りたいです。たとえば、1 か月に 1,000 万件の検索がある場合、展開する必要があるハードウェアのサイズを知りたいです。
user-interface - 多言語サイトのベスト プラクティスは何ですか?
すべてまたはほとんどすべてのページが 2 つ以上の翻訳で利用できるように、多言語サイトを作成したいと考えています。従うべきベストプラクティスは何ですか?
たとえば、次の言語選択メカニズムを考えてみます。
- 優先言語の Cookie ベースの選択。
Accept-Language
Cookie が設定されていない場合はヘッダーに基づきます。- それ以外の場合はGeoIPに基づいています(おそらく)。
他に何かありますか?
さまざまな翻訳をどのように提供する必要がありますか?
- なので
LANG.example.com/page
- なので
example.com/LANG/page
- なので
example.com/page?hl=LANG
- ...
- へのリダイレクトを伴う上記のいずれ
example.com/page
か?(落胆しそうです)
すべての翻訳が適切に索引付けされていることを確認するにはどうすればよいですか?
- すべてのページと正しい
Content-Language
ヘッダーを含むサイトマップで十分ですか?
他の翻訳があることをユーザーに知らせる最善の方法は何ですか?
- ヘッダー/フッター/サイドバー (ウィキペディアなど) で利用可能な言語を一覧表示します。
- コンテンツの横に「Choose a language」セレクターを配置します
欠落している/古い翻訳に対処するための最良のポリシーは何ですか?
- 見つからないページをまったく表示しない、または別の言語でページを表示する
- 古い翻訳、警告付きの古い翻訳、または別の言語のページを表示しますか?
他に何を考慮に入れる必要がありますか?何をすべきで、絶対にすべきではないことは何ですか?
php - PHP/mySQL での Google に似た検索エンジン
数千ページの新聞記事をOCRedしています。各ページの新聞、号、日付、ページ番号、OCRed テキストは、mySQL データベースに格納されています。
ここで、Google のような検索エンジンを PHP で構築して、クエリが与えられたページを見つけたいと考えています。高速で、検索に 1 秒もかからない必要があります。
どうすればいいですか?
search - Linuxベースのサイト検索エンジンをお勧めしますか?
メンバー限定のコンテンツを検索するには、サイト検索エンジンが必要です。以前にFluidDynamicsSearch Engineを使用しましたが、最近更新されたものがあるかどうか疑問に思っていました。
すべてのコンテンツがデータベースにあるため、ファイルシステムのクロールではなく、サイトのクロールを介してコンテンツのインデックスを作成する必要があります。また、FreeBSD/Linuxで実行する必要があります。
はい、申し訳ありませんが、プログラミングではありません...しかし、これは素晴らしい答えを得るのに最適な場所です!
content-management-system - 検索エンジン最適化-開発者ガイダンス?
以前の「開発者」が私のクライアントの1人に残したバイパーネストのeコマースWebサイトを整理する契約を結んだばかりです。カスタムショッピングカートとCMSシステムを使用しているものは、ダンプするには埋め込まれすぎて十分に機能しますが、クリーンアップ、リファクタリング、バグ修正が必死に必要であるため、かなりの量の再コーディング作業が必要です。
これの一部として、私のクライアントは彼が得ることができる最高の検索エンジン配置を確実にするために必死です。多くの開発者のように、私はそのアイデアにうなずきますが、実際の知識はありません。コードに適切に組み込むことができるように、これについて理解しておくと役立つようです。
それで、人々は有用な質の高いリソース(本、ウェブサイト、ブログなど)についてアドバイスできますか?私はこれについて最後の細部にこだわるつもりはありません(彼が最後のオンスをすべて引き出すことにした場合、彼は専門家を使うことができます-私はいつもスネークオイルの行商人よりも少し良いと思っていましたが)、しかし私はしたいですコードを作成し、配置を妨げるのではなく役立つ方法でテンプレートを再構成します。
seo - 英語圏以外の国のURL名はどの程度関連性がありますか?
グーグルで良い検索結果を得たいキーワードにカタカナまたは漢字(ASCII以外の文字)を使用する日本企業の商用サイトがある場合でも、サイトのDNS名に最も近い英語の単語を配置することは重要ですか? ?
お気に入り:
カタカナで検索語が「ホームページ」の場合:続き
DNS名は結果に影響しますか?
「ホームページ」を含むDNS名を使用すると効果がありますか?
ありがとう、リック
caching - ページを検索エンジンのインデックスから強制的に削除するには?
状況: Google がフォーラムのページをインデックスに登録しました。スレッドは現在削除されています。Google やその他の検索エンジンでキャッシュされたコピーを削除するにはどうすればよいですか? リンクされたページはもう存在せず、インデックスを更新して有効に保つことが彼らの最善の利益になるはずなので、彼らがそれに反対することはないと思います.
これは可能ですか、それともインデックスの更新を数か月待たなければなりませんか? それとも、ページは永遠にそこにとどまりますか?
私はそれぞれのサイトの所有者ではないため、たとえば robots.txt を変更することはできません。「サードパーティ」として強制的に更新したいと思います。
また、2 日前に作成したそのリソースの新しいページが既にキャッシュにあることにも気付きました。では、このドメインの無効なページが削除されるまでにかかる時間を見積もることはできますか?
編集:だから私はテストをしました。Google がページを削除するのに 2 か月もかかりませんでした。かなり長い時間...