問題タブ [search-engine]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
search-engine - ボットに特定のプロパティを入力することで特別なカタログを作成するために使用できる、索引付けボットを含む検索エンジンはありますか?
私たちのアプリケーション (C#/.NET) は、検索するために多くのクエリを必要とします。Google の 1 日あたり 50,000 件のポリシーでは不十分です。設定した特定のルール (国のドメインなど) に従ってインターネット Web サイトをクロールし、URL、テキスト、キーワード、Web サイトの名前を収集し、独自の内部カタログを作成して、大規模な外部検索エンジンに制限されないようにするものが必要です。グーグルやヤフーのように。
サーバーにインストールするために使用できる無料のオープン ソース ソリューションはありますか?
車輪を再発明しても意味がありません。
c# - アプリケーションのメモリ内検索インデックスが大量のメモリを消費します - 何か提案はありますか?
デスクトップ アプリケーションでは、転置インデックスを使用して単純な検索エンジンを実装しました。
残念ながら、一部のユーザーのデータセットは非常に大きくなる可能性があります。たとえば、転置インデックスが作成される前に最大 1 GB のメモリを消費します。転置インデックス自体は、インデックスを作成するデータとほぼ同じ量のメモリを消費します (さらに 1GB の RAM)。
アプリケーションごとに 2GB のメモリという 32 ビット Windows の制限に達したり、スペックの低いコンピュータを使用しているユーザーがメモリの需要に対処するのに苦労したりするため、明らかにこれはメモリ不足エラーの問題を引き起こします。
逆インデックスは次のように保存されます。
これは、各オブジェクトが処理されるデータ ロード中に作成され、applicationObject のキー文字列と説明語が転置インデックスに格納されます。
だから、私の質問は次のとおりです。検索インデックスをより効率的に空間的に保存することは可能ですか? おそらく、別の構造または戦略を使用する必要がありますか? あるいは、一種の CompressedDictionary を作成することは可能ですか? たくさんの文字列を保存しているので、圧縮性が高いと思います。
seo - 検索エンジン ボットはどのようにフォーラムをクロールしますか?
多数のスレッドを含むフォーラム サイトがある場合、検索エンジン ボットは毎回サイト全体をクロールしますか? サイトに 1,000,000 を超えるスレッドがあるとします。ボットがサイトをクロールするたびに、スレッドもクロールされますか? またはどのように機能しますか?自分のウェブサイトをインデックスに登録したいのですが、ボットに自分のウェブサイトを殺してほしくありません! 言い換えれば、ボットが私の Web サイトをクロールするたびに、ボットが古いスレッドを何度もクロールし続けることを望まないのです。
また、以前にクロールされたページはどうですか? ボットは、Web サイトをクロールするたびに、それらがサイトに残っていることを確認するためにそれらを要求しますか? 私は最新のスレッドにのみリンクしているため、これを求めています。つまり、すべての最新スレッドのリストを含むページがありますが、古いスレッドにはリンクしていません。URL、たとえば http で明示的に要求する必要があります。 ://example.com/showthread.aspx?threadid=7、これは、ボットがサイトをダウンさせて帯域幅をすべて消費するのを防ぐために機能しますか?
PS サイトはまだ開発中ですが、検索エンジン ボットによってサイトがダウンしないようにサイトを設計するために知りたいです。
c# - ナレッジベースシステムの検索エンジンを構築するにはどうすればよいですか?
C#を使用して、全文検索機能をナレッジベースシステムに組み込む必要があります。どうすれば始められますか?
sharepoint - SharePoint検索に動的検索パラメーターを追加するにはどうすればよいですか?
したがって、シナリオは次のとおりです。「要求に応じて」動的に作成される複数のSharepointサイトがあります。基本的に、新しいプロジェクトごとに新しいサイトがあります。ここで、すべてのサイトに、サイト名と等しいメタデータタグ値を持つコンテンツのみを検索する必要があることを示す検索句を追加します。簡単な例:BearとWolfの2つのサイト/プロジェクトがあります。Sharepoint Searchには、これらのサイトのすべてのドキュメント/リストなどのインデックスと、それらの共通アーカイブがあります。共通アーカイブ内のすべてのドキュメントには、「ProjectName」というプロパティがあります。Wolfチームに所属しているBillが、自分のプロジェクトサイト(Wolf)で「仕様」を検索したい場合、そのプロジェクトに関連するドキュメントのみを表示したいと考えています。では、すべてのドキュメントの「ProjectName」値が「Wolf」に設定されていることを確認するにはどうすればよいですか?
ここでスコープを使用できると思いますが、現在200までのサイトがあり、これは毎月増加しているため、手動で維持することはできません。スコープを自動化する比較的簡単な方法がある場合。優れた。
apache - SEOを念頭に置いてサイトをアップグレードする
現在アップグレード中(完全に更新中)の確立されたサイトを管理していますが、Googleのインデックスがすべて失われる(つまり、Googleのインデックスに多くのページが含まれる)のではないかと心配しています。その場所にはもう存在しません)。
前回(別の)サイトをアップグレードしたとき、SEOに悪影響が及ばないように何かをすべきだと誰かに言われました。問題は、それが何だったのか思い出せないことです。
いくつかの明確化のための更新:基本的に、私は古いパスを新しいパスにマップする方法を探しています。例えば:
- ユーザーが「素晴らしいページ」を検索
- グーグルは戻ります
mysite.com/old_awesome_page.php
、ユーザーはそれをクリックします。 - 私のサイトはそれらをに連れて行きます
mysite.com/new_awesome_page.php
そして、グーグルが再びサイトをクロールするようになったとき...
- Googleは私のサイトをクロールし、既存のインデックスを更新します。
- リクエスト
old_awesome_page.php
- 私のサイトは、ページがに移動したことをGoogleに通知します
new_awesome_page.php
。
そのような単純な1:1マッピングはありません。より似(old) index.php?page=awesome --> (new) index.php/pages/awesome
ているので、既存のファイルの内容をリダイレクトに置き換えることはできません。
ApacheでPHPを使用しています
asp.net - Google (検索エンジン) asp.net ページのインデックス作成に関するアドバイス
私が働いている大学のコース リーフレット システムに取り組んでいます。リーフレットは主キー course_code を持つデータベースに格納されています。asp.net 2.0でシステムを開発すると仮定して、リーフレットが理想的にはGoogleによってインデックス付けされるようにしたいと思います。
インデックスを作成することの一部は、私の場合は course_code でリンク内の変数を渡すことであることを理解しています。これにより、明らかにコースのリーフレットのブックマークも可能になります。これは素晴らしいことです。Googlebot にシステムを最適にトロールさせるための詳細は何ですか。
internationalization - 検索エンジンとブラウザの受け入れ言語
私は、言語コンテンツが通常、ブラウザから送信される「受け入れ言語」に依存する Web ポータルを構築しています。したがって、同じ content-URI は、ブラウザーの設定に応じて、さまざまなユーザーにさまざまなコンテンツを提供します。
これが検索インデックス作成にどのように影響するかを知りたいです。Google はすべての言語を使用してインデックスを作成していますか? また、適切に処理されていますか?
web - サイトがしばらくダウンしていることを検索エンジンに通知するにはどうすればよいですか?
私のサイトは今後数日間ダウンします。検索エンジンがこれを認識し、ウェブサイトの評判やページランクに対して何もしないようにする方法はありますか?
http - 検索エンジンはHTTPヘッダーフィールド「Content-Location」を尊重しますか?
検索エンジンがHTTPヘッダーフィールドContent-Location
を尊重するかどうか疑問に思いました。
これは、たとえば、URLからセッションID引数を削除する場合に役立ちます。
明確化:
セッションIDを削除すると、リクエストが完全に異なり、応答も異なる可能性があるため、リクエストをリダイレクトしたくありません。同封の回答は、その「メインURL」でも利用できることを述べたいと思います。
たぶん私の例は私の質問の意図をうまく表していないでしょう。では、HTTPヘッダーフィールド「Content-Location」の目的は何ですか?をご覧ください。。