Solr について調べ始めたので、Solr の仕組みについていくつか質問があります。スキーマは、Solr アプリケーションに格納され、インデックス付けされるものを定義することを知っています。しかし、「コンテンツ」がサイトのコンテンツであること、または URL が URL であることを Solr がどのように認識しているかについて、私は混乱しています。
私の主な目標は、Web サイトから電話番号を抽出しようとしていて、Solr に 1234567890 をうまく吐き出させることです。
すべてのフィールドとそのフィールド タイプを宣言して、Solr schema.xml で定義する必要があります。その後、Solr に任意のフィールドを照会して検索できます。
これを参照してください: http://wiki.apache.org/solr/SchemaXml
Solr は Web サイトのコンテンツを自動的にインデックスに登録しません。コンテンツにインデックスを付ける方法を伝える必要があります。Solr は、あなたが知るように指示した内容しか知りません。電話番号の抽出は非常に簡単に聞こえるので、更新スクリプトを作成したり、オンラインで見つけたりすることは問題になりません。幸運を!