php - Elasticsearch プロファイル API 出力について

Question

200 万のドキュメントのインデックスを作成しましたが、一致するすべてのドキュメント ID を一度に返そうとしています。私はPHPクライアントを使用しています。

私のマッピングは次のとおりです。

$params = [
    'index' => $index,
    'body' => [
        'settings' => [
            "number_of_shards" => 1,
            "number_of_replicas" => 0,
            "index.queries.cache.enabled" => false,
            "index.soft_deletes.enabled" => false,
            "index.refresh_interval" => -1,
            "index.requests.cache.enable" => false,
            "index.max_result_window"=> $result_window
        ],
        'mappings' => [
            '_source' => [
                "enabled" => false
             ],
             'properties' => [
                "text" => [
                        "type" => "text",
                        "index_options" => "docs"
                ]
        ]
     ]
    ]
];

私のクエリ文字列は次のとおりです。

$json = '{
"from" : 0, "size" : '.$size.',
        "profile": true,
"query": {
    "bool": {
      "filter" : {
        "match" : {
            "text" : {
            "query" : "justin trump clinton harry",
            "operator" : "and"
            }
        }
    }
}
}
}';

私のプロファイル API の出力は次のとおりです。

目標は、一致するすべてのドキュメントを一度に取得することです。ドキュメント ID のみが必要なので (指定された用語がドキュメントに存在するかどうかのみを確認します)、index_options をドキュメントとして使用しました。スクロール API については理解していますが、max_result_window を使用したいです。私はシャードを 1 つだけ使用し、レプリカは使用していません。また、検索操作を実行するときにドキュメントのスコアリングを回避しました。

私の質問は次のとおりです。

ドキュメント ID のみを取得し、ドキュメントのフェッチフェーズを回避したいので、ソースフィールドを無効にしました。他のメタデータを回避するために、このリンクに従って "stored_fields": " none ", "docvalue_fields": ["_id"] を試し、フェッチフェーズを回避しました。ただし、ドキュメントの種類とインデックス名は引き続き表示されます。ドキュメント ID のみを取得し、フェッチフェーズを回避するために必要なことはありますか?
一致するすべてのドキュメントを取得しているので、スコアリングは私には関係ないので、フィルター句を使用しましたが、以下のプロファイル API の結果でなぜブーストクエリのタイミングが得られるのか疑問に思っていました。しかし、Booleanquery スコアのタイミングがゼロであることにも注意してください!
ブールクエリ検索が Lucene インデックスだけでどれくらいの時間を要したかを知るには、ブールクエリによって報告された時間を取るべきですか、それともすべての子 (タームクエリ) のタイミングを合計する必要がありますか? これらすべての用語クエリのタイミングを追加すると、ブールクエリによって報告されたものよりも高いためです。これについて考えられる理由はありますか？
ブールクエリのタイミングのためにコレクターも含める必要がありますか?プロファイル api では、「Lucene は、トラバーサル、スコアリング、および一致するドキュメントのコレクションの調整を担当する「コレクター」を定義することによって機能すると言われています。」. また、「コレクターの時間はクエリの時間とは独立していることに注意してください。それらは独立して計算、結合、および正規化されます! Lucene の実行の性質上、コレクターの時間を「マージ」することは不可能です。クエリセクションなので、それらは別々の部分に表示されます。」私の理解では、Lucene インデックスの投稿リストを走査してブールクエリ操作を実行するのに役立ちます。この点で私は正しいですか？
Elasticsearch でインデックス作成時間を調査するための同様の API はありますか? 設定 API でインデックス作成時間を取得できましたが、プロファイル API に似たものを探していますか?

php - Elasticsearch プロファイル API 出力について

0 に答える 0

Related

Reference