1

私は自動提案の世界にかなり慣れていません。私の関心のある分野は、部分的な住所 (入力) の上位 'N' の住所の提案 (出力) を提供することです。部分的な住所を入力すると、GoogleマップやUberアプリがそれを行うのと同じように.

私は、Elastic Search の Completion Suggestor、Apache Solr の Suggestion Component など、いくつかのテクノロジを調査しました。

ジオコード (緯度、経度) や都市や州 (日本の州のように国によって異なります) などの利用可能な地理空間情報で最適な文字列を実行するために、クエリとデータ インデックスの複数の組み合わせを考え出しました。

[補足質問-1 : このユース ケースでは、Apache Solr と Elastic Search のどちらが優れていますか?]

住所の提案 (出力) を提供するための標準的な住所データ ストア (約 1 億件の住所を保持) があり、部分的な住所のセット (入力、たとえば約 100 K の部分的な住所) があると仮定します。また、部分的な 100 K の部分アドレスの完全なアドレスを知っている、つまり、それらの部分アドレスの意図した完了値を知っていると仮定します。

ここで、実験を実行し、提案された住所の関連性に基づいて各組み合わせを評価したいと思います。

関連性測定に関する私の現在の理解は次のとおりです。

key stroke versus matching percentage (using levenshtein distance algo) of suggested address with partial address * (multiply by) 1/N position-number in the suggestion list.

提案の品質を数学的に導き出したい。上記の測定式を評価してください(完全に間違っているかもしれませんが、その理由を説明してください)。

[質問-2] このユースケースで関連性を測定するにはどうすればよいですか?

Mean Average Precisionまた、またはMean Absolute ErrorまたはMean Squared Errorまたはについて述べたレコメンデーション エンジン/システムの品質の測定に関する記事をいくつか読みましたRoot Mean Squared Error

[質問-3] アドレス提案アプリケーションの関連性を測定するための戦略は適用できますか?

4

0 に答える 0