ログ ファイル (または着信要求) を解析し、要求が検索エンジンからのものである場合に検索用語を抽出するライブラリを探しています。
この機能を提供する優れたライブラリはありますか?
どの言語でも構いません。
ログ ファイル (または着信要求) を解析し、要求が検索エンジンからのものである場合に検索用語を抽出するライブラリを探しています。
この機能を提供する優れたライブラリはありますか?
どの言語でも構いません。
Java には、高性能のテキスト検索エンジンである Lucene フレームワークがあります。ログファイルはこれで機能する可能性がありますが、受信リクエストの場合はよりトリッキーになる可能性があります. ストリーミング中に解析する必要がありますか?
あなたが話しているデータを取得、解析、分析する方法はたくさんあります。
非常に簡単に言えば、ログ ファイルのテキストを使用して、それらを分析のために SQL データベースにインポートすることができます (他の要求なども確認できます)。
Google アナリティクスなどのソフトウェア サービスを使用できます。
または私の個人的なお気に入り:
SQL INSERT
aを追跡テーブルに書き込みます。そうすることで、文字列を句に解析できます。つまり、単語で区切るだけです。これの欠点は、"New York" (2 つの単語) などのキーワードフレーズを見逃すことです。
Lucene を示唆している人は、非常にきちんとしたアナライザーを思いつく原因となる情報を提供しましたが、完全な解決策を得るには多くの作業が必要です. Lucene と Solr の優れた点は、標準ライブラリを使用してキーワード文字列をトークン化できることです (CompoundWords または CamelCaseKeywords がある場合は、2 ~ 3 つの単語句をチャンクアウトします)。
実用的なアプローチからすると、Google アナリティクスなどの既製のものを使用するのが最善だと思います。時間とスキルがあれば、レコードをデータベースに挿入すると、非常に強力なものになります。