さて、私はJavaクラスで検索ログを処理していますが、ある時点でログのトリッキーな部分に出くわしました:
通常、ログ行は次のようになります。
217 yahoo.com 2006-05-16 16:35:31
最初の数字はユーザーID、その後の文字列はクエリ、その後のタイムスタンプです。これまでのところ、ユーザー ID を抽出し、.split(':') と split('-') を使用してタイムスタンプの一部を取得することができました。しかし、ログのさらに下では、行の構成が少し不快になります。たとえば、次のような行があります。
217 - 2006-05-18 18:20:10 1 http://www.theonering.net
1268 osteen-schatzberg.com 2006-03-21 17:55:42 1 http://www.osteen-schatzberg.com
最初の行の「-」は空のクエリまたは w/e を示しているようで、最後の URL は「clickurl」としてマークされています。これらのような行で、split() を使用してタイムスタンプ (およびクエリ) を受け取るという私の考えは地獄に行きました...
この問題にアプローチする方法を知っている人はいますか?
前もって感謝します