Import.io でクロールする場合、ページでデータを抽出する必要があるかどうかを判断するために URL パターンを設定する高度なオプションがあります。
私は正規表現を使い慣れているので、Import.io の URL パターンを使用するのに苦労しています。
正規表現のパターンは次のようになります
http://www.site.com/。[0-9]+.html。
Import.io パターンでそれを行う方法は?
私は次のことを試しましたが、うまくいきませんでした:
www.site.com/{any}{num}.html
抽出する必要があるいくつかの例:
- www.site.com/foo/bar/foo234.html
- www.site.com/bla890.html
- www.site.com/bar/bar/bar/bar/bar/bar/aaa123.html
これらは Import.io 記法です:
- {any} - なんでも (無を含む) {num} - 数字、例えば 8767
- {alpha} - az 文字、例 Dog {alpha-num} - alpha または num のいずれか、例 435h5k </li>
- {words-num} - -、_、または + で区切られた数字を含む単語。例: this-is_a+2nd example </li>
- {not-slash} - スラッシュ以外のもの </li>
- {uuid} - UUID、例: 439a110f-bba1-46a5-befd-1f32cfb63dc8 </li>
- {query-string} - クエリ文字列、たとえば ?a=1&b=2%c=3
- {query-params} - 部分的なクエリ文字列、たとえば a=1&b=2 </li>
- {ref} - アンカーとも呼ばれる参照。例: #foo $ - URL の末尾に一致
詳細: http://support.import.io/knowledgebase/articles/247574-advanced-crawler-options
ありがとう!