1

Import.io でクロールする場合、ページでデータを抽出する必要があるかどうかを判断するために URL パターンを設定する高度なオプションがあります。

私は正規表現を使い慣れているので、Import.io の URL パターンを使用するのに苦労しています。

正規表現のパターンは次のようになります

http://www.site.com/。[0-9]+.html。

Import.io パターンでそれを行う方法は?

私は次のことを試しましたが、うまくいきませんでした:

www.site.com/{any}{num}.html

抽出する必要があるいくつかの例:

  • www.site.com/foo/bar/foo234.html
  • www.site.com/bla890.html
  • www.site.com/bar/bar/bar/bar/bar/bar/aaa123.html

これらは Import.io 記法です:

  • {any} - なんでも (無を含む) {num} - 数字、例えば 8767
  • {alpha} - az 文字、例 Dog {alpha-num} - alpha または num のいずれか、例 435h5k </li>
  • {words-num} - -、_、または + で区切られた数字を含む単語。例: this-is_a+2nd example </li>
  • {not-slash} - スラッシュ以外のもの </li>
  • {uuid} - UUID、例: 439a110f-bba1-46a5-befd-1f32cfb63dc8 </li>
  • {query-string} - クエリ文字列、たとえば ?a=1&b=2%c=3
  • {query-params} - 部分的なクエリ文字列、たとえば a=1&b=2 </li>
  • {ref} - アンカーとも呼ばれる参照。例: #foo $ - URL の末尾に一致

詳細: http://support.import.io/knowledgebase/articles/247574-advanced-crawler-options

ありがとう!

4

0 に答える 0