1

私はmovies.io(たとえば、ここ)のトレントリストの挿入されたデータを解析しようとしています。

簡単に使用できるように、トレントの配列全体を解析してハッシュの配列に入れる必要があります(注入されたコードにはすでにこの構造があります)。しかし、私はこれを行う方法を見つけることができないようです。「e;and&with gsub!」は削除できますが、今のところはこれですべてです。

再収集したデータは次のようになります。

  [
    {id: 18210, sha1: 13BB6A6F65EA6203ACE218E830395AE61427EDBD, name: Star Wars Episode IV A New   Hope 1977 1080p Bluray x264 anoXmous},
    {id: 3701, sha1: D3F3C5C237299B2B9F4EC84B7F46F6E9E0424574, name: Star Wars Episode IV A New Hope 1977 720p BRRiP XViD AC3 - IMAGi}
  ]
4

2 に答える 2

4

トレント、netflixなどのソース用の適切なAPIエンドポイントもあります。

たとえば、http://movies.io/m/1R/sources.json

ドキュメント付きの実際のAPIに取り組んでいますが、まだ準備ができていません。

于 2012-07-15T22:41:41.707 に答える
1

つまり、何が起こっているのかというdata-injectedと、スクレイピングしている属性は実際にはJSONだけですが、HTMLでエンコードされています。ブラウザがそれを解析した後、それは通常のJSONとしてDOMにあります。

実際、Chrome JavaScriptコンソールでスクリプトを確認し、正気を保つために[プリティプリント]をクリックすると、その処理方法を簡単に確認できます。属性がに割り当てられ、f後で。で使用されることがわかりますf ? u($.parseJSON(f)) : ...

おそらくHTMLパーサーを使用しているので、おそらくどこかに本物のオリジナルのJSONがあると思います。いずれの場合も、システム内の一部のコンポーネントは、元々引用符を提供していたHTMLエンティティの置換を停止する必要があります。そうすれば、文字列をJSONパーサーにフィードするだけで済みます。

于 2012-07-15T21:44:26.600 に答える