2

nodejsでcheerio.jsを使用して、XBRLからエントリのテキスト(この場合は「10-Q」)を取得しようとしています。行は以下のとおりです。

<dei:DocumentType contextRef="D2013Q3YTD" id="Fact-DB2A50C2A485F9CC21D51934C6E61D42">10-Q</dei:DocumentType>

私はもう試した:

$('dei:DocumentType').text

そして他のいくつかは役に立たなかった。私が見ることができる一意のIDやその他のものはありません。

サンプルファイル:

http://www.sec.gov/Archives/edgar/data/1018724/000144530513002495/amzn-20130930.xml

では、このテキストを抽出するにはどうすればよいでしょうか。ありがとう。


DOMDocument を使用する方が簡単です。

$doc = new DOMDocument();
@$doc->loadHTML($html);

$linkNodes = $doc->getElementsByTagName('a');

foreach($linkNodes as $linkNode) {
    $urls[] = $linkNode->getAttribute('href');
}

print_r($urls);
4

2 に答える 2

5

上記のファイルの解析は Cheerio で非常に可能であることがわかりました。

これは Cheerio を使用して動作します。

$('dei\\:CurrentFiscalYearEndDate').text().trim();

明らかに、特殊文字を2 回エスケープする必要があります。

于 2014-04-11T22:12:21.870 に答える