問題タブ [edgar]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

97 問題

0 投票する

1 に答える

302 参照

ftp - EDGAR FTP ファイルパスリストの生成

私はプログラミングにまったく慣れていないので（学ぶ気はありますが）、非常に基本的な質問を前もってお詫びします。

[SEC はすべてのファイリングを FTP 経由で利用できるようにします][1]。最終的には、これらのファイルのサブセットを一括でダウンロードしたいと考えています。ただし、このようなスクリプトを作成する前に、これらのファイルの場所のリストを生成する必要があります。これらのファイルは次の形式に従います。

/edgar/data/51143/000005114313000007/0000051143-13-000007-index.htm

51143 = 会社 ID。FTP 経由で必要な会社 ID のリストにアクセス済み
000005114313000007/0000051143-13-000007 = レポート ID、別名「アクセッション番号」

ドキュメントがかなり軽いので、これを理解する方法に苦労しています。000005114313000007/0000051143-13-000007(SEC が「アクセッション番号」と呼ぶもの)を既に持っている場合は、非常に簡単です。しかし、私は〜45kのエントリを探しており、特定のCIK ID（すでに持っている）ためにこれらを自動的に生成する必要があることは明らかです。

これを達成する自動化された方法はありますか？

ftp edgar

2016-05-22T16:39:50.870

0 投票する

1 に答える

573 参照

python - 美しいスープテーブルのこすり落としは、時々こするだけです

BeautifulSoup4を使用しているいくつかの企業のために、取締役の署名を保持するいくつかの文書から特定のテーブルを抽出することに取り組んでいます。私のプログラムは、テーブルを保持するセクションの上にある見出しを見つけ、その場所から 2 つのテーブルを数えて正しいテーブルを見つけます (文書が政府文書であるということは、ほとんどすべての場合にフォーマットが当てはまることを意味します)。現在、これは私がやっている方法です：

このコードを使用すると、検索の約 70% でテーブルを見つけることができますが、エラーをスローするものもあります。たとえば、このドキュメントは表が見つからないものの 1 つですが (re.compile 文字列に対して CTRL+F を実行すると、ドキュメント内のセクションを見つけることができます)、同じ会社のこのドキュメントは次のようになります。同じ HTML フォーマットで良い結果が得られます。

何か案は？

編集: が問題になる可能性がありますが、別の問題もあります。を含めないように検索文字列を短くすると、やはり失敗します。

EDIT2: 時々発生する根本的なエラーがあるようです。HTML のデータ変数を出力してみましたが、次の結果が得られました。

を削除しながら、この問題を回避する方法はありますか?

EDIT 2: 以下の回答は、私が抱えていた問題を解決したので、回答済みとしてマークしました。とはいえ、文字列内のランダムな改行の別の根本的な問題があったため、正規表現を変更して、スペースだけでなくすべての単語間の '\s+' をチェックしました。このような問題で行き詰まった場合は、必ずこのエラーの HTML コードを確認してください。

2016-06-22T18:08:00.327

0 投票する

0 に答える

159 参照

r - RのURL文字列から.txtをダウンロード

R の EDGAR パッケージを使用して、Apple の 2005 年年次報告書をダウンロードしています。これは、そこまで到達するための私のコードです:

これは私がそれをしたときの私の出力でした：

私には、この特定のドキュメントの URL を取得しただけのように見えますが、実際にテキストファイルをダウンロードしたわけではありません。

私が想像する次のステップは、URL に基づいてファイルをダウンロードすることです。URL引数としてAAPLを使用してdownload.fileを実行するとうまくいくと思いましたが、何か不足しているに違いありません。

URL に基づいて完全なドキュメントをダウンロードする方法について考えていますか? ありがとうございました

r url web-scraping finance edgar

user7317101

2017-02-03T16:31:37.203

1 2 3 4 5 6 7 8 9 10

問題タブ [edgar]

ftp - EDGAR FTP ファイル パス リストの生成

python - 美しいスープテーブルのこすり落としは、時々こするだけです

r - RのURL文字列から.txtをダウンロード

Reference

ftp - EDGAR FTP ファイルパスリストの生成