問題タブ [edgar]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
ftp - EDGAR FTP ファイル パス リストの生成
私はプログラミングにまったく慣れていないので(学ぶ気はありますが)、非常に基本的な質問を前もってお詫びします。
[SEC はすべてのファイリングを FTP 経由で利用できるようにします][1]。最終的には、これらのファイルのサブセットを一括でダウンロードしたいと考えています。ただし、このようなスクリプトを作成する前に、これらのファイルの場所のリストを生成する必要があります。これらのファイルは次の形式に従います。
/edgar/data/51143/000005114313000007/0000051143-13-000007-index.htm
- 51143 = 会社 ID。FTP 経由で必要な会社 ID のリストにアクセス済み
- 000005114313000007/0000051143-13-000007 = レポート ID、別名「アクセッション番号」
ドキュメントがかなり軽いので、これを理解する方法に苦労しています。000005114313000007/0000051143-13-000007
(SEC が「アクセッション番号」と呼ぶもの)を既に持っている場合は、非常に簡単です。しかし、私は〜45kのエントリを探しており、特定のCIK ID
(すでに持っている)ためにこれらを自動的に生成する必要があることは明らかです。
これを達成する自動化された方法はありますか?
python - 美しいスープテーブルのこすり落としは、時々こするだけです
BeautifulSoup4を使用しているいくつかの企業のために、取締役の署名を保持するいくつかの文書から特定のテーブルを抽出することに取り組んでいます。私のプログラムは、テーブルを保持するセクションの上にある見出しを見つけ、その場所から 2 つのテーブルを数えて正しいテーブルを見つけます (文書が政府文書であるということは、ほとんどすべての場合にフォーマットが当てはまることを意味します)。現在、これは私がやっている方法です:
このコードを使用すると、検索の約 70% でテーブルを見つけることができますが、エラーをスローするものもあります。たとえば、このドキュメントは表が見つからないものの 1 つですが (re.compile 文字列に対して CTRL+F を実行すると、ドキュメント内のセクションを見つけることができます)、同じ会社のこのドキュメントは次のようになります。同じ HTML フォーマットで良い結果が得られます。
何か案は?
編集: が問題になる可能性がありますが、別の問題もあります。 を含めないように検索文字列を短くすると、やはり失敗します。
EDIT2: 時々発生する根本的なエラーがあるようです。HTML のデータ変数を出力してみましたが、次の結果が得られました。
を削除しながら、この問題を回避する方法はありますか?
EDIT 2: 以下の回答は、私が抱えていた問題を解決したので、回答済みとしてマークしました。とはいえ、文字列内のランダムな改行の別の根本的な問題があったため、正規表現を変更して、スペースだけでなくすべての単語間の '\s+' をチェックしました。このような問題で行き詰まった場合は、必ずこのエラーの HTML コードを確認してください。
r - RのURL文字列から.txtをダウンロード
R の EDGAR パッケージを使用して、Apple の 2005 年年次報告書をダウンロードしています。これは、そこまで到達するための私のコードです:
これは私がそれをしたときの私の出力でした:
私には、この特定のドキュメントの URL を取得しただけのように見えますが、実際にテキスト ファイルをダウンロードしたわけではありません。
私が想像する次のステップは、URL に基づいてファイルをダウンロードすることです。URL引数としてAAPLを使用してdownload.fileを実行するとうまくいくと思いましたが、何か不足しているに違いありません。
URL に基づいて完全なドキュメントをダウンロードする方法について考えていますか? ありがとうございました