問題タブ [edgar]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
web-scraping - Web スクレイピング SEC Edgar 10-K および 10-Q ファイリング
SEC 10-K および 10-Q ファイリングをスクレイピングした経験のある人はいますか? これらのファイリングから毎月の実現株式買戻しをかき集めようとしているときに、私は立ち往生しました. 具体的には、次の情報を取得したいと考えています。 1. 期間。2. 購入した株式の総数。3. 1 株あたりの平均支払価格。4. 公表された計画またはプログラムの一部として購入された株式の総数。5. 2004 年から 2014 年までの各月のプランまたはプログラムに基づいてまだ購入される可能性のある株式の最大数 (またはおおよそのドル価値)。解析するフォームが合計で 90,000 以上あるため、それを実行することは現実的ではありません。手動で。
この情報は通常、10-K の「パート 2 項目 5 登録者の普通株式、関連する株主の事項、および発行者の株式証券の購入に関する市場」および「パート 2 項目 2 株式証券の未登録売却および資金の使途」で報告されます。
解析する必要がある 10-Qファイリングの一例を次に示し ます。
企業が自社株買いを行っていない場合、この表は四半期報告書から欠落している可能性があります。
Python BeautifulSoup を使用して html ファイルを解析しようとしましたが、主にこれらのファイルが一貫した形式で記述されていないため、満足のいく結果が得られませんでした。
たとえば、これらのフォームを解析するために私が考えることができる唯一の方法は
上記のコードは、再購入情報を含む可能性のある乱雑なもののみを返します。ただし、1) 信頼性がありません。2) 非常に遅い。3)日付/月、株価、株式数などをスクレイピングする次の手順は、はるかに面倒です。そのような情報を取得するためのより実行可能な言語/アプローチ/アプリケーション/データベースがあるかどうか疑問に思っていますか? どうもありがとう!
python - FTP 550 エラー: EGDAR FTP サーバーにそのようなファイルまたはディレクトリはありません
異なる年の異なる四半期のすべての master.idx ファイルをダウンロードしようとしています。EDGAR FTP は「edgar/full-index/2011/QTR3/」のような構造になっており、QTR3 フォルダーには master.idx ファイルがあります。
ループして別の年のフォルダにアクセスしようとしましたが、550 エラーが返されます。だから私はこのようなループをテストしようとしました。
年 = 2013 の部分は機能しますが、年 = 2014 をリセットすると、次のようなエラーが表示されます。
ただし、2013年から2014年の間にログイン情報を再度追加すると、次のようになります
エラーはありません。誰でも理由を知っていて、各年フォルダーの各四半期フォルダーの master.idx にアクセスするための簡単な解決策を提供できますか?
php - EDGAR .txt ファイルの HTML レンダリング
現在、私は 1 つの PHP スクリプトがftp://ftp.sec.govからインデックス ファイルを取得し、すべての会社情報をデータベースに配置するプロジェクトに取り組んでいます。次に、2 番目の PHP スクリプトが SEC から未加工のテキスト ファイルを取得し、処理のためにローカルに保存します。
生のテキスト ファイルの例は、ここにあります -
ftp://ftp.sec.gov/edgar/data/2488/0000002488-15-000028.txt
最終結果がどうあるべきかの例は、ここにあります - http://www.sec.gov/Archives/edgar/data/1084869/000143774915020024/flws20150927_10q.htm
目標は、多くの企業が行うように、ファイリングをフォーマットされた方法で提示できるようにすることですが、問題は、すべてのファイリングに対して確実に行う方法を理解できないように見えることです. XML を使用しているように見えるファイリングもあれば、HTML を使用しているように見えるファイリングもあります。
生のテキスト ファイルのフォーマットされたバージョンを確実に生成するにはどうすればよいですか?
私が持っている現在のコード -
?>
xml-parsing - xbrl ディメンション リンクベースの解析
SEC edgar xml データを解析しようとしていますが、リンク可能な定義によって混乱しています。以下は、 Appleの10-Qの定義リンクベースからの抜粋です。注:roleURI
列はroleRef
定義リンクベースの要素から追加されています。
このデータから、ここに示したCondensed Consolidated Statements of Operations
.
私の問題は、それを解析する方法がわからないことです。arcrole/all
from link =us-gaap_StatementLineItems
と to =がある状態から開始すると仮定しus-gaap_StatementTable
ます。この時点から、テーブルを介して次のリンクをたどることができます。
ここからは、dei_EntityDomain
何にも繋がらないので止めます。構造は次のようになります。
レンダリングされたデータ:
モデル構造:
リンクベースの構造は次のようになると思います。
これにより、Statement テーブルから実質的に 2 つのレベルをぶら下げることができるようになりますが、明らかにそのようには機能していません。
上記の図に示されている意図した構造に到達するために、提供された定義リンクベース データを使用してそれを読み取る方法を教えてください。定義リンクベースがどのように機能するかを理解したら、事実と概念を抽出できます。
xml - プレゼンテーション リンクベースからのファクト テーブルの生成
これは、この SO questionからのフォローアップの質問です。
ここにあるプレゼンテーション リンクベースからモデル構造を作成したので、ファクト テーブル情報を抽出したいと思います。
モデル構造は次のとおりです。
XML ドキュメントから再作成しようとしているファクト テーブルには、次の情報が含まれています。
次に、このファクト テーブルをレンダリングして、次のテーブルを作成できます。
問題は、各項目の特定の事実を取得する方法がわからないことです。たとえば、モデル構造にNet sales
は、概念を持つ要素が含まれていus-gaap_SalesRevenueNet
ます。インスタンス ドキュメントには、次の への参照が含まれていus-gaap_SalesRevenueNet
ます。
示されている 12 のファクトのうち、ファクト テーブルに必要なのは 2 つだけです。これらは、 と の contextRef を持つファクトeol_PE2035----1510-Q0015_STD_91_20141227_0
ですeol_PE2035----1510-Q0015_STD_91_20151226_0
。
これらの contextRef id は、インスタンス ドキュメント内の次の事実に対応しています。
これらの contextRefs は本質的にPeriod Axis
要素です。xmlドキュメントから期間軸がどのように決定されているのかわかりません。したがって、ファクト テーブルを再現できません。誰でもこれを行う方法に光を当てることができますか?
quandl - 13F/13G SECファイリング用データセット
Quandl で 13F/13G ファイリングを含むデータベースを探していますが、何も見つかりません。適切なキーワードを使用していない可能性がありますか? キュレーションされたデータセットを見つける場所について何か提案はありますか? EDGAR を再びスクレイピングすることはしたくありません。乾杯!
python-3.x - Python で表形式の出力を作成する方法
現在、特定の企業の edgar ファイリングから署名テーブルをスクレイピングしようとしています。各ドキュメントを調べて、スクレイピングする必要があるテーブルを見つけるための Python プログラムを作成しました。「きれいな」方法でデータをファイルに出力する方法がわかりません。
ちょっとしたビジュアルへのリンクを次に示します (ドキュメントの一番下までスクロールすると、そこに署名のページがあります): ドキュメントの例
私が探しているのは、ウェブサイトでフォーマットされているのと同じ方法でテーブルをフォーマットすることです。各セルは特定のスペースを占有し、未使用のスペースをスペースで埋めます。
私の現在の出力:
私がやろうとしていること(ピリオドはスペースです):
文字列とmaxSize -stringSize
セルあたりのスペース数 ( ) を出力して、データがより表形式に見えるようにする方法はありますか? このプログラムを使用している人々は私ほど技術に精通していない可能性があるため、追加のダウンロードではなく、バニラの Python3 でこれを行うことを検討しています。