0

私はプログラミングにまったく慣れていないので(学ぶ気はありますが)、非常に基本的な質問を前もってお詫びします。

[SEC はすべてのファイリングを FTP 経由で利用できるようにします][1]。最終的には、これらのファイルのサブセットを一括でダウンロードしたいと考えています。ただし、このようなスクリプトを作成する前に、これらのファイルの場所のリストを生成する必要があります。これらのファイルは次の形式に従います。

/edgar/data/51143/000005114313000007/0000051143-13-000007-index.htm

  • 51143 = 会社 ID。FTP 経由で必要な会社 ID のリストにアクセス済み
  • 000005114313000007/0000051143-13-000007 = レポート ID、別名「アクセッション番号」

ドキュメントがかなり軽いので、これを理解する方法に苦労しています。000005114313000007/0000051143-13-000007(SEC が「アクセッション番号」と呼ぶもの)を既に持っている場合は、非常に簡単です。しかし、私は〜45kのエントリを探しており、特定のCIK ID(すでに持っている)ためにこれらを自動的に生成する必要があることは明らかです。

これを達成する自動化された方法はありますか?

4

1 に答える 1

0

SOへようこそ。

現在、同じサイトをスクレイピングしているので、これまでに行ったことを説明します。私が想定しているのは、スクレイピングしようとしている会社の CIK 番号を持っているということです。会社の CIK を検索すると、問題の会社で利用可能なすべてのファイルのリストが表示されます。例として Apple を使用しましょう (大量のファイルがあるため)。

Apple のファイリングへのリンク

ここから検索フィルターを設定できます。あなたがリンクしたドキュメントは 10-Q だったので、それを使用しましょう。10-Q をフィルターすると、すべての 10-Q ドキュメントのリストが表示されます。フィルターに対応するために、URL がわずかに変更されていることがわかります。

Python とその Web スクレイピング ライブラリを使用して、その URL を取得し、そのページのテーブル内のドキュメントのすべての URL をスクレイピングできます。これらのリンクごとに、必要なリンクや情報をページから削除できます。私は個人的に BeautifulSoup4 を使用していますが、プログラミング言語として Python を選択する場合は、lxml も Web スクレイピングの別の選択肢です。Python を使用することをお勧めします。基本といくつかの中級プログラミング構造を習得するのはかなり簡単だからです。

それを過ぎると、プロジェクトはあなたのものです。頑張ってください。始められるように、以下にいくつかのリンクを掲載しました。私はこのサイトを初めて使用するため、リンクを 2 つしか投稿できません。そのため、美しいスープのリンクを提供します。

美しいスープのホームページ

Python を使用することを選択し、この言語を初めて使用する場合は、codecademy の python コースを確認してください。また、BeautifulSoup よりも lxml を好む人もいるため、lxml を確認することを忘れないでください (両方を組み合わせて使用​​する人もいます。個人の好みの問題)。

于 2016-05-30T16:34:07.230 に答える