問題タブ [data-extraction]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - BeautifulSoup で特定のデータを抽出する
このスニペットから少しデータを抽出したいと思います。
のみを抽出したい212.19 MB
。
を使用してスニペットを抽出しましたsoup.find('div', attrs={'id': 'information_content'})
が、さらにドリルダウンして必要なものを取得する方法がわかりません。
誰でも助けることができますか?
python - 特定のフォルダー内の .zip ファイルを検索し、その中の .txt ファイルからデータを抽出する方法
重要な情報: 私は Ubuntu (13.10) でこれを行っており、このプロジェクトでは私のリーグから外れていますが、私の知識を広めることが私が学びたい方法です。
起動時に特定のフォルダー (etc/UIManager/saves) をスキャンして、「data.txt」という特定のテキスト ファイルを含む .zip ファイルをスキャンするスクリプトを実行するプログラムを作成したいと考えています。次に、データを取得します。それら (UIname、バージョン、互換性) を入力し、それを 1 行の横のテーブルに出力します。
団結 | 3.2.5 | 13.10
これを複数の .zip ファイルで実行したいと思います。それらのリストは、プログラムが開始されるたびに更新されます。.zip ファイルの名前は事前に決定されていません。
これは、これら 3 つがフォルダーに保存されている場合に、ユーザーがプログラムのウィンドウに表示するものです (「|」はデータを区切るためのものであり、必要ありません)。
団結 | 3.2.5 | 13.10
KDE | KDE | 4.1.0 | 13.10
ノーム | 3.5.7 | 13.10
テキスト ファイルは次のようになり、すべて data.txt という名前になります。
UIname= x
バージョン = メジャー、マイナー、開発リリース
互換性 = 互換性のある Ubuntu のバージョン
これを実行したい言語は Python 3 が望ましいですが、C 言語でも問題ありません。別の言語でそれがより簡単またはより実用的である場合、私は提案を受け付けています。私の主な目標が何であるかを確認するには: http://www.youtube.com/watch?v=mERSAYhN80U私が今取り組んでいる部分は、2 つの UI が表示された最初のウィンドウで見たものです。
r - ボストン データ セット、値に基づく複数のフィルター
私は初心者です。私は MASS パッケージのボストンのデータセットを扱っていました。フィルターを適用して、変数「chas」の値が 1 / TRUE で、変数「age」の値が 50.0 より大きいレコードを取得したかった
私は試した :
私が得た結果は次のとおりです。0列と35行のデータフレーム
ただし、chas が true で age が 50 より大きいデータ フレームのすべてのレコードが必要でした。
使用できる代替方法は何ですか? また、フィルタリングを 3 / 4 / 任意の数の変数に拡張するにはどうすればよいですか。
php - PHPでメールをスクレイピングする
選択したメールを受信トレイから破棄するスクリプトがあります。BODY以外はすべて機能します。件名、日付、送信者などは問題なくスクレイピングされましたが、本文は次のように返されました。
VG9kYXkncyBGcmVlIGFuZCBCYXJnYWluIEJvb2tzCgpVcGRhdGUgUHJlZmVyZW5jZXM6ICBodHRw Oi8vd3d3LmJvb2tnb3JpbGxhLmNvbS9wcmVmZXJlbmNlcz9oPTZjNTgxNDEyYjkzMTdiMWZlNjc1 ZDcwNDFjODJhYTc5Ckludml0ZSBGcmllbmRzOiBodHRwOi8vd3d3LmJvb2tnb3JpbGxhLmNvbS9p bnZpdGU/aD02YzU4MTQxMmI5MzE3YjFmZTY3NWQ3MDQxYzgyYWE3OQpVbnN1YnNjcmliZTogaHR0 cDovL3d3dy5ib29rZ29yaWxsYS5jb20vdW5zdWJzY3JpYmU/aD02YzU4MTQxMmI5MzE3YjFmZTY3 NWQ3MDQxYzgyYWE3OQoKQWxsIHByaWNlcyB3ZXJlIHZlcmlmaWVkIGJ5IEJvb2tHb3JpbGxhIHBy aW9yIHRvIHRoaXMgZW1haWwgYmVpbmcgc2VudCwgYnV0IHByaWNlcyBtYXkgY2hhbmdlIHdpdGhv dXQgbm90aWNlIHNvIHBsZWFzZSB2ZXJpZnkgdGhhdCB0aGUgYm9vayBpcyBzdGlsbCBmcmVlIG9y IGJhcmdhaW4gcHJpY2VkIGJlZm9yZSBjb25maXJtaW5nIHlvdXIgb3JkZXIuIFNvbWUgYm9va3Mg bWF5IG5vdCBiZSBmcmVlIG91dHNpZGUgdGhlIFVuaXRlZCBTdGF0ZXMuIFdlIHdlbGNvbWUgeW91ciBmZWVkYmFjaywgc28gcGxlYXNlIHJlcGx5IHRvIHRoaXMgZW1haWwgaWYgeW91IGhhdmUgYW55 IGNvbW1lbnRzIG9yIHN1Z2dlc3Rpb25zIHlvdSB3b3VsZCBsaWtlIHRvIHNoYXJlIHdpdGggdXMu CgoKCi0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0t LS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0NCg0KRG9uJ3Qg bWlzcyB0aGlzIEJFU1QgUFJJQ0UgRVZFUiBvbiBEZWJiaWUgTWFjb21iZXIncyBjbGFzc2ljIERl Y2VtYmVyIDIwMTMgcmVsZWFzZSE8YnIgLz48YnIgLz5GcmllbmRzLS1BbmQgVGhlbiBTb21lPGJy IC8+KERlYmJpZSBNYWNvbWJlciBDbGFzc2ljcykNCkJ5IERlYmJpZSBNYWNvbWJlcjxiciAvPjxi ciAvPjY3JSBQcmljZSBDdXQgVGhpcyBXZWVrIQ0KDQoqKioqKiBTVEFSUkVEIFRJVExFICoqKioq CgogT25lIG9mIGFjY2xhaW1lZCBhdXRob3IgRGViYmllIE1hY29tYmVy4oCZcyBjbGFzc2ljIG5v dmVscywgdGhpcyB0ZW5kZXIgc3Rvcnkgb2YgdHdvIHBlb3BsZSBkYXJpbmcgdG8gYmUgbW9yZSB0aGFuIOKAnGp1c3QgZnJpZW5kc+KAnSBpcyBhdmFpbGFibGUgZm9yIHRoZSBmaXJzdCB0aW1lIGlu IHRoZSBLaW5kbGUgc3RvcmUhDQoNClRvZGF5J3MgQmFyZ2FpbiBQcmljZTogJDAuOTkNCg0KR2V0 IEl0IE5vdw0KaHR0cDovL3d3dy5ib29rZ29yaWxsYS5jb20vbGluaz9sPWh0dHAlM0ElMkYlMkZ
そして、私はそれがなぜなのか分かりませんか?これは私が使用しているコードです:
アイデアはありますか?
mysql - 簡単な SQL クエリの分類
勝利の列に、勝利または敗北の分類を記入したいと思います。勝利は 1 ~ 3 位のフィニッシュ、敗北はその他すべてと定義されます。
python-2.7 - ファイルのリストからいくつかのファイルを選択する方法は?
そのため、さまざまな組織からの複数のファイルを読んでいます。すべてのファイルには、ファイル番号と編成があります。ファイルのリストを読んで、組織からそれらのものだけを見つけて、他のもの'OCE'
を無視しようとしています。'OCE'
私の目標は、合計でいくつのファイルが含まれているかを数え、それらのファイル番号を出力することです。
'OCE'
私の質問は、ファイルのみを選択して他の部分を無視したい部分をどのようにコーディングすればよいですか? どのステートメントを使用するかさえわかりません。どんな提案でも大歓迎です。
r - RでTwitterデータを抽出しながらタイムラインを追加する
次のコードを使用して、キーワードの Twitter データを抽出しようとしています。
接続を有効にするには、Web ブラウザで https://api.twitter.com/oauth/authorize?oauth_token=Cwr7GgWIdjh9pZCmaJcLq6CG1zIqk4JsID8Q7v1s にアクセスしてください
しかし、n=1000 の場合でも、関数は 99 個のツイートのみのリストを返しますが、それ以上になるはずです。特定のタイムラインで同じ機能も試しました。
しかし、この関数は空のリストを返します。
特定のタイムラインからデータを抽出し、ツイート数に制限を設けないようにするための追加のクエリの正しいセットを使用して、誰でも助けてもらえますか? API によってフェッチされたデータの量と何か関係がありますか?
前もって感謝します
java - JavaでODTからPDFにデータを抽出
JavaでODTファイルのデータを取得したい。そのために2つのアプローチがあります。
1)。ODT ファイルから抽出データを取得し、新しいドキュメントを作成します
2)。odt ドキュメントの印刷プレビューを取得し、このような画像として PDF ドキュメントに追加します
どのアプローチが優れているか、どのようにすればよいか教えてください。