“data-extraction”の関連問題_Stack Overflow日本語サイト

0 投票する

3 に答える

174 参照

python - BeautifulSoup で特定のデータを抽出する

このスニペットから少しデータを抽出したいと思います。

のみを抽出したい212.19 MB。

を使用してスニペットを抽出しましたsoup.find('div', attrs={'id': 'information_content'})が、さらにドリルダウンして必要なものを取得する方法がわかりません。

誰でも助けることができますか？

2014-02-13T10:41:59.220

0 投票する

1 に答える

874 参照

python - 特定のフォルダー内の .zip ファイルを検索し、その中の .txt ファイルからデータを抽出する方法

重要な情報: 私は Ubuntu (13.10) でこれを行っており、このプロジェクトでは私のリーグから外れていますが、私の知識を広めることが私が学びたい方法です。

起動時に特定のフォルダー (etc/UIManager/saves) をスキャンして、「data.txt」という特定のテキストファイルを含む .zip ファイルをスキャンするスクリプトを実行するプログラムを作成したいと考えています。次に、データを取得します。それら (UIname、バージョン、互換性) を入力し、それを 1 行の横のテーブルに出力します。

団結 | 3.2.5 | 13.10

これを複数の .zip ファイルで実行したいと思います。それらのリストは、プログラムが開始されるたびに更新されます。.zip ファイルの名前は事前に決定されていません。

これは、これら 3 つがフォルダーに保存されている場合に、ユーザーがプログラムのウィンドウに表示するものです (「|」はデータを区切るためのものであり、必要ありません)。

団結 | 3.2.5 | 13.10

KDE | KDE | 4.1.0 | 13.10

ノーム | 3.5.7 | 13.10

テキストファイルは次のようになり、すべて data.txt という名前になります。

UIname= x

バージョン = メジャー、マイナー、開発リリース

互換性 = 互換性のある Ubuntu のバージョン

これを実行したい言語は Python 3 が望ましいですが、C 言語でも問題ありません。別の言語でそれがより簡単またはより実用的である場合、私は提案を受け付けています。私の主な目標が何であるかを確認するには: http://www.youtube.com/watch?v=mERSAYhN80U私が今取り組んでいる部分は、2 つの UI が表示された最初のウィンドウで見たものです。

python ubuntu data-extraction

2014-02-17T02:32:17.113

0 投票する

1 に答える

298 参照

r - ボストンデータセット、値に基づく複数のフィルター

私は初心者です。私は MASS パッケージのボストンのデータセットを扱っていました。フィルターを適用して、変数「chas」の値が 1 / TRUE で、変数「age」の値が 50.0 より大きいレコードを取得したかった

私は試した：

私が得た結果は次のとおりです。0列と35行のデータフレーム

ただし、chas が true で age が 50 より大きいデータフレームのすべてのレコードが必要でした。

使用できる代替方法は何ですか? また、フィルタリングを 3 / 4 / 任意の数の変数に拡張するにはどうすればよいですか。

r filter subset multiple-columns data-extraction

2014-02-19T15:42:20.320

0 投票する

1 に答える

1738 参照

php - PHPでメールをスクレイピングする

選択したメールを受信トレイから破棄するスクリプトがあります。BODY以外はすべて機能します。件名、日付、送信者などは問題なくスクレイピングされましたが、本文は次のように返されました。

VG9kYXkncyBGcmVlIGFuZCBCYXJnYWluIEJvb2tzCgpVcGRhdGUgUHJlZmVyZW5jZXM6ICBodHRw Oi8vd3d3LmJvb2tnb3JpbGxhLmNvbS9wcmVmZXJlbmNlcz9oPTZjNTgxNDEyYjkzMTdiMWZlNjc1 ZDcwNDFjODJhYTc5Ckludml0ZSBGcmllbmRzOiBodHRwOi8vd3d3LmJvb2tnb3JpbGxhLmNvbS9p bnZpdGU/aD02YzU4MTQxMmI5MzE3YjFmZTY3NWQ3MDQxYzgyYWE3OQpVbnN1YnNjcmliZTogaHR0 cDovL3d3dy5ib29rZ29yaWxsYS5jb20vdW5zdWJzY3JpYmU/aD02YzU4MTQxMmI5MzE3YjFmZTY3 NWQ3MDQxYzgyYWE3OQoKQWxsIHByaWNlcyB3ZXJlIHZlcmlmaWVkIGJ5IEJvb2tHb3JpbGxhIHBy aW9yIHRvIHRoaXMgZW1haWwgYmVpbmcgc2VudCwgYnV0IHByaWNlcyBtYXkgY2hhbmdlIHdpdGhv dXQgbm90aWNlIHNvIHBsZWFzZSB2ZXJpZnkgdGhhdCB0aGUgYm9vayBpcyBzdGlsbCBmcmVlIG9y IGJhcmdhaW4gcHJpY2VkIGJlZm9yZSBjb25maXJtaW5nIHlvdXIgb3JkZXIuIFNvbWUgYm9va3Mg bWF5IG5vdCBiZSBmcmVlIG91dHNpZGUgdGhlIFVuaXRlZCBTdGF0ZXMuIFdlIHdlbGNvbWUgeW91ciBmZWVkYmFjaywgc28gcGxlYXNlIHJlcGx5IHRvIHRoaXMgZW1haWwgaWYgeW91IGhhdmUgYW55 IGNvbW1lbnRzIG9yIHN1Z2dlc3Rpb25zIHlvdSB3b3VsZCBsaWtlIHRvIHNoYXJlIHdpdGggdXMu CgoKCi0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0t LS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0NCg0KRG9uJ3Qg bWlzcyB0aGlzIEJFU1QgUFJJQ0UgRVZFUiBvbiBEZWJiaWUgTWFjb21iZXIncyBjbGFzc2ljIERl Y2VtYmVyIDIwMTMgcmVsZWFzZSE8YnIgLz48YnIgLz5GcmllbmRzLS1BbmQgVGhlbiBTb21lPGJy IC8+KERlYmJpZSBNYWNvbWJlciBDbGFzc2ljcykNCkJ5IERlYmJpZSBNYWNvbWJlcjxiciAvPjxi ciAvPjY3JSBQcmljZSBDdXQgVGhpcyBXZWVrIQ0KDQoqKioqKiBTVEFSUkVEIFRJVExFICoqKioq CgogT25lIG9mIGFjY2xhaW1lZCBhdXRob3IgRGViYmllIE1hY29tYmVy4oCZcyBjbGFzc2ljIG5v dmVscywgdGhpcyB0ZW5kZXIgc3Rvcnkgb2YgdHdvIHBlb3BsZSBkYXJpbmcgdG8gYmUgbW9yZSB0aGFuIOKAnGp1c3QgZnJpZW5kc+KAnSBpcyBhdmFpbGFibGUgZm9yIHRoZSBmaXJzdCB0aW1lIGlu IHRoZSBLaW5kbGUgc3RvcmUhDQoNClRvZGF5J3MgQmFyZ2FpbiBQcmljZTogJDAuOTkNCg0KR2V0 IEl0IE5vdw0KaHR0cDovL3d3dy5ib29rZ29yaWxsYS5jb20vbGluaz9sPWh0dHAlM0ElMkYlMkZ

そして、私はそれがなぜなのか分かりませんか？これは私が使用しているコードです:

アイデアはありますか？

php email imap data-extraction

2014-02-21T14:37:37.733

0 投票する

2 に答える

313 参照

mysql - 簡単な SQL クエリの分類

勝利の列に、勝利または敗北の分類を記入したいと思います。勝利は 1 ～ 3 位のフィニッシュ、敗北はその他すべてと定義されます。

mysql data-extraction

2014-02-21T18:30:47.597

0 投票する

0 に答える

49 参照

python-2.7 - ファイルのリストからいくつかのファイルを選択する方法は?

そのため、さまざまな組織からの複数のファイルを読んでいます。すべてのファイルには、ファイル番号と編成があります。ファイルのリストを読んで、組織からそれらのものだけを見つけて、他のもの'OCE'を無視しようとしています。'OCE'私の目標は、合計でいくつのファイルが含まれているかを数え、それらのファイル番号を出力することです。

'OCE'私の質問は、ファイルのみを選択して他の部分を無視したい部分をどのようにコーディングすればよいですか? どのステートメントを使用するかさえわかりません。どんな提案でも大歓迎です。

python-2.7 data-extraction

2014-03-16T20:41:42.830

0 投票する

1 に答える

660 参照

r - RでTwitterデータを抽出しながらタイムラインを追加する

次のコードを使用して、キーワードの Twitter データを抽出しようとしています。

接続を有効にするには、Web ブラウザで https://api.twitter.com/oauth/authorize?oauth_token=Cwr7GgWIdjh9pZCmaJcLq6CG1zIqk4JsID8Q7v1s にアクセスしてください

しかし、n=1000 の場合でも、関数は 99 個のツイートのみのリストを返しますが、それ以上になるはずです。特定のタイムラインで同じ機能も試しました。

しかし、この関数は空のリストを返します。

特定のタイムラインからデータを抽出し、ツイート数に制限を設けないようにするための追加のクエリの正しいセットを使用して、誰でも助けてもらえますか? API によってフェッチされたデータの量と何か関係がありますか?

前もって感謝します

r data-extraction twitter-r

2014-04-17T06:20:52.527

0 投票する

2 に答える

975 参照

java - JavaでODTからPDFにデータを抽出

JavaでODTファイルのデータを取得したい。そのために2つのアプローチがあります。

1)。ODT ファイルから抽出データを取得し、新しいドキュメントを作成します

2)。odt ドキュメントの印刷プレビューを取得し、このような画像として PDF ドキュメントに追加します

どのアプローチが優れているか、どのようにすればよいか教えてください。

java pdf data-extraction odt

2014-04-22T07:00:58.567

問題タブ [data-extraction]

Reference