問題タブ [data-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
7811 参照

php - Web ページから有意義で有用なコンテンツを抽出するには?

Web ページを解析し、そこから意味のあるコンテンツを抽出したいと考えています。意味があるとは、ユーザーがその特定のページで見たいと思っているコンテンツ (テキストのみ) (広告、バナー、コメントなどを除くデータ) を意味します。 read が保存され、それ以外は保存されません。

つまり、Readability と同じように機能するアプリケーションを構築する必要があります。( http://www.readability.com ) Web ページのこの有用なコンテンツを取得して、別のファイルに保存する必要があります。どうすればいいのかよくわかりません。

データ抽出のプロセスをオフラインで行う必要があるため、インターネットに接続してサーバーからデータを取得する必要がある API を使用したくありません。

私が考えることができる2つの方法があります:

  1. 機械学習ベースのアルゴリズムを使用します (このように: http://ai-depot.com/articles/the-easy-way-to-extract-useful-text-from-arbitrary-html/ )

  2. Web ページからすべての雑然としたものを十分に除去できる Web スクレーパーを開発します。

これを行う既存のツールはありますか?ボイラーパイプ ライブラリ ( http://code.google.com/p/boilerpipe/ ) に出会いましたが、使用しませんでした。使ったことある人いますか?それは満足のいく結果をもたらしますか?この種の Web スクレイピングを行う、特に PHP や Python で書かれた他のツールはありますか?

これを行うために独自のツールを作成する必要がある場合、それについて何を提案しますか?

解析を開始する前に、乱雑または不完全な HTML をクリーンアップする必要があるため、Tidy ( http://www.w3.org/People/Raggett/tidy/ ) や Beautiful Soup ( http: //www.crummy.com/software/BeautifulSoup/bs4/doc/ ) を実行します。

しかし、このステップの後にコンテンツを抽出する方法がわかりません。

PS。私はアマチュアであり、これを行うオープン ソース ツールを使用する準備ができており、PHP または Python で記述したコードに簡単に統合できる場合は、それが大好きです。または、自分でコードを書かなければならない場合は、そのような作業を以前に行ったことのある人に指導してもらいたいです! :) どうもありがとう!

0 投票する
1 に答える
7770 参照

vba - Web ページからデータを抽出する - VBA を使用

VBA を使用して、Web ページhttp://emops.tse.com.tw/t21/sii/t21sc03_2011_9_e.htmからデータを抽出する必要があります。

次のコードを使用してすべてのデータを取得できます。

しかし問題は、ページ全体からのデータが必要ないことです。Industry nameがElectronのテーブルのデータが欲しい(この場合は最後のテーブルです)

同じためのトリックはありますか?

0 投票する
1 に答える
2720 参照

file-upload - 剣道UIウェブアップロードでtxtファイルの内容を抽出してデータベースに記録

ステップ1-剣道のアップロードでtxtファイルを選択します

(この段階でデータベースにアップロードするか、後で削除するapp_dataフォルダーにアップロードするか、別の方法でアップロードしてください)

ステップ2-txtファイルからデータを抽出します

(ステップ1に応じて、アップロードしたファイルまたはapp_dataにあるファイルを選択するか、...ファイルスチームなどに入れて、中のすべてのテキストを取得します)

ステップ3-抽出したデータをテーブルモデルに割り当てて、データベースに記録します

一度に1つのファイルのみを処理する必要があります。また、ファイルをアップロードする必要がある場合でも、アップロードごとに1つのファイルのみを許可するように剣道のアップロードを制限できるかどうか疑問に思います。

0 投票する
3 に答える
127 参照

java - 複雑な文字間の Java 正規表現テキスト

正規表現を使用して文字列からテキストを取得しようとしていますが、これまであまり使用したことがなく、Pattern.compile の形式がわかりません。

次の文字列から重量 (9 オンス) を切り出したい:


私の Pattern.compile 形式はどうあるべきですか。「Weight:」と「(」の間をカットしようとしています。

どんな助けでも素晴らしいでしょう!しばらく探していましたが、フォーマットを説明する適切な場所が見つかりませんでした。

0 投票する
2 に答える
4513 参照

windows - iMacros-このタグは失敗しています(入力フィールドが見つかりません)

これが私が選択しようとしている入力フィールドです(ウェブサイトから)

タグを付けてから、URLの相対検索を実行して、その後に抽出する必要があります。(入力フィールドに何も入力する必要はありません。)TAGが失敗し、入力フィールドの後の最初のURLではなく、ページの最初のURLを取得しています。(上記の入力フィールドは、リンクを取得する前に簡単に選択できる唯一の項目です。)

失敗するコードは次のとおりです。

Firefox WindowsXPSP3用のiMacrosv。7.6.0.2

(残念ながら、iMacrosの公式フォーラムは廃止されました。そこで私はこれをここに持ってきました。)

0 投票する
1 に答える
321 参照

sql - Jailerなどを使用して完全なデータ依存関係ツリーを抽出することは可能ですか?

IBMDB2パフォーマンステストデータベースにデータを入力する必要があります。テストリレーショナルデータベースの1つから1つの行とそのすべての依存関係を取得し、その行をスクリプトにコピーして貼り付けたいと思います。

たとえば、Jailerを使用してDBとそのすべての依存関係から1つの行を抽出することは可能ですか?つまり、この行のFKにあるすべての行だけでなく、この行のPKが他の行のFKである行も抽出します。私はJailerを見てきましたが、すべての依存関係ではなく、1つのテーブルの行を抽出するように管理することしかできません。

0 投票する
4 に答える
234 参照

java - Java でのデータの取得

私はJavaの初心者です。Web サイトからデータを取得し、それを何らかのデータ構造に保存することは可能ですか? たとえば、プログラムは特定の時間にヤフー ファイナンスから株の価値を取得し、それを保存します。私が言ったように、私はJavaに精通していないので、これができるかどうか知りたい. できるとしたら、それを行うのは非常に難しいですか?

0 投票する
1 に答える
5215 参照

firefox - iMacros - 抽出したデータをファイルに追加するにはどうすればよいですか?

TAG..EXTRACT..SAVEAS を使用して URL を取得し、それをファイルに書き込むことができます。スクリプトでそれを 10 回実行すると、ファイルには最後に抽出された URL のみが含まれ、ファイルは上書きされます。既存のファイルに追加する方法に関するドキュメントはありません。各 URL に独自のファイル名を付けて、コマンド プロンプトからこれらすべてのファイルを結合する必要はありません。

Firefox 7.6.0.2 用の iMacros; Windows XP SP3

0 投票する
2 に答える
552 参照

bigdata - GATE で TermRaider プラグインを使用する

GATE で TermRaider の機能を使いたい。このリソースをロードしてJavaクラスで使用するためのサンプルコードを投稿してください。以下で試しましたが失敗しました。

どなたか、どうすればよいか教えていただけないでしょうか。

0 投票する
1 に答える
2043 参照

php - Web サイトからデータを抽出するための PHP の正規表現

私はphpが初めてです。コースの宿題の一環として、Web サイトからデータを抽出し、そのデータを使用してテーブルをレンダリングする必要があります。

PS : 正規表現の使用は適切なオプションではありませんが、DOM、jQuery などのライブラリの使用は許可されていません。

文字セットはUTF-8です。

ここで正規表現は正常に機能しますが、テーブルタグに同じ正規表現を適用すると、空の配列が返されます。$html の空白と何か関係がありますか?

ここで何が問題なのですか?