問題タブ [data-extraction]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
algorithm - PDFデータの抽出-提案が必要
PDF抽出ツールを作成しました。サンプル画面を添付しました。ユーザーはPDFファイルをロードして、必要なデータ領域を選択できます。次に、PDF座標とページ番号を取得し、テンプレートとして保存します。ユーザーがPDFファイルのリストを提供すると、ツールはテンプレートファイルに従ってデータを抽出できるようになります。私のツールはこれに非常によく似ています。
現在、問題は、一部のPDFで、抽出に必要なデータの一部が次のページにシフトされる場合があります。(シフトの理由は、例を挙げます。購入したアイテムのリストの請求書を考える場合、「合計値」が印刷される場所は、購入したアイテムの数によって異なります。長いリストの場合、合計はそれ以外の場合は下、中央または上近く)。
そのため、座標を取得するのではなく、pdfの構造を特定することを考えています。
しかし、私にはそれを行う明確な考えがありません。何かを共有してください、あなたはこの問題を解決するのに役立つと思います。PDFからデータを取得しようとしていることをもう一度繰り返します。したがって、PDFファイルの構造をキャプチャすることが可能です。
私の考えは、構造を特定できれば、値がどこにあるかを言うことができるということです。たとえば、pdfをhtmlに変換し、htmlタグの値をナビゲートしようとしました。(body-> div-> table-> td->など)しかし、成功しませんでした.. :(
iphone - FAT .a ファイルの抽出 Mac
Mac に FAT .a アーカイブ (ライブラリ) があり、そこからファイルを抽出する方法を知りたいのですが?
sql - PostgreSQL クエリから Excel シートへ
一部のデータを PostgreSQL から Excel にエクスポートする必要があります (顧客の迅速な要望)。前回、Excel で COPYd csv ファイル (行末、utf-8 エンコーディングなど) を開いたりインポートしたりする際に重大な問題が発生し、1 時間かかりました。一番。
実際の Excel ファイルを生成する迅速でエレガントなソリューションを知っている人はいますか? 小さなシェルスクリプトのようなものですか?
これを Linux ボックス (Debian 5.0 Lenny) または Windows (XP 以降) で実行したいと考えています。
android - Android: 電話の音声ファイルを生データに変換する
携帯電話から音楽ファイル (主に mp3) を取得し、FFT を実行できる生データに変換したいと考えています。Android/Javaフレームワークを使用してこれを行う方法はありますか、それともLAMEのようなものを統合してmp3をデコードする必要がありますか?
php - PHP で検索結果を取得する
私の大学の eguide である「https://login.ku.edu.tr/eGuide/servlet/eGuide」から検索結果を取得したいと思います。ただし、キャンパス内または VPN でのみアクセスできます。
私の目的は、任意の検索で「場所」フィールドの出力を取得する php コードを作成することです。ただし、コードがキャンパス内または VPN サーバーにログインしているコンピューターでのみ機能する場合も問題ありません。
検索からこの値を取得するにはどうすればよいですか?
ありがとう。
sql-server - SQLサーバーで型指定されたxmlから値を抽出する
テーブルの列の 1 つとして xml を入力しました (SQL Server 2008)。この型指定された xml フィールドから特定の値を 1 つ抽出する必要があります。複数のサイトで確認しましたが、型指定されていない xml だけからフィールドを抽出する方法しかありません。これをなくすのを手伝ってください。
python - Web ページからスニペットまたは概要を取得するための API またはライブラリ
URLを教えて概要を知りたいです。これを行うためのライブラリまたは API はありますか?
私は Python で作業していますが、他の言語から移植できます。
data-mining - 大量のテキストからの情報のフィルタリング
テキストの本文から情報を見つけることができるベストプラクティス、アルゴリズム、またはソフトウェア(パーミッシブライセンスが必要なオープンソース...)はありますか?私が言及しているのは:
- テキスト内のすべてのメールアドレスを検索する
- 都市のすべての言及を見つける
- 州のすべての言及を見つける
- すべてのURLを検索
- 電話番号のすべての言及を見つける
- 郵便番号に関するすべての言及を検索...さらに追加する機能付き...
RapidMinerはこのようなテキストマイニングを実行できるはずだと聞きましたが、AGPLは私の目的には受け入れられないライセンスです。
この種の分析を行うための「標準」はありますか?
regex - ヘルプ:テキストからデータタプルを抽出しています...正規表現または機械学習?
次の問題への最善のアプローチについて、あなたの考えを本当に感謝します。私はアイデアを与えるために本質的に類似している車分類リストの例を使用しています。
問題:指定されたテキストからデータタプルを抽出します。
データのいくつかの特徴は次のとおりです。
本文中の語彙(単語)は特定のドメインに限定されています。せいぜい100〜200語としましょう。
解析する必要のあるテキストは、以下に示す自動車広告データのような見出しです。したがって、各レコードは1つのタプル(行)に対応します。
場合によっては、一部の属性が欠落している可能性があります。したがって、たとえば、生データでは、年の下の行#5が欠落しています。
いくつかの単語が一緒になります(バイグラム)。「ローマイル」のように。
利用可能な履歴データ=10,000レコード
着信する新しいデータの量=1000〜1500レコード/週
期待される出力は、(Year、Make、Model、feature)の形式である必要があります。したがって、出力は次のようになります。
1->(2009、Ford、Fusion、SE)
2->(1997、Ford、Taurus、Wagon)
3->(2000、Mitsubishi、Mirage、DE)
4->(2007、Ford、Expedition、EL Limited)
5 ->(、ホンダ、アコード、EX
)
.......。
生のヘッドラインデータ:
1-> 2009 Ford Fusion SE-$ 7000
2-> 1997 Ford Taurus Wagon-$ 800(san jose east)
3-> '00 Mitsubishi Mirage DE-$ 2499(saratoga)pic
4-> 2007 Ford Expedition EL Limited-$ 7800(x)
5->ホンダアコードexローマイル-$2800(ダブリン/プレジャーオン/リバモア)写真
6-> 2004 HONDA ODASSEY LX68Kマイル-$10800(ダンビル/サンラモン)
7->93リンカーンマーク-$2000(オークランド東部)写真
8- > ####### 2006 LEXUS GS 430 BLACK ON BLACK 114KMI #######-$ 19700(san rafael)pic
9-> 2004 Audi A4 1.8T FWD-$ 8900(Sacramento)pic
10-> ## ##### 2003 GMC C2500 HD EX-CAB 6.0 V8 EFI WHITE 4X4 #######-$ 10575(サンラファエル)pic
11-> 1990トヨタカローラはうまくいく!ガスセーバー!5SPEED CLEAN!REG 2011 OBO-$ 1600(ヘイワード/カストロバレー)pic img
12-> HONDA ACCORD EX 2000-$ 4900(ダブリン/プレザントン/リバモア)pic
13-> 2009 Chevy SilveradoLTクルーキャブ-$23900(ダブリン/プレザントン/リバモア)pic
14 -> 2010 Acura TSX-V6-TECH-$ 29900(ダブリン/プレザントン/リバモア)写真
15->2003日産アルティマ-$1830(SF)写真
可能な選択肢:
- 機械学習テキスト分類器(ナイーブベイズなど)
- 正規表現
私が理解しようとしているのは、正規表現が仕事に対して複雑すぎて、テキスト分類子がやり過ぎであるかどうかです。
テキスト分類子を使用することを選択した場合、実装するのが最も簡単だと思いますか。
よろしくお願いします。
c# - C# でプログラム可能な WebCrawler
既知の URL から特定のデータを抽出したいと思います: span、a、divs などの html タグから ...!
そこで、C# で書かれた WebCrawler の既存のライブラリを探しています。...または他のアイデアかもしれません。
ありがとうございました !