問題タブ [data-extraction]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Tika 1.1 パフォーマンスの向上
私は tika 1.1 を使用しています。tika がファイルからコンテンツを抽出するのに時間がかかるという問題に直面しています。1MB の pdf/doc ファイルを抽出するには、約 3 秒かかります。パフォーマンスを向上させる方法はありますか? パフォーマンスの向上に役立つチューニング、構成。
私はtika 1.4を試しましたが、残念ながら同じpdf時間は〜3.2秒です。
私は BodyContentHandler を使用しています。
}
java - データを抽出する Java 正規表現パターン
私はこのような受信データを持っています
データは変化していますが、完全にランダムまたは予測不可能なものではありません。
では基本的に、各文字列で着信する ID を抽出し、残りのジャンクを無視するにはどうすればよいでしょうか?
c# - プログラムによる _doPostBack (JavaScript) を使用する Web サイトからのデータの抽出 (C#)
C# を使用して Web サイトからデータを抽出しようとしています。私が直面している問題は、Web サイトが JavaScript (つまり、_doPostBack メソッド) を実装してページ間を移動することです。つまり、ページには、Google ページの結果と同様の数字ボタン (1、2、3、4、...) が含まれています。数値ボタンを押すと、ボタンは「_doPostBack」という関数を呼び出して、結果ページ間を移動します。Web サイトのページのスクリプト (_doPostBack メソッドを含む) 内を検索しましたが、データを取得するためのリンクが見つかりませんでした。その上、私は JavaScript ファイルの中を調べましたが、どのリンクも示していませんでした。どうすればいいですか?
ありがとうございました
vba - VBA を使用した Web ページから Excel へのデータ抽出
Webページからテーブルを取得しようとしていましたが、Webページからテーブルを取得することに成功しましたが、残念ながら、テーブルの各行にリンクがいくつかあります.Webページからテーブルを取得すると、リンクなしでテキストのみが出力されます.ハイパーリンクを含む VBA を使用して Web ページからテーブルを取得する方法はありますか。
これが私のコードです:
batch-file - DOS ソフトウェアから古いデータを抽出する
DOS で作成された古いソフトウェアがあります。私が持っているのは、UI を表示する実行可能ファイルだけです。このソフトウェアが行うことは、ドア製造会社に与えられた注文の詳細を取得し、それをどこかに保存して、そのデータをニードル プリンターに送信することです。保存されるデータには、顧客の名前と住所、ドアの寸法などが含まれます。
ソフトウェアの元の作成者には連絡が取れなくなり、作成に使用された言語もわかりません。私の会社はこのシステムを廃止したいと考えていますが、現在、古い注文に関する情報にアクセスする唯一の方法は、注文番号を UI に挿入することです。
私がする必要があるのは、このデータを抽出し、読み取り可能な形式に変換することです。私は研究論文を読み、この Web サイトや他の多くの Web サイトを検索しましたが、何も表示されませんでした。新しい注文を入力すると、変更されるファイルの形式は次のようになります。
^01、WRK、DBK、STA
ディレクトリには、.ALT、.DBI、.ASC、.BAS、.DDF、.MA3 などの形式の他のファイルがありますが、これらは過去 20 年間変更されていないようです。
どうもありがとうございました
matlab - データセットが該当するグリッドを見つけて、このデータを matlab で抽出する
私は2セットのデータを持っています。データの 1 つのセットは、各行に異なるサンプルを含み、列に各サンプルに関する情報を含む行列です。これらの列の 1 つには経度データが含まれ、もう 1 つの列にはサンプルの緯度データが含まれます。もう 1 つのデータセットは、3 つのグリッドで構成されています。1 つのグリッドにはデータの緯度が含まれ、2 番目のグリッドにはデータの経度が含まれ、3 番目のグリッドには緯度 1° の経度グリッドのデータが含まれます。
私が望むのは、2 番目のデータセットのどのデータが 2 番目のデータセットのデータに対応するかを調べることです。これが意味することは、サンプルが 2 番目のデータセットの特定のグリッドに分類される場合、このグリッドのデータを抽出する必要があり、データがどのサンプルに適用されるかを知る必要があるということです。
したがって、緯度 60 と 59、および経度 100 と 101 の間のグリッドでサンプル x が落ちると言うだけです。この特定のグリッドでは、グリッド データセットのデータが 10 であるとします。10 (グリッド内のデータ) がサンプル x に適用されることを知りたいです。
最後に、サンプル データセットのパートナーとして機能する新しいマトリックスのサンプルに対応するグリッド データを取得したいと思います (つまり、サンプル x が行 40 にある場合、マトリックス 10 は行 40 にあります)。 、または新しい列として同じデータセットに追加されます。一部のサンプルが同じグリッドに分類されることに注意してください。
私は matlab の経験がかなり浅いので、ブラシ ツールを試してみましたが、この例ではうまくいきません。私が考えることができる可能性があるのは、サンプルデータの経度と緯度を偶数に丸め、経度と緯度で重複するサンプルを見つけ、サンプルデータの経度を長いグリッドと交差させてから、各サンプルが該当する行と列を見つけてから、各サンプルのデータを見つける緯度グリッドについても同じです。これは長い道のりのように思えますし、うまく機能するかどうかもわかりません。
私はこの方法を完了し、ある程度機能しました....各サンプルのデータが含まれる行と列があります(つまり、サンプルxは行8列100にあります)。ただし、グリッドからこのデータを抽出しようとすると、1 つの列ではなく多数の列を含むマトリックスであり、答えはマトリックスのサンプルの場所にあります。グリッドの各行から 1 つのデータ ポイントを取得し、最終的に 1 列 (または列に変換できる 1 行) のみのマトリックスを作成するにはどうすればよいですか?
ありがとうございました
java - Java を使用した JSON からのデータの抽出
問題: JSON ファイルからデータを抽出し、呼び出しのために Java に格納する方法論。
私がやろうとしていること: JSON ファイルからデータを抽出して、Java を使用して画面上のデータを比較したいと考えています。
私が試したこと: まず、JSON ファイルからデータを抽出するためのリソースと情報を見つけようとしましたが、テキストを手動で操作して実行しようとしましたが、これは明らかにスケーラブルではありません。
コード
助けてくれてありがとう、投稿に含める必要がある変更や事柄がある場合は、コメントを残してください。