問題タブ [data-extraction]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
regex - データベースに入力するためのデータの解析または抽出
次のテキストファイルがあります。
評決、職長、裁判所、書記官、文などのキーワードをタグにしてデータベースに入力したいと考えています。これらの単語を抽出してタグを作成し、xml ドキュメントを形成してデータベースに配置する方法を教えてください。正規表現とデータ抽出を使用して検索してきましたが、まだ何も見つかりませんでした。
data-mining - データ抽出推奨ソフトウェア(メール、名前、国)
プレーンファイル(thunderbirdメールボックス、htmlファイル、csv)からいくつかのデータを抽出したいと思います。私は通常、このような文字列を(ファイルに)取得します
ユーザー:pepito電話:11233213電子メール:user@domain.com
次に、文字列(スクリプト、マクロ、それ)で抽出し、分離された列でCSVにエクスポートできるソフトウェアを探しています。
それを行うためのソフトウェアまたは方法を私に勧めてもらえますか?あなたの助けは非常に高く評価されます
どうもありがとうございます
html - iMacrosでhtmlに特定の数値が含まれているかどうかを確認する方法
iMacros を使用して、HTML サイトに特定の数値が含まれているかどうかを確認したいと考えています。もしそうなら、見つかった数に従って変数を割り当てたいと思います。
HTMLに112233が含まれている場合のように、HTMLに223344が含まれている場合、Var1を123に割り当て、Var1を645にします。
これを行う方法は何ですか?
ありがとう!
c++ - HTML ページからデータを抽出するためのライブラリはありますか?
Web ページから情報を抽出したいと考えています。残念ながら、私の知る限り、ウェブサイト (4chan) には公開 API がありません。
HTML ドキュメントから特定のデータを抽出するのに適したライブラリは何ですか? 私は、UNIX システムで動作するフリー ソフトウェア ライブラリを好みます。
編集:基本的には4chanから投稿と画像を取得したい. Web ページは有効な HTML ではない (そして doctype を持っていない) ため、パーサーは厳密すぎるべきではありません。
python - Python + 散布図 + その他のナンセンス
私は、私が関与しているネットワークから発信された虐待行為の詳細を記したかなりの数の電子メールを週に 1 通受け取ります。これらには通常、次のいずれかが含まれます。
a) 侵害されたとみなされる URL。
また
b) スパムと見なされる電子メールのコピー。
これらのほとんどは自動化されており、通常は ARF にうまく従いません。
必要なのは自動データ抽出ですが、メールの構造が変化して予測できない場合にどうすればよいか分からず、頭を悩ませています。
現時点で抽出しようとしているのは次のとおりです。
a) スパムの送信元メール サーバー (およびほとんどの Exim/Qmail 受信ヘッダーに表示される UID/ユーザー名)
b) ドメイン名
c) 侵害されたサイトの URL
d) メールアドレス
いくつかの正規表現やその他のがらくたを使用して汗をかかずにこれを行うことができますが、基本的に信頼性が低くなります。メール本文を解析すると、5 つの IP、3 つの URL、および 3 つのメール アドレスが得られる可能性があり、最適なものを自動的に選択する方法がわかりません。
正しいデータが何であるかについて最善の自動判断を行うために、何を調査/検索する必要があるかについて、何らかの方向性が必要です。過去のレポート メールは 100,000 件を超えているので、テスト データに不足はありません。この問題を解決するために、どのように開始し、何を調べればよいかを知る必要があります。
これを読んでくれてありがとう。何か見落としていたり、他に質問があれば教えてください :)
参考までに、私は次のことを検討しました。
分類されたこの送信者からの過去のいくつかの電子メールを挿入し、新しい電子メールに対して一連の違いを実行します。python セット + リストを使用していくつかのアルゴリズムをハードコーディングすることを除けば、これを行う最善の方法についてはわかりません。
以前のすべてのデータをさまざまな形式の ScatterPlot/Histogram にプロットします。次に、既存のデータに対して新しい各メールをテストし、グラフ内で最も普及していない詳細を選択することができます. 繰り返しますが、ここでどのライブラリを探すべきかわかりません。
サンプル データを使用して、以前に見た項目に重みを付けます。つまり、1000 の以前のサンプルのページを作成し、決して正しくない IP を「マークダウン」し、正しい可能性のある IP をマークアップするとします。
ホスト名を解決し、アイテムを一緒に一致させるためのソケット ルックアップを含むコードのもつれを記述します。これを実行すると負荷がかかることはわかっていますが、おそらく最良の結果が得られるでしょう。
乾杯!
uml - UML規則を使用してメタモデルを作成し、そこからデータモデルを作成する
質問があいまいに聞こえる場合は申し訳ありません。私はあなたのフィードバックに基づいて改善します。
問題のあるドメインのUMLモデルを作成することができました。これは基本的に、クラス属性とクラス間の集約関係を説明するクラス図です。現在の意図は、データを入力することです。
たとえば、クラスAはクラスBのN個のインスタンスを集約します。Class-Aの1つのインスタンスとClass-Bの5つのインスタンスのデータを持つデータモデルを作成したいと思います。
基本的に、このメタモデルに関連するデータはドキュメント(xls、framemakerなど)で利用可能であり、ソースを読み取ってデータモデルにデータを入力できる必要があります。
このデータモデルを作成できるツールはありますか?お知らせ下さい。
c# - CS での正規表現: データ抽出
次のようなデータがあります。
そして、ニューヨークをそこから抜け出したいのです。
私はこれまで正規表現のスキルを持っていません。私はこれを試しました:
これは私に与えました<a href="/New_York_City" title="New York City">New York</a>
。
<a .*>
との間のデータにどのようにアクセスでき</a>
ますか? ありがとう。
matlab - MATLAB: 構造体からデータを抽出し、カスタム サイズの行列に配置する
車両チャネルからのデータを含むサブレベルを持つ 1x1 構造体を含むファイル filedata.mat があります。このファイルには、30 近くの測定チャネルが含まれています。チャネル名、チャネル単位、およびチャネル値 (対時間) は、個別のサブレベルに格納されます。
どのチャネル (つまり、データのどの列) を列番号で指定し、行 1 にチャネル名、行 2 にチャネル単位を含む行列にデータを配置するコードを作成します。
私が現在持っているコードは以下の通りです:
私の考えでは、これはチャネル名を行 1 (つまり、i = 1 の場合) に配置し、チャネルユニットを行 2 (i = 2 の場合) に配置し、残りのすべてのデータ行を i = I まで配置します。
ただし、このコードを実行すると、「添字付き割り当ての次元が一致しません」というエラーが表示されます。14行目:
誰かが解決策を提案し、おそらくもっと重要なことに、どこが間違っているのかを説明できれば (そうすれば何かを学ぶことができます!)、本当に感謝しています。
前もって感謝します。
java - Java ライブラリを使用して ODT ドキュメントからフィールドを抽出する
ODT ドキュメントのコンテンツからフィールド タグを抽出するには、Java ライブラリ (またはコード) を使用する必要があります。odt はある種の圧縮ファイルであり、その内容は content.xml ファイルに含まれていることは知っています。もちろん、ファイルを抽出して content.xml を開いて解析することもできますが、より高いレベルのコードが存在すると思います。一例として、コンテンツは次のようになります。
フィールドを ${name} と $nome として抽出したいと思います。
そのために Apache Tika を使用できることは知っていますが、実際にフィールド抽出を示す例を見つけていません。これは、使用しているフィールドが入力フィールド タグではなく非構造化テキストであるためだと思います。
前もって感謝します、ダニエル
java - HTML解析(Java / Android)は、それからデータを抽出しますか?これは、Webページのコンテンツを取得する効果的な方法ですか?
そのため、HTMLコード全体を抽出する前に、AndroidJavaでHTTPPOSTリクエストを使用してWebサイトにログインしています。その後、Pattern / Matcher(regex)を使用して、HTMLデータから要素を抽出する前に必要なすべての要素を検索し、不要な要素をすべて削除します。たとえば、これを抽出すると、次のようになります。
それから私は使用します:
ある種のリストに表示する前に、そのサイトから必要なすべてのデータが得られるまで、これを複数回行います。
私は特に何にもこだわっていませんが、これがページからデータを取得して処理するための効果的/効率的/高速な方法であるかどうか、またはこれをより高速に行う方法はありますか?時々、私のプログラムが特定のデータを取得するのに長い時間がかかるように見えるからです(ただし、ほとんどの場合、それは私の電話で3Gを使用しているときです)。