問題タブ [information-extraction]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
math - 情報抽出を開始するには?
情報抽出を開始して非常に優れたものになるためのトレーニングパスをお勧めします. 私は趣味のプロジェクトの 1 つを行うためにそれについて読み始めましたが、すぐに数学 (代数、統計、確率論) が得意である必要があることに気付きました。さまざまな数学のトピックに関する入門書をいくつか読みました (そしてとても楽しいです)。いくつかのガイダンスを探しています。助けてください。
更新:コメントの1つに答えるだけです。私はテキスト情報抽出にもっと興味があります。
parsing - 情報検索/テキストマイニングアプリケーションまたはライブラリを探しています
フライト、レンタカー、ホテルなど、さまざまな情報をメールから抽出します。この方法は、メールの本文を抽出することです。通常はHTML形式ですが、テキストである場合や、PDF / Word/RTF添付ファイルの情報を使用する場合もあります。次に、表形式(フライトテーブル、ホテルテーブルなど)で提供される情報を取得するために、正規表現を(場合によってはいくつかのステップで)適用します。HTMLを解析しますが、これはWebスクレイピングではないことに注意してください。
現在、QL2のWebQLエンジンを使用していますが、ビジネス上の理由から置き換えることを検討しています。別のエンジンでお勧めできますか?Linuxで実行され、Javaからアクセスできる必要があります(Java APIが最適ですが、Webサービスも優れたソリューションです)。また、HTML構造に基づくだけでなく、テキスト抽出の正規表現をサポートする必要があります。
date - 日付抽出ライブラリ
テキストの本文で日付と時刻を抽出するライブラリが周りにあるかどうか誰かが知っていますか?どの言語でもかまいません。私はただ遊ぶためのライブラリを探しています。
html-parsing - JavaScript を含むレンダリングされた Web ページを解析する方法
レンダリングされた Web ページからデータを抽出するにはどうすればよいでしょうか? どの Java スクリプトで、時間とともにデータを更新しますか。Web ページの Java スクリプトから変数にアクセスできるユーザー スクリプトを作成することはできますか? これを達成するための可能な方法を提案してください。
python - Pythonを使用したPDF解析-フォーマットされたテキストとプレーンテキストの抽出
PDFドキュメントからテキストを抽出できるPDFライブラリを探しています。私はPyPDFを見てきましたが、これによりPDFドキュメントからテキストを非常にうまく抽出できます。これに伴う問題は、ドキュメントにテーブルがある場合、テーブル内のテキストがドキュメントテキストの残りの部分と一致して抽出されることです。これは、役に立たず、文字化けしているように見えるテキストのセクションを生成するため、問題になる可能性があります(たとえば、多数の数字がマッシュアップされます)。
表や特別なフォーマットを除いて、PDFドキュメントからテキストを抽出したいと思います。これを行うライブラリはありますか?
metadata - 名前付きエンティティの認識に条件付きランダム フィールドを使用する
条件付き確率場とは?Conditional Random Fieldは、構造化テキストまたは非構造化テキスト内の人物、組織、または場所として固有名を正確にどのように識別しますか?
例: この製品は、StackOverFlow Inc. によって注文されました。
StackOverFlow Inc. を組織として識別するために、Conditional Random Field は何をしますか?
ruby - Ruby/Mechanize (および Nokogiri) を使用して HTML から単一の文字列を抽出する
フォーラムからデータを抽出しています。に基づく私のスクリプトは正常に動作しています。ここで、単一の投稿から日付と時刻 (2009 年 12 月 21 日 20:39) を抽出する必要があります。私はそれを働かせることができません。FireXPath を使用して xpath を特定しました。
サンプルコード:
私の試みはすべて空の文字列またはエラーで終了します。
Mechanize 内で Nokogiri を使用する方法に関するドキュメントが見つかりません。Mechanize のドキュメントには、ページの下部に次のように記載されています。
Mechanize を使用してスクレイピングする必要があるページに移動した後、Nokogiri メソッドを使用してスクレイピングします。
しかし、どのような方法ですか?サンプルと説明された構文でそれらについてどこで読むことができますか? Nokogiri のサイトでも何も見つかりませんでした。
php - SGML を解析して PHP 配列に格納する
これを手伝うことができれば、あなたは天才です。
基本的に、次のようなテキストがあります。
したがって、全体として、次のような親子階層があります。
この情報をすべて解析して、表示される順序を維持しながらphp配列/オブジェクト/変数に保存する方法を考えていますか? たとえば、<parent wealthy>
上に表示<parent poor>
された場合は同じ順序に保ちたいのですが、<children male>
前に表示された場合も同じです<children female>
。
これはほぼ完全に有効な XML であり、SimpleXML を使用して解析できますが、問題は、子の名前がどのタグにも表示されず、クライアントが使いやすさのためにこの方法を維持したいということです。例えば:
ここで「jane」はタグの外側に<hobbies>
表示され、いくつかのタグの間に表示されます。
これはどのように解析できますか?アドバイスをお願いします。正規表現の使用を提案する場合は、回答を受け入れるために使用できる正規表現を指定してください。私は正規表現を知りません。
ありがとう。
編集: 主な問題は、クライアントが通常のテキストとタグ内のテキストを混在させたいことです。例えば:
それはどのように解析できますか?
java - Java 用メディア情報エクストラクタ
一般的なメディア形式を処理できるメディア情報抽出ライブラリ (純粋な Java または JNI ラッパー) が必要です。主に動画ファイルに使用しており、少なくとも次の情報が必要です。
- ビデオの長さ (ランタイム)
- ビデオのビットレート
- 動画のフレームレート
- ビデオ形式とコーデック
- 動画サイズ(幅×高さ)
- オーディオチャンネル
- 音声フォーマット
- オーディオのビットレートとサンプリング レート
周りにはいくつかのライブラリとツールがありますが、Java 用のものは見つかりませんでした。
ruby - Rubyを使用してテキストから日付を解析する
Rubyを使用して非構造化テキストから日付を抽出する方法を理解しようとしています。
たとえば、この文字列から日付を解析したいと思います。「2010年2月1日午前0時(EST)以降に開始されたアプリケーションは考慮されません。」
助言がありますか?