問題タブ [information-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
3 に答える
5581 参照

nlp - テキストから場所を抽出する方法は?

フリー テキストから場所を抽出するための推奨される方法は何ですか?

私が考えることができるのは、「words ... in location」のような正規表現ルールを使用することです。しかし、これよりも優れたアプローチはありますか?

また、国と都市の名前を含むルックアップ ハッシュ テーブル テーブルを用意し、テキストから抽出されたすべてのトークンをハッシュ テーブルのトークンと比較することも考えられます。

より良いアプローチを知っている人はいますか?

編集:ツイートのテキストから場所を抽出しようとしています。したがって、つぶやきの数が多いという問題も、方法の選択に影響を与える可能性があります。

0 投票する
3 に答える
3506 参照

java - 文字列から情報を抽出する Java アルゴリズム

アプリケーションにスマート検索機能を実装しようとしています。ユースケース: ユーザーはテキストボックスに検索語を入力します

例:ブラジル出身の 28 歳のキリスト教徒の男性を見つけてください。

次のように、入力をマップに解析する必要があります。

性別:男性 年齢: 38 場所:ブラジル 宗教:キリスト教徒

OpenNLP、Cross Validate、Java Pattern Matching および Regex、Information Extraction についてはすでに確認済みです。どれを詳しく調べたらいいのか迷っています。

この特定のドメインですでに使用可能なJavaライブラリはありますか?

0 投票する
1 に答える
44 参照

repository - ボットを参照する情報リポジトリの作成

ボットを作成したいと思います。誰かが「!123」と入力すると、ボットはリポジトリで値「123」を検索し、その値で見つかった情報を返します (貼り付けます)。私はこれが普遍的であることを望みます..どこでも使用できることを意味するので、ある種のFirefoxプラグインかもしれません.

どこから始めればよいかについて誰かが情報を提供してくれますか?

私は C# と Java でのプログラミングを理解しています。

追伸 これがある種のスパム ボットになる意図はありません。人々が簡単に参照できるように情報を集めたいだけです。

0 投票する
1 に答える
1160 参照

nlp - ビッグデータにスタンフォード テンポラル タガーを使用するのは適切ですか?

テキストから日付エンティティを抽出するプロジェクトのために、Stanford Temporal Tagger を調査しています。http://nlp.stanford.edu:8080/sutime/processのデモは有望なようです。このライブラリが成熟しているかどうかを理解したいと思います。また、このライブラリがビッグデータでどのように機能するかを理解するのを手伝ってくれる人もいます。また、特にビッグ データの要件に対応する、他の Java ベースのテンポラル タガー ライブラリについてもご案内いただければ助かります。一時的なタグ付けを行う apache プロジェクトはありますか?

私はいくつかのライブラリを見つけました

https://code.google.com/p/heideltime/

https://code.google.com/p/stemptag/

0 投票する
1 に答える
56 参照

database - さまざまなフレーズでの単語の比較

2 つの単語が 2 つの異なるフレーズで同じかどうかを判断する方法はありますか? たとえば、これらの 2 つのフレーズでは、"fat" は "weight" と同じです。

0 投票する
1 に答える
871 参照

lucene - Lucene を使用したフィールド値の抽出

私の問題は、(複数のドキュメントではなく) 1 つのドキュメントのみをテキスト データで解析し、クエリに基づいて関連情報を抽出したいということです。

例: 次のテキストがある場合:

対応する値を持つフィールド (名前、年齢、電子メール) を抽出したい

私が見つけた例の多くは、主にクエリに一致するドキュメントを検索するためのものです。Lucene ライブラリやその他の資料で、Analyzer クラスまたは Query クラスを調べる方法を教えていただければ幸いです。

0 投票する
1 に答える
435 参照

java - テキストのコレクションの部分文字列を抽出する方法は?

PDFドキュメントからテキストを抽出しました。.. Javaを使用して特定のフィールドを抽出したい..

テキストの部分..

US00RE44697E
(i9) 米国
(12) 再発行特許 (10) 特許番号: RE44,697 E
Jones et al. (45) 再発行特許の日付: 2014 年 1 月 7 日
(54) ENCRYPTIONPROCESSORWITH SHARED
MEMORY INTERCONNECT
(75) 発明者: David E.Jones, Ottawa (CA); Cormac
MO'Connell, Carp (CA)
(73) 譲受人: Mosaid Technologies Incorporated,
Ottawa, Ontario (CA)
(21) Appl.No.: 13/603,137
(22) 出願日: 2012 年 9 月 4 日
関連する米国特許文書の
再発行of:
(64) 特許番号:
発行:
Appl. No.:
出願番号:
6,088,800
2000 年 7 月 11 日
09/032,029
1998 年 2 月 27 日
(51) 国際CI。
G06F 21/00 (2013.01)
(52) US CI。
USPC .............713/189; 713/190; 713/193; 380/28;
380/33; 380/52
(58) 分類検索の分野
なし

今、私の使命は、そこからフィールドを抽出し、文字列に与えることです..それは

テキスト(10) Patent Number: RE44,697 Eは次のように抽出されますString pat_no= " RE44,697 E"

テキスト(54) ENCRYPTIONPROCESSORWITH SHARED MEMORY INTERCONNECTは次のように抽出されますString title= "ENCRYPTIONPROCESSORWITH SHARED MEMORY INTERCONNECT"

非常に不規則なテキスト ブロック

(64) 特許番号:
発行:
Appl. No.:
出願番号:
6,088,800
2000 年 7 月 11 日
09/032,029
1998 年 2 月 27 日

として抽出する必要があります

このような..

私の仕事

最初に string.split 、 string.substring 、 string,indexof 、さらには apache string utils を使用しましたが、何も役に立ちませんでした..テキストが散在しているため、上記の方法は役に立ちません..正規表現も試しましたが、非常にそれが苦手でプログラミングができません。

Java を使用して目的を達成する方法を教えてください。