問題タブ [information-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1299 参照

java - 文字列から測定値を抽出するJava正規表現

会社のオンライン ストアの製品 Web ページの作成を部分的に自動化するために、短く不均一な製品説明からデータを抽出しようとしています。残念ながら、説明は統一されていません。このサイトのおかげで、私は正規表現について十分に学び、それを公正に突き刺すことができました.

商品の採寸方法で、こちらが不合格の試験です。

w. This product is 68 cm by 22 cm by 73 cm -- Length: 68 cm Width: 73 cm Height:

しかし、この非常によく似たテストは失敗しません。なんで?

x. This product is 68 cm x 22 cm x 73 cm -- Length: 68 cm Width: 22 cm Height: 73 cm

これがテストクラスです。正規表現の初心者として、私はそれを非常に効率的に行っていないと確信しているので、効率に関する提案は素晴らしいでしょう. 他に失敗したテスト ケースがあれば教えてください。

0 投票する
1 に答える
263 参照

ruby - ウェブマスターの連絡先の詳細を見つけるためのスクリプト

現在取り組んでいる夏のプロジェクトの一環として、特定のサイトのウェブマスターの連絡先電子メール アドレスの取得を自動化するスクリプトを作成することに関心があります。誰かが私を始めるために私に指示できる情報はありますか? 研究論文、同様のアプリケーションのソース コードなどです。現在、Manning、Raghavan、および Schutz による「Introduction to Information Retrieval」を読んでいます。この作業は、より大きな情報抽出プロジェクトの一部であるためです。検索システム。そうそう、それがさらに助けになるなら、Ruby でこれらのシステムを書くつもりです。ありがとう。

0 投票する
3 に答える
478 参照

algorithm - 検索語を解析して価値のある情報を抽出するパーサー

ユーザーの用語を理解したいです。誰かが「Staples in NY」を検索しているとします。これは、キーワードが主食で場所がニューヨークの場所検索であることを理解したいと思います。同様に、誰かが「cat in hat」と入力した場合、パーサーはそれを位置検索としてフラグ付けするべきではありません。ここでは、キーワード全体が「cat in hat」です。検索用語を解析し、その比較 (A と B など) またはロケーション ベースの検索 (X の A など) を理解するために利用できるアルゴリズムまたはオープン ソース ライブラリはありますか?

0 投票する
2 に答える
9255 参照

python - DBPedia を使用する Python スクリプトの例?

いくつかの国と言語からの何千ものニュース記事のコレクションから「エンティティ名」を抽出する Python スクリプトを作成しています。

たとえば、「エジプトのアーティスト」の名前と「カナダの会社」の名前を検索するなど、DBPediaの驚くべき構造化された知識を利用したいと思います。

(これらの情報が SQL 形式であれば、何の問題もありませんでした。)

DBPedia コンテンツをダウンロードして、オフラインで使用したいと考えています。そのために必要なものと、python からローカルでクエリを実行する方法についてのアイデアはありますか?

0 投票する
3 に答える
1460 参照

nlp - トピックの発見/発見に最適なモデル

構造化されていない短いドキュメント内のトピックスポッティングに最適なモデルは何ですか? SMS または Twitter メッセージ?潜在的ディリクレ配分?

0 投票する
4 に答える
848 参照

c# - アルゴリズム: Web ページのタグの分析

ここ数日、あるプロジェクトに取り組んでいますが、このプロジェクトには、実際にはどうすればよいかわからないタスクがあります。このプロジェクトには、Web ページを分析して、ページを特徴付けるタグを見つけることが含まれています。

やあ相棒、タグとはどういう意味ですか? タグとは、Web ページの内容を要約したキーワードのことです。たとえば、ここで SO に自分のタグを書いて、人々が自分の質問をよりよく見つけられるようにします。私が話しているのは、Web ページを分析してページ内のテキストからタグを見つけるアルゴリズムを構築することです。

ページからテキストを取得することから始めました->完了

一般的に、ウェブページの内容を結論付けるキーワードを見つける方法を探しています

しかし、私は次に何をすべきか本当に知りません。誰か提案がありますか?

0 投票する
1 に答える
152 参照

annotations - ユーザー定義ドメイン モデルのセマンティック アノテーションのフレームワーク

私はいくつかのドキュメントといくつかの概念のオントロジーを持っています。これらの概念を特定のドキュメントから自動的に抽出してトリプルを作成するフレームワークはありますか? オントロジーには特別なプロパティが含まれている必要がありますか?

UIMA を見つけましたが、UIMA について理解している限り、次のようなことしかできません。

  • オントロジーとの関連付けを保持するいくつかの辞書を作成する
  • この辞書を ConceptMapper で使用する
  • トリプルを作成して永続化する CAS コンシューマーを作成します。

オントロジーと辞書の概念を同期させなければならないので、私はこのアプローチが好きではありません。

UIMA を別の方法で使用できますか、またはオントロジーを直接使用していくつかのカスタム プロパティを入力として使用し、それに基づいてドキュメントに注釈を付けることができる高度なフレームワークはありますか?

オントロジーをドメイン モデルとして使用したいのは、知識ベースをさらに作成したいからであり、オントロジーはたとえばリレーショナル モデルよりも柔軟に見えるからです。ありがとう。

0 投票する
1 に答える
1084 参照

c# - テンプレートを使用してテキストからデータを抽出する

多数のCRMシステムから電子メールを受信するWebサービスを構築しています。電子メールには通常、「受信済み」や「完了」などのテキストステータスと、フリーテキストのコメントが含まれています。

受信メールの形式は異なります。たとえば、一部のシステムではステータスを「ステータス:ZZZZZ」と呼び、一部のシステムでは「アクション:ZZZZZ」と呼びます。フリーテキストは、ステータスの前と後の何かに表示されることがあります。ステータスコードは私のシステム解釈にマッピングされ、コメントも必要です。

さらに、フォーマットは時間の経過とともに変化するので、おそらく顧客がWebインターフェイスを介して独自のテンプレートを提供することによって構成可能なソリューションが理想的であると思います。

このサービスは.NETC#MVC 3を使用して構築されていますが、一般的な戦略だけでなく、特定のライブラリ/ツール/アプローチにも興味があります。

私はRegExpに頭を悩ませたことはありません。それが実際に進むべき道である場合に備えて、私は新たな努力をします。:)

0 投票する
2 に答える
3799 参照

machine-learning - テキストからアクションを抽出するためのNLP

誰かが私を正しい方向に向けて、一連のテキストからアクションを分離することについて学ぶことができることを願っています。

私がこのテキストを持っているとしましょう

私はそれを分割させようとしています

特にアクションベースの検索では、何も見つかりませんでした。たとえば、2番目の項目に「go」、「pick-up」、「get」があるなど、1つのアクションに関連付けられることがある複数の動詞があるため、動詞を選択するよりも賢くする必要がありますが、それはすべて一部です単一のアクションの。もちろん、「ティムの飛行」は、動詞がセグメントの終わりに向かってくる、現在分詞での行動を示唆するだけです。

この種のことをどこで行うべきかについての提案はありますか?注意点、推奨読書など。