“information-extraction”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

190 参照

matlab - Matlab でファイルの正しいデータを抽出する

可変ステップサイズ (具体的には、ode113 インテグレーターが使用される) を使用した統合プロセス中に、物体の位置は、時間と共にファイルに保存される加速度によって決定されます (つまり、2 つの列、1 つは時間用、残りは加速度用)。 . ただし、前述のプロセスで統合ステップが失敗したため、加速度データのファイルには、対応する位置データのファイルよりも多くの行があります。加速度データの正しいデータを抽出し、位置データファイルと同じ行で新しいファイルを作成するにはどうすればよいですか?

2012-01-08T23:43:27.730

0 投票する

6 に答える

4982 参照

delphi - Webデルファイから情報を抽出するための最良の方法

検索対象のHTMLを解析するよりも、Webページから情報を抽出するためのより良い方法があるかどうかを知りたいです。すなわち：「imdb.com」から映画の評価を抽出する

現在、ページを取得するためにIndyHttpコンポーネントを使用しており、テキストを解析するためにstrUtilsを使用していますが、コンテンツは制限されています。

delphi parsing html-content-extraction information-extraction

2012-01-13T00:03:43.763

0 投票する

3 に答える

1268 参照

java - HTML ページからテキストブロックを抽出する Java ライブラリ

HTML ページからテキストブロックを抽出したいのですが、これを行うためにボイラーパイプを使用しています。ページ内の 1 つのテキストに対しては問題なく機能しますが、ブログなどの一部のページでは、ページ内に複数のテキストが含まれています。

すべてのテキストを抽出したいのですが、それぞれを 1 つだけではなく、個別のテキストとして識別します。

これを行うことができるライブラリはありますか？

編集:私は Jsoup を使用して HTML を解析していますが、解析はしたくありませんが、ボイラーパイプのような情報抽出はページで行います。他の同様のツールをテストしたい。

java html text information-extraction

2012-01-20T12:31:16.133

0 投票する

5 に答える

442 参照

nlp - 情報抽出、テキストマイニング、自然言語処理分野の主な著者は?

これはコードに関する質問ではなく、概念に関する質問です。情報抽出、自然言語処理、テキストマイニングの主な著者/研究者を知りたいので、彼の論文/本/作品を読みたいです。

nlp text-mining information-extraction

2012-02-02T02:04:48.100

0 投票する

4 に答える

1596 参照

php - 文字列のセットから製品名を抽出する方法は？（php）

私はPHPベースのショッピングアプリケーションに取り組んでいます。同じ製品を表すことがわかっている文字列のリストがあります。これらの文字列には、完全な製品名またはその一部が含まれている可能性があります（完全な製品名は通常、ブランド+モデルです）。

この製品名の抽出を実行するための最良のアプローチは何でしょうか。

たとえば、同じ製品を表す文字列のリストは次のとおりです。

Tkg BOUILLOIRE TKG-JK 1008 RWD
Tkg Jk 1008 Rwd
Tkg Kalorik-JK1008RWD-BouilloireÉlectriquesansFil360°
TKGBouilloireélectriquesansfil1.7リットル2000ワットPoisTKGRouge et blanc
Tkg Kalorik-JK1008RWD-BouilloireÉlectriquesansFil360°
Tkg JK 1008 RWD BOUILLOIRES

商品名「TkgJK1008RWD」を抽出する予定です。文字列4には部分的な情報しか含まれていないことに注意してください。

すべての文字列で繰り返される単語を数えたときに、アプローチを試しました。しかし、そこから先に進むのは難しい。

手がかりはありますか？

乾杯ニコラス

php string extract text-extraction information-extraction

2012-02-03T18:28:57.583

0 投票する

6 に答える

25383 参照

machine-learning - Appleはどのようにして電子メールの日付、時刻、アドレスを見つけますか？

iOSの電子メールクライアントでは、電子メールに日付、時刻、または場所が含まれている場合、テキストはハイパーリンクになり、リンクをタップするだけで予定を作成したり、地図を表示したりできます。英語のメールだけでなく、他の言語でも機能します。私はこの機能が大好きで、彼らがどのようにそれを行うのかを理解したいと思います。

これを行うための素朴な方法は、多くの正規表現を持ち、それらすべてを実行することです。ただし、これはあまり拡張性がなく、特定の言語や日付形式などでのみ機能します。Appleは、エンティティを抽出するために機械学習の概念を使用している必要があると思います（8:00 PM、8PM、8:00、 0800、20：00、20h、20h00、2000など）。

Appleが電子メールクライアントでエンティティをこれほど迅速に抽出できる方法について何か考えはありますか？そのようなタスクを実行するために、どの機械学習アルゴリズムを適用しますか？

machine-learning nlp information-extraction named-entity-recognition

2012-02-15T14:12:06.940

0 投票する

2 に答える

1311 参照

html - Python3.1 を使用して HTML ページからデータを抽出するにはどうすればよいですか?

以下の例に似たものを含む約 1000 ページがディスクにローカルに保存されています。

文字列 Dave を 3 行目から抽出し、それを UserName リストにロードする方法を理解するのに助けが必要です。また、4 行目から 00000001 を抽出し、UserID リストにロードする必要があります。

助けてください、ありがとう...

html python-3.x information-extraction

2012-02-23T02:26:39.323

0 投票する

1 に答える

121 参照

php - テキストから (国際) 電話番号を抽出する

テキストから国際電話番号を抽出する方法を探しています。

つまり、以下のテキストを入力します。

"このテスト +44 (0) 7961617600 再確認メモロンドン駅への移動 (4 月 25 日月) Pax : 45 + 1 BM コーチ確認 +32 (020) 9948 7711 - ゲイナー再確認は 4 月 23 日までに必要です。\n\n確認済み4日目：2011年4月25日（月）（4月24日（日））

出力: +44 (0) 7961617600 +32 (020) 9948 7711

ありがとうございました

php regex information-extraction

2012-03-01T16:13:05.273

0 投票する

1 に答える

739 参照

nlp - ソーシャルプロファイルからユーザーの関心を抽出する

NLPに手を出すのはこれが初めてなので、私の無知を許してください。ユーザーのソーシャルプロファイルから興味/好み/趣味を抽出する方法を探しています。以下は、すべての興味 / 好き / 趣味が太字になっている例です。

「私は自分自身をかなり多様な性格だと考えています...私は プロレスラーですが、 Wall•Eの弾丸を取るでしょう.私はジムで一人の虐殺機械のように訓練しますが、「ハルマゲドン」で泣きました. 「AC/DCに行きます。ゼルダの伝説のタトゥーを入れることを真剣に考えています。私は 420 に優しいです。ある夜、フラットな群衆とパーティーを開き、私のバーニングマンと一緒に過ごすのが好きです。」次は友達、次はHaloとWorld of Warcraftをプレイ、次は 40 歳未満の友達とジャムセッション. 私の最年少の友達は 16 歳で、最年長の友達は 66 歳です.歌いますバーでカラオケ、そして私は友達の集団精神科医/肩.

プロファイルはプレーンテキストです。それに関連付けられたメタタグや ID はなく、単なるテキストの段落です。

私の素朴な考えは、各名詞をFreebaseと照合して、それがアクティビティ/アーティスト/映画/本などであるかどうかを確認することでした。 tが好きで、2 を区別する手段がありません。

2 つの質問があります。

NLP のどのサブフィールドを見ればよいですか? いくつかのグーグル可能なアルゴリズム/テクニック/作者は大歓迎です。
この問題はどれくらい難しいですか？

ありがとう！

nlp machine-learning extraction information-extraction

2012-03-04T03:30:11.730

0 投票する

2 に答える

4889 参照

nlp - 自然なテキストで日付への参照を見つける方法は?

私がやりたいことは、生の自然なテキストを解析し、日付を説明するすべてのフレーズを見つけることです。

日付へのすべての参照がマークアップされた、かなり大きなコーパスがあります。

日付フレーズを解釈したくありません。ただ見つけてください。それらが日付であるという事実は関係ありません (実際には日付でさえありませんが、詳細で退屈させたくありません)、基本的には可能な値の制限のないセットです。値自体の文法はコンテキストフリーとして近似できますが、手動で構築するのは非常に複雑であり、複雑さが増すにつれて誤検出を回避することがますます難しくなります。

私はこれが少し遠いショットであることを知っているので、すぐに使えるソリューションがそこに存在するとは思っていませんが、どのような技術や研究を使用できる可能性がありますか?

nlp machine-learning information-extraction named-entity-recognition temporal

2012-03-12T22:21:06.277

問題タブ [information-extraction]

Reference