問題タブ [information-extraction]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
matlab - Matlab でファイルの正しいデータを抽出する
可変ステップサイズ (具体的には、ode113 インテグレーターが使用される) を使用した統合プロセス中に、物体の位置は、時間と共にファイルに保存される加速度によって決定されます (つまり、2 つの列、1 つは時間用、残りは加速度用)。 . ただし、前述のプロセスで統合ステップが失敗したため、加速度データのファイルには、対応する位置データのファイルよりも多くの行があります。加速度データの正しいデータを抽出し、位置データ ファイルと同じ行で新しいファイルを作成するにはどうすればよいですか?
delphi - Webデルファイから情報を抽出するための最良の方法
検索対象のHTMLを解析するよりも、Webページから情報を抽出するためのより良い方法があるかどうかを知りたいです。すなわち:「imdb.com」から映画の評価を抽出する
現在、ページを取得するためにIndyHttpコンポーネントを使用しており、テキストを解析するためにstrUtilsを使用していますが、コンテンツは制限されています。
java - HTML ページからテキスト ブロックを抽出する Java ライブラリ
HTML ページからテキスト ブロックを抽出したいのですが、これを行うためにボイラーパイプを使用しています。ページ内の 1 つのテキストに対しては問題なく機能しますが、ブログなどの一部のページでは、ページ内に複数のテキストが含まれています。
すべてのテキストを抽出したいのですが、それぞれを 1 つだけではなく、個別のテキストとして識別します。
これを行うことができるライブラリはありますか?
編集:私は Jsoup を使用して HTML を解析していますが、解析はしたくありませんが、ボイラーパイプのような情報抽出はページで行います。他の同様のツールをテストしたい。
nlp - 情報抽出、テキスト マイニング、自然言語処理分野の主な著者は?
これはコードに関する質問ではなく、概念に関する質問です。情報抽出、自然言語処理、テキスト マイニングの主な著者/研究者を知りたいので、彼の論文/本/作品を読みたいです。
php - 文字列のセットから製品名を抽出する方法は?(php)
私はPHPベースのショッピングアプリケーションに取り組んでいます。同じ製品を表すことがわかっている文字列のリストがあります。これらの文字列には、完全な製品名またはその一部が含まれている可能性があります(完全な製品名は通常、ブランド+モデルです)。
この製品名の抽出を実行するための最良のアプローチは何でしょうか。
たとえば、同じ製品を表す文字列のリストは次のとおりです。
- Tkg BOUILLOIRE TKG-JK 1008 RWD
- Tkg Jk 1008 Rwd
- Tkg Kalorik-JK1008RWD-BouilloireÉlectriquesansFil360°
- TKGBouilloireélectriquesansfil1.7リットル2000ワットPoisTKGRouge et blanc
- Tkg Kalorik-JK1008RWD-BouilloireÉlectriquesansFil360°
- Tkg JK 1008 RWD BOUILLOIRES
商品名「TkgJK1008RWD」を抽出する予定です。文字列4には部分的な情報しか含まれていないことに注意してください。
すべての文字列で繰り返される単語を数えたときに、アプローチを試しました。しかし、そこから先に進むのは難しい。
手がかりはありますか?
乾杯ニコラス
machine-learning - Appleはどのようにして電子メールの日付、時刻、アドレスを見つけますか?
iOSの電子メールクライアントでは、電子メールに日付、時刻、または場所が含まれている場合、テキストはハイパーリンクになり、リンクをタップするだけで予定を作成したり、地図を表示したりできます。英語のメールだけでなく、他の言語でも機能します。私はこの機能が大好きで、彼らがどのようにそれを行うのかを理解したいと思います。
これを行うための素朴な方法は、多くの正規表現を持ち、それらすべてを実行することです。ただし、これはあまり拡張性がなく、特定の言語や日付形式などでのみ機能します。Appleは、エンティティを抽出するために機械学習の概念を使用している必要があると思います(8:00 PM、8PM、8:00、 0800、20:00、20h、20h00、2000など)。
Appleが電子メールクライアントでエンティティをこれほど迅速に抽出できる方法について何か考えはありますか?そのようなタスクを実行するために、どの機械学習アルゴリズムを適用しますか?
html - Python3.1 を使用して HTML ページからデータを抽出するにはどうすればよいですか?
以下の例に似たものを含む約 1000 ページがディスクにローカルに保存されています。
文字列 Dave を 3 行目から抽出し、それを UserName リストにロードする方法を理解するのに助けが必要です。また、4 行目から 00000001 を抽出し、UserID リストにロードする必要があります。
助けてください、ありがとう...
php - テキストから (国際) 電話番号を抽出する
テキストから国際電話番号を抽出する方法を探しています。
つまり、以下のテキストを入力します。
"このテスト +44 (0) 7961617600 再確認メモ ロンドン駅への移動 (4 月 25 日月) Pax : 45 + 1 BM コーチ確認 +32 (020) 9948 7711 - ゲイナー再確認は 4 月 23 日までに必要です。\n\n確認済み4日目:2011年4月25日(月)(4月24日(日))
出力: +44 (0) 7961617600 +32 (020) 9948 7711
ありがとうございました
nlp - ソーシャル プロファイルからユーザーの関心を抽出する
NLPに手を出すのはこれが初めてなので、私の無知を許してください。ユーザーのソーシャル プロファイルから興味/好み/趣味を抽出する方法を探しています。以下は、すべての興味 / 好き / 趣味が太字になっている例です。
「私は自分自身をかなり多様な性格だと考えています...私は プロレスラーですが、 Wall•Eの弾丸を取るでしょう.私はジムで一人の虐殺機械のように訓練しますが、「ハルマゲドン」で泣きました. 「AC/DCに行きます。ゼルダの伝説のタトゥーを入れることを真剣に考えています。私は 420 に優しいです。ある夜、フラットな群衆とパーティーを開き、私のバーニングマンと一緒に過ごすのが好きです。」次は友達、次はHaloとWorld of Warcraftをプレイ、次は 40 歳未満の友達とジャムセッション. 私の最年少の友達は 16 歳で、最年長の友達は 66 歳です.歌いますバーでカラオケ、そして私は友達の集団精神科医/肩.
プロファイルはプレーン テキストです。それに関連付けられたメタ タグや ID はなく、単なるテキストの段落です。
私の素朴な考えは、各名詞をFreebaseと照合して、それがアクティビティ/アーティスト/映画/本などであるかどうかを確認することでした。 tが好きで、2 を区別する手段がありません。
2 つの質問があります。
- NLP のどのサブフィールドを見ればよいですか? いくつかのグーグル可能なアルゴリズム/テクニック/作者は大歓迎です。
- この問題はどれくらい難しいですか?
ありがとう!
nlp - 自然なテキストで日付への参照を見つける方法は?
私がやりたいことは、生の自然なテキストを解析し、日付を説明するすべてのフレーズを見つけることです。
日付へのすべての参照がマークアップされた、かなり大きなコーパスがあります。
日付フレーズを解釈したくありません。ただ見つけてください。それらが日付であるという事実は関係ありません (実際には日付でさえありませんが、詳細で退屈させたくありません)、基本的には可能な値の制限のないセットです。値自体の文法はコンテキストフリーとして近似できますが、手動で構築するのは非常に複雑であり、複雑さが増すにつれて誤検出を回避することがますます難しくなります。
私はこれが少し遠いショットであることを知っているので、すぐに使えるソリューションがそこに存在するとは思っていませんが、どのような技術や研究を使用できる可能性がありますか?