問題タブ [information-extraction]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 電子メールからアドレスを抽出するための Java ライブラリはありますか?
(ドイツ語の) 電子メール (署名) からアドレス情報を抽出できる Java オープンソース ライブラリを探しています。ライブラリは見つける必要があります
- 名前
- 街
- 都市、都市コード/郵便番号
- Eメール
- 電話/ファックス
address-parser.com は商用製品ですが、無料の (シンプルではありますが) ライブラリがあればすばらしいでしょう。
stackoverflow.com/questions/16413/parse-usable-street-address-city-state-zip-from-a-string も同様のことを求めていますが、アドレス情報が完全な電子メールに隠されているため、私の問題はより広範です。また、解決策もありません...
何か案は?
information-extraction - 情報抽出ツールキット
非表示または不完全なデータを含む半構造化情報を取得できる情報抽出ライブラリを探しています。構造に基づいてコンテンツを抽出するようにいくつかの分類子をトレーニングしたいと考えています。
ブラウザーでテキストを選択できるツールの構築に取り組んでおり、他のドキュメントでテキストを引き出すために使用できる分類子を (Web サービス呼び出しを介して) 生成します。
私は主に、コンテンツが何であるかを示すためにドキュメントの構造をどのように使用できるかを調べています。
text - 非構造化テキスト ファイルから人口統計情報と連絡先情報を抽出する
非構造化ドキュメントの大規模なプールから特定のアイテムを抽出しようとしています。これらのドキュメントは、ユーザーによってさまざまな方法でフォーマットされた 1 ~ 5 ページのテキストである可能性がありますが、ほとんどの場合、少なくとも次のものが含まれます。
- 名前
- 住所(物理)
- 電子メールアドレス
- 電話番号
- ウェブサイトのURL
ドキュメントからこれらの要素を抽出して、その情報をリレーショナル データベースにロードし、これらのレコードを連絡先として処理できるセマンティック パーサーを探しています。
私が探した他のサービスは、他の目的には価値がありますが、この特定のニーズに対応していません。
考え、提案、または手がかりはありますか?
web-crawler - クロールされたサイト (ARC ファイル) からのグラフィックの抽出
Heritrix クロールによって生成された ARC ファイルを使用しています。これらのページを Wayback Machine で表示すると、ほとんどのグラフィックがローカル マシンから読み込まれているように見えるので、これらのグラフィックは ARC ファイル内に保存されていると想定しています。あれは正しいですか?もしそうなら、画像を抽出する最良の方法は何ですか?
nlp - 情報抽出を開始するにはどうすればよいですか?
情報抽出に関しては初心者です。過去数日間、私は多くの学術論文を読み、NLP に関する本を注文しました。FlipDog.com のようなシステムを構築する方法を知りたいです (できればゼロからではありません)。彼らは、60,000 を超える企業の Web サイトから求人情報を抽出しています。どうすれば始められますか?
私はあらゆるプログラミング言語を学ぶことにオープンです。Mallet/GATE/MinorThird や RoadRunner を使ったことのある人はいますか? 理想的には、自分のドメインに固有のデータ セットを使用してシステムをトレーニングし、それに基づいて情報を抽出できるようにしたいと考えています。この目的のためにどのプラットフォームをお勧めしますか?
ありがとう!
python - Pythonを使用した医療情報の抽出
私は看護師でPythonを知っていますが、専門家ではなく、DNA配列
を処理するために使用しました。人間の言語で書かれた病院の記録を取得し、これらのデータをデータベースまたはcsvファイルに挿入することになっていますが、5000を超えています行とこれはとても難しいことができます。すべてのデータは一貫した形式で書かれています例を示しましょう
次のデータを取得する必要があります
もう一つの例
そして、私は得る
私が.......で言うとき、順序は一貫していません。したがって、inはキーワードであり、その後のすべてのテキストは、別のキーワードが見つかるまでの場所です
。 ...以下は、コンマ、ハイフンなどの区切り文字に従って分割する必要がある一連の症状ですが、同じ行が死んだ場合でも一貫しています
.....数時間後も、場合によっては何時間かかるはずです。患者はまだ生きていて退院しています....etc
つまり、私たちにはたくさんの慣習があり、キーワードとパターンでテキストをトークン化できれば、仕事を成し遂げることができると思います。したがって、Pythonでそれを行うための便利な関数/モジュール/チュートリアル/ツールを知っている場合はお願いします(Pythonでない場合はGUIツールがいいでしょう)
いくつかの情報:
php - DBpedia 情報抽出フレームワーク
ウィキペディアのデータ抽出を使用したことがある人はいますか? 仕事で使う必要があります。
Web ページから情報を抽出するための他のツールを教えてください。
ありがとう!
lucene - Lucene エンティティ抽出
エンティティ用語の有限辞書が与えられた場合、Lucene を使用してインテリジェントなタグ付けでエンティティ抽出を行う方法を探しています。現在、私は Lucene を次の目的で使用できます:
- あいまいさのある複雑なフレーズの検索
- 結果の強調表示
ただし、次の方法はわかりません:
-一致したフレーズの正確なオフセットを取得する -一致
ごとにエンティティ固有の注釈を付ける (単にすべてのヒットのタグ)
私は Explain() メソッドを使用してみましたが、これはヒットしたクエリの用語のみを提供し、元のテキスト内のヒットのオフセットは提供しません。
誰かが同様の問題に直面していて、潜在的な解決策を喜んで共有していますか?
助けてくれてありがとう!
python - pgpアルゴリズム固有のデータ抽出
これは、pgpキーからアルゴリズム固有の値を抽出する正しい方法でしょうか?DSAとElGamalの最後の値を除くすべてが適切に抽出され、プログラムの残りの部分が台無しになるという奇妙な問題があります。
例:オンラインのどこかから取得したキーがあり、データ(pgpdump.netからダンプされたもの)は次のとおりです。
プログラムの残りの部分を台無しにするy以外のすべてを取得します。yに対して取得する長さは2079です。これは、他のすべてが正しいため意味がありませんが、バイナリデータを見ると、プログラムが間違って読み取っていないため、プログラミングがどこで間違っているのかわかりません。
何か案は?
nlp - OpenCalaisの関連性スコアを理解する
opencalaisが各エンティティに関連付けて返す関連性スコアを理解しようとしていますか?それは何を意味し、どのように解釈されますか?これについての洞察に感謝します。