問題タブ [information-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
281 参照

algorithm - アルゴリズム: データベースごとに文字列からキーワードを抽出

たとえば、次の文字列があります。「ザ・ビートルズ - イマジン」 さらに、PostgreSQL にはアーティスト名の膨大なリストがあります。

その文字列を指定して、データベースを使用してアーティストを特定したいと思います。

これを行うための最適で高速なアルゴリズム/テクノロジーを探しています。したがって、データベース内のすべてのレコードを繰り返し処理して部分文字列を探すことはできません。

文字列は "Imagine - The Beatles"、"Imagine, The Beatles" のいずれかです。Youtubeの動画の曲名と同じです。

Solr、ElasticSearch、またはその他のテクノロジーはここで役立ちますか? これについてのオタクのアドバイスが大好きです。

0 投票する
1 に答える
244 参照

text - 電子メールから関連情報を抽出する最良の方法は何ですか?

私の友人は、顧客が電子メールを使用してサービスを注文する小規模なビジネスを経営しています。彼は 1 日に数通のメールを受信し、それを仕分けるのが面倒になってきています。

顧客が依頼できるタスクは約 10 種類あり、それぞれに 1 つか 2 つの単語が指定されています。電子メールに含まれるその他の情報は、サービスが提供される場所、時間、関係者の名前です。電子メールには、かなり標準的な形式の長い番号である ID も含まれています。

電子メールは非常に構造化されていませんが、すべて上記の重要な情報が含まれています。私の質問は、これらの電子メールを一掃し、重要な情報 (サービスの種類、場所、人の名前、ID など) を抽出するための最良の方法は何ですか?

ある種の前処理について考え、それを AlchemyAPI に渡し、各機能 (重要な情報) についてニューラル ネットワークを使用して Alchemy の出力をテストしました。情報が入力されると、誰かに検証してもらうことができるので、いつでもフィードバックループを実行できるため、これは教師あり学習になります。

何か案は?ありがとう

0 投票する
1 に答える
670 参照

itext - iText ライブラリを使用して目次、章、索引の内容を抽出する

iTextライブラリを使用してプログラムで電子ブック(PDF)から目次、章、索引の内容を抽出する方法を教えてもらえますか?

0 投票する
3 に答える
2534 参照

java - Java を使用して cisco/juniper ルーターから情報を取得する

Cisco または Juniper ルーターにログインするには、どのような方法を使用できますか? telnet を使用してルーター自体に接続できることは知っていますが、非対話的にログインできる API などについては知りません。では、どうすればこれを行うことができますか?

これを達成するために使用できるライブラリはありますか?

expectユーザー名とパスワードを送信するタイミングを知るなどの機能を実装するスクリプトを使用している人々を見てきました。しかし、それはシェルスクリプト用です。Javaでこれを行うにはどうすればよいですか? 私もJavaで厳密に保ちたいと思います。

これの目標は、java プログラムがルーターにログインできるようにすることです。これにより、ルーターにインターフェイスの状態を照会し、ルーターでコマンドを実行できるようになります。

何か案は?

0 投票する
2 に答える
11299 参照

python - 英語以外の単語の見出し語化?

見出し語化を適用して、単語の屈折形を減らしたいと思います。英語の場合、WordNet がそのような機能を提供することは知っていますが、オランダ語、フランス語、スペイン語、イタリア語の単語の見出し語化にも興味があります。これについて信頼できる確認された方法はありますか?ありがとうございました!

0 投票する
2 に答える
1431 参照

java - Java への jape ルールの埋め込み (ゲート)

新しい処理リソースを初期化した Java コードで Author (From author,jape) に注釈を付ける独自のルールを作成しようとしています。コードは正常に実行されますが、ma に注釈を付けません。著者として注釈を付け、書籍の名前を一時変数に保存する必要があります。私のJavaコード:

出力では、トークン、スペーストークンのみを提供します誰でも問題を解決するのを手伝ってくれますか?

0 投票する
1 に答える
588 参照

java - Java で Lucene を使用して MAP を計算する


私は lucene (Java 大学プロジェクトで lucene jar を使用) を初めて使用し、知りたいと思っていました

それがインデックス作成を行い、他のいくつかの機能を提供すると仮定します(悲しいこと
に、文書化されていません...)。
どんな助けでも大歓迎です。


明確にするために-
これは大学のプロジェクト用ですが、
ルセン供給の機能はすべて使用できます...

0 投票する
1 に答える
222 参照

java - Java コードで CSV/XML ファイルから追加情報を抽出する

質問があります。

XML ファイル (または CSV ファイル) があります。

追加情報 (たとえば、作成者、説明、作成者、コメント、形式、ContentType など) を Java コードで抽出したいと考えています。

私はこの同様の質問を読みましたが、抽出はExcelファイルからJavaコードへのものです:ポイを使用して作成者名をExcelファイルに設定する方法

入力ファイル名 (test.csv や test.xml など) を指定した場合、追加情報 (System.out.println(getAuthor) など) を出力したいと思います。

誰が私を助けることができます?