問題タブ [text-mining]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
4 に答える
1527 参照

parsing - 情報検索/テキストマイニングアプリケーションまたはライブラリを探しています

フライト、レンタカー、ホテルなど、さまざまな情報をメールから抽出します。この方法は、メールの本文を抽出することです。通常はHTML形式ですが、テキストである場合や、PDF / Word/RTF添付ファイルの情報を使用する場合もあります。次に、表形式(フライトテーブル、ホテルテーブルなど)で提供される情報を取得するために、正規表現を(場合によってはいくつかのステップで)適用します。HTMLを解析しますが、これはWebスクレイピングではないことに注意してください。

現在、QL2のWebQLエンジンを使用していますが、ビジネス上の理由から置き換えることを検討しています。別のエンジンでお勧めできますか?Linuxで実行され、Javaからアクセスできる必要があります(Java APIが最適ですが、Webサービスも優れたソリューションです)。また、HTML構造に基づくだけでなく、テキスト抽出の正規表現をサポートする必要があります。

0 投票する
2 に答える
3342 参照

python - NLTKの他に、Pythonに最適な情報検索ライブラリは何ですか?

インターネット上のドキュメントの分析に使用します。

0 投票する
2 に答える
7860 参照

python - PythonでPDFファイルをテキストマイニングしますか?

PDFを開いて特定の単語のテキストを検索できるようにするpython用のパッケージ/ライブラリはありますか?

0 投票する
7 に答える
215147 参照

math - 「エントロピーと情報獲得」とは何ですか?

私はこの本(NLTK)を読んでいて、混乱しています。 エントロピーは次のように定義されます:

エントロピーは、各ラベルの確率と同じラベルの対数確率の合計です。

テキストマイニングの観点からエントロピー最大エントロピーを適用するにはどうすればよいですか?誰かが私に簡単で単純な例(視覚的)を教えてもらえますか?

0 投票する
3 に答える
2600 参照

hex - HEX パターンと出現回数を調べる

パターンを見つけて、所有している HEX ファイルの出現回数で並べ替えたいと思います。

私は特定のパターンを探しているのではなく、そこで起こっている出来事の統計を作成して並べ替えるだけです。

これは HEX ファイルの抜粋です。例として、以下を取得したいと思います。

BDBDBDのXX回の発生

B93DのXX回の出現

ファイルをマイニングしてその出力を生成する方法はありますか?

0 投票する
1 に答える
2092 参照

python - Python内のPerl?

Python 内からアクセスしたい Perl ライブラリがあります。どのように使用できますか?

参考までに、ソフトウェアはNCleanerです。HTML文字列をテキストに変換するためにPython内から使用したいと思います。(はい、私は aaronsw の Python html2text について知っています。ボイラープレートを削除するため、NCleaner の方が優れています。)

Perl プログラムをスクリプトとして実行して繰り返し呼び出したくありません。最初の読み込み時間が長く、何度も呼び出しているからです。

0 投票する
5 に答える
441 参照

text-processing - タームクラスタリングライブラリ?

クラスタリングという用語を使用するオープンソースの無料ライブラリを知っている人はいますか?

ありがとう、ヤニフ

0 投票する
6 に答える
1113 参照

text - テキストマイニングライブラリまたは言語ライブラリ?

私が所有するフォーラムから収集した大量のデータがあり、テキスト マイニングを行うか、言語ライブラリを使用して有用な情報を抽出したいと考えています。

任意のテキスト マイニング、任意の言語のデータ マイニング ライブラリで十分です。

ありがとうございました。

0 投票する
1 に答える
348 参照

php - 任意のHTMLページから有用なデータを抽出しますか?

htmlページを解析し、他の同様のページと比較して一意のデータを抽出できるrubyまたはphpのライブラリはありますか?...ある種のテキストマイニングを使用して、ノイズや繰り返しの可能性が高いテキストを特定する必要があります。テキストはよりユニークで便利です...

0 投票する
1 に答える
2879 参照

.net - .Netを用いたテキストマイニング、事実抽出、意味解析

.NET アプリケーションでテキスト マイニング、ファクト抽出、セマンティック分析を利用できる無料のツール/コンポーネント/ライブラリを探しています。

GATEプロジェクトは私が必要としているものですが、Java で書かれています。.NET の世界に GATE のようなものはありますか?

私の課題は、Web サイトのテキスト コンテンツから特定の事実を抽出することです。このような機能を実現するためにいくつかの NLP アルゴリズムを使用する予定ですが、それらをどのように実装すればよいか分からないため、既存のソリューションが利用可能であればそれを使用します。

ヒントを教えていただければ幸いです。私はこの分野では初めてなので、関連する情報は私にとって非常に役立ちます。