問題タブ [text-mining]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
parsing - 情報検索/テキストマイニングアプリケーションまたはライブラリを探しています
フライト、レンタカー、ホテルなど、さまざまな情報をメールから抽出します。この方法は、メールの本文を抽出することです。通常はHTML形式ですが、テキストである場合や、PDF / Word/RTF添付ファイルの情報を使用する場合もあります。次に、表形式(フライトテーブル、ホテルテーブルなど)で提供される情報を取得するために、正規表現を(場合によってはいくつかのステップで)適用します。HTMLを解析しますが、これはWebスクレイピングではないことに注意してください。
現在、QL2のWebQLエンジンを使用していますが、ビジネス上の理由から置き換えることを検討しています。別のエンジンでお勧めできますか?Linuxで実行され、Javaからアクセスできる必要があります(Java APIが最適ですが、Webサービスも優れたソリューションです)。また、HTML構造に基づくだけでなく、テキスト抽出の正規表現をサポートする必要があります。
python - NLTKの他に、Pythonに最適な情報検索ライブラリは何ですか?
インターネット上のドキュメントの分析に使用します。
python - PythonでPDFファイルをテキストマイニングしますか?
PDFを開いて特定の単語のテキストを検索できるようにするpython用のパッケージ/ライブラリはありますか?
hex - HEX パターンと出現回数を調べる
パターンを見つけて、所有している HEX ファイルの出現回数で並べ替えたいと思います。
私は特定のパターンを探しているのではなく、そこで起こっている出来事の統計を作成して並べ替えるだけです。
これは HEX ファイルの抜粋です。例として、以下を取得したいと思います。
BDBDBDのXX回の発生
B93DのXX回の出現
ファイルをマイニングしてその出力を生成する方法はありますか?
python - Python内のPerl?
Python 内からアクセスしたい Perl ライブラリがあります。どのように使用できますか?
参考までに、ソフトウェアはNCleanerです。HTML文字列をテキストに変換するためにPython内から使用したいと思います。(はい、私は aaronsw の Python html2text について知っています。ボイラープレートを削除するため、NCleaner の方が優れています。)
Perl プログラムをスクリプトとして実行して繰り返し呼び出したくありません。最初の読み込み時間が長く、何度も呼び出しているからです。
text-processing - タームクラスタリングライブラリ?
クラスタリングという用語を使用するオープンソースの無料ライブラリを知っている人はいますか?
ありがとう、ヤニフ
text - テキストマイニングライブラリまたは言語ライブラリ?
私が所有するフォーラムから収集した大量のデータがあり、テキスト マイニングを行うか、言語ライブラリを使用して有用な情報を抽出したいと考えています。
任意のテキスト マイニング、任意の言語のデータ マイニング ライブラリで十分です。
ありがとうございました。
php - 任意のHTMLページから有用なデータを抽出しますか?
htmlページを解析し、他の同様のページと比較して一意のデータを抽出できるrubyまたはphpのライブラリはありますか?...ある種のテキストマイニングを使用して、ノイズや繰り返しの可能性が高いテキストを特定する必要があります。テキストはよりユニークで便利です...
.net - .Netを用いたテキストマイニング、事実抽出、意味解析
.NET アプリケーションでテキスト マイニング、ファクト抽出、セマンティック分析を利用できる無料のツール/コンポーネント/ライブラリを探しています。
GATEプロジェクトは私が必要としているものですが、Java で書かれています。.NET の世界に GATE のようなものはありますか?
私の課題は、Web サイトのテキスト コンテンツから特定の事実を抽出することです。このような機能を実現するためにいくつかの NLP アルゴリズムを使用する予定ですが、それらをどのように実装すればよいか分からないため、既存のソリューションが利用可能であればそれを使用します。
ヒントを教えていただければ幸いです。私はこの分野では初めてなので、関連する情報は私にとって非常に役立ちます。