問題タブ [text-mining]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
text-mining - $ での正規表現の使用
簡単な質問ですが、 "\$" で正規表現を使用する方法を知っている人はいますか? 基本的には、文字列を解析して、\$ の後に続く数値を見つけたいと考えています (たとえば、「新しいベッド フレームの購入で $50 オフ」)。
algorithm - URLパス類似性/文字列類似性アルゴリズム
私の問題は、URLパスを比較して、それらが類似しているかどうかを推測する必要があることです。以下に、処理するサンプルデータを示します。
レーベンシュタイン距離を比較してみましたが、私にとっては十分に正確ではありません。100%正確なアルゴリズムは必要ありませんが、90%以上は必須だと思います。
ある種の分類子が必要だと思いますが、問題は、新しいデータの各部分に、新しい未知のクラスに分類する必要のあるパスが含まれている可能性があることです。
私を正しい方向に向けていただけませんか。
ありがとう
svm - LSA/SVD を使用した文書分類
サポート ベクター マシン (SVM) を使用してドキュメント分類を行おうとしています。私が持っている書類はメールの集まりです。SVM 分類子をトレーニングするドキュメントが約 3000 個あり、分類が必要なテスト ドキュメント セットが約 700 個あります。
最初に、バイナリ DocumentTermMatrix を SVM トレーニングの入力として使用しました。テスト データを使用した分類では、約 81% の精度が得られました。DocumentTermMatrix は、いくつかのストップワードを削除した後に使用されました。
このモデルの精度を向上させたかったので、LSA/SVD ベースの次元削減を使用して、結果の削減された係数を分類モデルへの入力として使用してみました (元のバッグの 20、50、100、および 200 の特異値で試しました)。 〜3000語)。分類のパフォーマンスは、いずれの場合も悪化しました。(LSA/SVD を使用するもう 1 つの理由は、65 レベルの応答変数の 1 つに関するメモリの問題を解決することでした)。
LSA/SVD 分類のパフォーマンスを向上させる方法について、誰かがいくつかの指針を提供できますか? これは特定のデータやコードのない一般的な質問であることは認識していますが、デバッグを開始する場所について専門家からの情報をいただければ幸いです。
参考までに、テキストの前処理 (パッケージ: tm、snowball、lsa) と分類モデルの構築 (パッケージ: kernelsvm) に R を使用しています。
ありがとうございました。
java - テキストマイニング/解析に推奨できる言語は何ですか?
Webページでテキストマイニングを行っています。現在、私はJavaを使用していますが、私がやりたいことを実行するためのより適切な言語があるかもしれません。
私がやりたいことの例:
単語の文字の種類を、その部分(文字、数字、記号など)に基づいて、アルファベット、数字、英数字、記号など(さらに多くの種類があります)として決定します。
統計に基づいてストップワードを発見します。
統計といくつかの論理に基づいて、いくつかの文法クラス(動詞、名詞、前置詞、結合)を発見します。
私はPrologとRを使うことを考えていました(私はこれらの言語についてあまり知りません)が、それらがこれに適しているのか、あるいはおそらく別の言語がより適切であるのかわかりません。
どちらを使用できますか?Java用の優れたライブラリも大歓迎です。
r - Rテキストファイルとテキストマイニング・・・データの読み込み方
R パッケージを使用しておりtm
、テキスト マイニングを行いたいと考えています。これは 1 つのドキュメントであり、単語の袋として扱われます。
テキスト ファイルをロードする方法と、次のような機能の使用を開始するために必要なオブジェクトを作成する方法に関するドキュメントがわかりません。
したがって、これが私のドキュメントであると仮定すると、「これは R 負荷のテストです」
テキスト処理用のデータをロードしてオブジェクト x を作成するにはどうすればよいですか?
r - R で一般化された反復スケーリングを実行できますか?
さまざまな機械学習アルゴリズムの自社開発プラットフォームを C# から R などのより堅牢なデータ マイニング プラットフォームに移植することを検討しています。R が多くの種類のデータ マイニング タスクに優れていることは明らかですが、テキストの分類に使用できます。
具体的には、テキストからバイグラムのリストを抽出し、それを 15 の異なるカテゴリのいずれかに分類します。
バイグラム一覧: ジュエリー、本、時計、靴、デパート -> カテゴリ: ショッピング
R でモデルをトレーニングするだけでなく、データベースに接続してこれをより大規模に実行したいと考えています。
Rでできますか?
nlp - テキストマイニングの基本的なアルゴリズムは何ですか?
Webからいくつかのテキストをマイニングするためのアプリケーションを実行しようとしていますが、テキストマイニングを実行するための最良の方法がわかりません。
この質問で私が知りたいのは、テキストマイニングを実行し、ドキュメントで情報検索を行うために最もよく使用される手法/アルゴリズム(インデックス作成用ではない)について知っていることです。
r - パッケージtm。kmeansの問題
Rでのk-meansクラスタリングについて質問があります。実際、私はこの記事に従ってすべてを行っています。すべてがtmパッケージ内の例に基づいているため、データのインポートは必要ありません。acqには50のドキュメントと粗い20のドキュメントが含まれています。
私は実際に相互合意マトリックスを作成したいと思います。しかし、この記事は2008年に書かれ、それ以来多くの変更が加えられています。データ機能はRSurveyパッケージでのみ使用できますが、同じかどうかは疑問です。そして、主な問題は、TermDocumentMatrixがS4クラスであり、現在はS3であるということだと思います。私はこれをテキストだけで行う可能性があることを知っています。しかし、TDMではストップワードやパンクなどを削除してより良い結果を得ることができるので、このようにしたいです。だから誰かが素晴らしい解決策を持っているなら。
r - R でテキスト言語を検出する
ツイートのリストがあり、英語のツイートのみを保持したいと考えています。
これどうやってするの?
r - ngram のハッシュ: ドキュメントのフィンガープリント
Rでドキュメントフィンガープリンティング用の選別アルゴリズムを実装しようとしています.
ここで参照http://www.ida.liu.se/~TDDC03/oldprojects/2005/final-projects/prj10.pdf
私の質問:
n-gram のハッシュを取得する方法と、それらを選択する方法