問題タブ [text-mining]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - UbuntuLucidへのRテキストマイニングパッケージのインストール
Rは初めてで、テキストマイニングパッケージ(tm)をインストールしようとしています。しかし、私がするとき
install.packages( "tm"、dependencies = TRUE)
次のエラーが発生します。
何かご意見は?
前もって感謝します。
r - Rからウィキペディアにアクセスするには?
ウィキペディアにクエリを実行して (おそらく Mediawiki API を使用して)、そのようなクエリに関連する利用可能な記事のリストを取得したり、選択した記事をテキスト マイニング用にインポートしたりできる R 用のパッケージはありますか?
ruby - ライブラリーの使い方
私は、機械学習とテキスト マイニング全般についてかなり初心者です。Liblinear https://github.com/tomz/liblinear-ruby-swigと呼ばれる ruby ライブラリの存在が気になりました。
私がこれまでにやりたいことは、テキストが自転車に関連する何かに言及しているかどうかを識別するようにソフトウェアをトレーニングすることです。
誰かが私が従わなければならない手順(つまり、テキストの前処理とその方法)を強調し、リソースを共有し、理想的には簡単な例を共有して、私を動かすことができますか.
どんな助けでも構いません、ありがとう!
python - 単語を「良い」と「悪い」に分類する
ドメイン名のリストがあり、ドメインの名前がポルノサイトであるかどうかを確認したいと思います。これを行うためのより良い方法は何ですか?ポルノドメインのリストはhttp://dumpz.org/56957/のようになります。このドメインは、ポルノドメインがどのように見えるかをシステムに教えるために使用できます。また、私は他のリストを持っています-http://dumpz.org/56960/-このリストの多くのドメインもポルノであり、名前でそれらを決定したいと思います。
python - テキストマイニングのための関係をマッピングするためのウィキペディアのマイニング
ウィキペディアをクロールして関係を見つけ、それをデータベースに保存できる Web ベースのアプリケーションを開発することを計画しています。関係とは、「ビル・ゲイツ」という名前を検索して彼のページを見つけ、それをダウンロードし、ページからさまざまな情報を引き出してデータベースに保存することを意味します。情報には、彼の生年月日、彼の会社、およびその他のいくつかのものが含まれる場合があります。しかし、データベースに保存できるように、ページからこれらの一意のデータを見つける方法があるかどうかを知る必要があります。特定の本やアルゴリズムは大歓迎です。また、優れたオープンソース ライブラリについて言及することも役立ちます。
ありがとうございました
regex - PDFファイルから住所を抽出する
非構造化PDFドキュメント(手紙など)から住所情報を抽出する作業に役立つライブラリ/ツールキットはありますか?そうでない場合、このタスクにどのようにアプローチしますか?
オープンソースのPDFライブラリを使用して正規表現パターンで情報を検索することを考えましたが、この単純なアプローチでアドレスを確実に特定できるかどうかはわかりません。残念ながら、私が参加したデータマイニングコースはテキストマイニングには触れておらず、高度に構造化されたデータのみを扱っていました。自然言語処理に取り組んでいる人が、便利なライブラリやツールキットを知っているかもしれません。
nlp - 潜在ディリクレ配分と文書クラスタリングの関係
潜在的ディリクレ配分 (LDA) とドキュメント クラスタリングの一般的なタスクとの関係を明らかにしたいと思います。
LDA 分析は、各ドキュメントのトピックの比率を出力する傾向があります。私の理解が正しければ、これはドキュメント クラスタリングの直接の結果ではありません。ただし、この確率比率を各ドキュメントの特徴表現として扱うことができます。その後、LDA 分析によって生成された機能構成に基づいて、他の確立されたクラスタリング方法を呼び出すことができます。
私の理解は正しいですか?ありがとう。
r - R テキスト マイニング パッケージ: 新しいドキュメントを既存のコーパスに組み込むことができます
Rのテキストマイニングパッケージに次の機能がある可能性があるかどうか疑問に思っていました:
理想的には、既存のコーパスに追加のドキュメントを組み込みたいと考えています。
どんな助けでも大歓迎です
nlp - 純粋な統計、または自然言語処理エンジン?
OpenNLPツールスイートよりも優れた結果をもたらす統計エンジンは何ですか?私が探しているのは、テキストからキーワードを選択し、それらの動詞と名詞の語幹を提供するエンジンです。おそらく、自然言語処理はここに行く方法ではありません。エンジンはさまざまな言語でも動作するはずです。
r - コントロールリストに辞書を含むRテキストマイニングパッケージDocumentTermMatrixは、メモリを大量に消費します
DocumentTermMatrix(myCorpus, control=list(dictionary=myDict))
私はそれがはるかに多くのメモリを消費することに気づきましたDocumentTermMatrix(myCorpus)
なぜこうなった?
リードはありますか?
コードスニペットは次のとおりです。
今ここに私の質問があります:
メモリリークとバグの可能性があると思います。