“text-mining”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

1641 参照

r - UbuntuLucidへのRテキストマイニングパッケージのインストール

Rは初めてで、テキストマイニングパッケージ（tm）をインストールしようとしています。しかし、私がするとき

install.packages（ "tm"、dependencies = TRUE）

次のエラーが発生します。

何かご意見は？

前もって感謝します。

r text-mining

2011-05-18T00:52:28.027

0 投票する

3 に答える

5807 参照

r - Rからウィキペディアにアクセスするには?

ウィキペディアにクエリを実行して (おそらく Mediawiki API を使用して)、そのようなクエリに関連する利用可能な記事のリストを取得したり、選択した記事をテキストマイニング用にインポートしたりできる R 用のパッケージはありますか?

r wikipedia text-mining wikipedia-api mediawiki-api

2011-05-23T10:28:16.410

0 投票する

1 に答える

531 参照

ruby - ライブラリーの使い方

私は、機械学習とテキストマイニング全般についてかなり初心者です。Liblinear https://github.com/tomz/liblinear-ruby-swigと呼ばれる ruby ライブラリの存在が気になりました。

私がこれまでにやりたいことは、テキストが自転車に関連する何かに言及しているかどうかを識別するようにソフトウェアをトレーニングすることです。

誰かが私が従わなければならない手順（つまり、テキストの前処理とその方法）を強調し、リソースを共有し、理想的には簡単な例を共有して、私を動かすことができますか.

どんな助けでも構いません、ありがとう！

ruby machine-learning classification text-mining

2011-05-24T20:49:54.500

0 投票する

6 に答える

1516 参照

ドメイン名のリストがあり、ドメインの名前がポルノサイトであるかどうかを確認したいと思います。これを行うためのより良い方法は何ですか？ポルノドメインのリストはhttp://dumpz.org/56957/のようになります。このドメインは、ポルノドメインがどのように見えるかをシステムに教えるために使用できます。また、私は他のリストを持っています-http://dumpz.org/56960/-このリストの多くのドメインもポルノであり、名前でそれらを決定したいと思います。

python algorithm scala classification text-mining

2011-05-29T18:35:45.420

0 投票する

3 に答える

3074 参照

python - テキストマイニングのための関係をマッピングするためのウィキペディアのマイニング

ウィキペディアをクロールして関係を見つけ、それをデータベースに保存できる Web ベースのアプリケーションを開発することを計画しています。関係とは、「ビル・ゲイツ」という名前を検索して彼のページを見つけ、それをダウンロードし、ページからさまざまな情報を引き出してデータベースに保存することを意味します。情報には、彼の生年月日、彼の会社、およびその他のいくつかのものが含まれる場合があります。しかし、データベースに保存できるように、ページからこれらの一意のデータを見つける方法があるかどうかを知る必要があります。特定の本やアルゴリズムは大歓迎です。また、優れたオープンソースライブラリについて言及することも役立ちます。

ありがとうございました

python pattern-matching data-mining wikipedia text-mining

2011-05-30T02:24:31.210

0 投票する

2 に答える

2884 参照

regex - PDFファイルから住所を抽出する

非構造化PDFドキュメント（手紙など）から住所情報を抽出する作業に役立つライブラリ/ツールキットはありますか？そうでない場合、このタスクにどのようにアプローチしますか？

オープンソースのPDFライブラリを使用して正規表現パターンで情報を検索することを考えましたが、この単純なアプローチでアドレスを確実に特定できるかどうかはわかりません。残念ながら、私が参加したデータマイニングコースはテキストマイニングには触れておらず、高度に構造化されたデータのみを扱っていました。自然言語処理に取り組んでいる人が、便利なライブラリやツールキットを知っているかもしれません。

regex pdf text data-mining text-mining

2011-07-05T12:07:23.497

0 投票する

1 に答える

1898 参照

nlp - 潜在ディリクレ配分と文書クラスタリングの関係

潜在的ディリクレ配分 (LDA) とドキュメントクラスタリングの一般的なタスクとの関係を明らかにしたいと思います。

LDA 分析は、各ドキュメントのトピックの比率を出力する傾向があります。私の理解が正しければ、これはドキュメントクラスタリングの直接の結果ではありません。ただし、この確率比率を各ドキュメントの特徴表現として扱うことができます。その後、LDA 分析によって生成された機能構成に基づいて、他の確立されたクラスタリング方法を呼び出すことができます。

私の理解は正しいですか？ありがとう。

nlp machine-learning data-mining text-mining lda

2011-07-07T14:17:37.357

0 投票する

2 に答える

1809 参照

r - R テキストマイニングパッケージ: 新しいドキュメントを既存のコーパスに組み込むことができます

Rのテキストマイニングパッケージに次の機能がある可能性があるかどうか疑問に思っていました:

理想的には、既存のコーパスに追加のドキュメントを組み込みたいと考えています。

どんな助けでも大歓迎です

r text text-mining

2011-07-07T20:32:29.333

0 投票する

4 に答える

702 参照

nlp - 純粋な統計、または自然言語処理エンジン？

OpenNLPツールスイートよりも優れた結果をもたらす統計エンジンは何ですか？私が探しているのは、テキストからキーワードを選択し、それらの動詞と名詞の語幹を提供するエンジンです。おそらく、自然言語処理はここに行く方法ではありません。エンジンはさまざまな言語でも動作するはずです。

nlp text-mining opennlp statistics

user152949

2011-07-08T19:59:30.570

0 投票する

0 に答える

1501 参照

r - コントロールリストに辞書を含むRテキストマイニングパッケージDocumentTermMatrixは、メモリを大量に消費します

DocumentTermMatrix(myCorpus, control=list(dictionary=myDict))私はそれがはるかに多くのメモリを消費することに気づきましたDocumentTermMatrix(myCorpus)

なぜこうなった？

リードはありますか？

コードスニペットは次のとおりです。

今ここに私の質問があります：

メモリリークとバグの可能性があると思います。

r memory-management text-mining tm term-document-matrix

2011-07-10T22:49:15.707

問題タブ [text-mining]

r - UbuntuLucidへのRテキストマイニングパッケージのインストール

r - Rからウィキペディアにアクセスするには?

ruby - ライブラリーの使い方

python - 単語を「良い」と「悪い」に分類する

python - テキストマイニングのための関係をマッピングするためのウィキペディアのマイニング

regex - PDFファイルから住所を抽出する

nlp - 潜在ディリクレ配分と文書クラスタリングの関係

r - R テキストマイニングパッケージ: 新しいドキュメントを既存のコーパスに組み込むことができます

nlp - 純粋な統計、または自然言語処理エンジン？

r - コントロールリストに辞書を含むRテキストマイニングパッケージDocumentTermMatrixは、メモリを大量に消費します

問題タブ [text-mining]

Reference