問題タブ [mining]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
orientation - 意見マイニング-どのデータベースタイプですか?
含まれている単語の意味的な方向性を取得するために、意見マイニング(データマイニング->Webマイニング->意見マイニング)を作成するプロジェクトに参加しています。クローラーを使用してページの意見を取得します。ここで問題となるのは、このタイプのプロジェクトでは、どのタイプのデータベース(OO、リレーショナル、階層型など)を使用するのが最適かということです。私はこれが特定の質問であることを知っています、私はすべての人の応答を期待していませんが、少なくともすでにそれをした誰かが助けになるでしょう。
よろしく!
data-mining - アドホック クエリ ツール パターン
アドホック クエリ機能をグラフィカルに実装する一般的なパターンを探しています。Access と TOAD の SQL クエリ ビルダーを見てきましたが、ドメイン固有のデータ ウェアハウス (臨床データベースなど) に対してそのようなツールを構築した製品を誰かが知っているかどうかに興味があります。
ありがとう、
algorithm - Web マイニング - 分類アルゴリズム
私の上級プロジェクトでは、Web ページの主要なカテゴリを決定しています。私は dmoz をクロールしました。今私はarffを構築しようとしています。その後、いくつかの特徴抽出方法と分類アルゴリズムを使用します。Web マイニングの分類アルゴリズムで、どの特徴抽出方法が適切に機能するか知っていますか?
image - 適切なメタデータ イメージ ダンプ ユーティリティはありますか?
最も一般的な画像ファイル形式 (具体的には JPEG と PNG) に埋め込まれたすべてのメタデータを抽出するための最良のツールを探しています。そこにあるもの (XMP、Exif、IPTC/IIM など) について知りたいです。理想的には、コマンド ラインから実行できるオールインワン ソリューションを探していますが、この分野で価値のある他のツールについて知りたいと思っています。
私は次のことを発見しました。それぞれに長所/短所があります。
ExifTool
良いですが、出力は私が望むもう少しラフショッドです。DumpImage
Metadata Working Groupの は、見つけたメタデータの適切なフォーマットを持っていますが、PNG をサポートしていません。
text - 関連するコンテンツや記事を表示するためのテクニック
私は集団的知性の分野でテキストマイニングやその他の関連することを学ぼうとしています。ドキュメントをスキャンして関連する投稿/記事をページに表示するアプリを作成することに興味があります。
必要な情報を取得するのに役立つアルゴリズムは何ですか?
ありがとう
/ A
java - テキスト間の類似性を計算するアルゴリズム
ソーシャルネットワークからの投稿間の類似性をスコアリングしようとしていますが、そのための適切なアルゴリズムが見つかりませんでした。
レーベンシュタインやジャロウィンクラーなどを試しましたが、感情のないテキストを比較するために使用されています。投稿では、「私は犬が本当に好きです」というテキストと「犬が本当に嫌いです」というテキストを受け取ることができます。このケースをまったく異なるものとして分類する必要があります。
ありがとう
text - テキストから動物の種類を抽出するテキストマイニング
実験を行う必要があり、NLP の初心者です。理論的な問題を説明している本を読んだことがありますが、実際的なことになると、ガイドを見つけるのが難しいことがわかりました. NLP について何か知っている人、特に実用的な問題について教えてください。道に迷っていると感じているので、正しい道を示してくれます (役立つ本、便利なツール、便利な Web サイト)。
私がやろうとしているのは、テキストを取得して、犬、猫などの動物などの特定の単語を見つけて、この単語と両側の 2 つの単語を抽出する必要があることです。例えば
抽出されたテキストは
これは、工作機械に対する私のトレーニング例になります
Q1: 上で説明したのと同様の約 100 のトレーニング例があります。tocknizer を使用して単語を抽出しましたが、両側に 2 つの単語がある特定の単語 (この例ではすべての種類の動物) を抽出するにはどうすればよいですか。たとえば、タグを使用する必要がありますか、それともあなたの考えは何ですか?
Q2: これらのトレーニング例がある場合、それを工作機械に与えてトレーニングできる適切なデータセットをどのように準備すればよいですか? 動物を特定するには、このデータセットに何を記述すればよいですか? また、他の特徴を与える必要がありますか? どうすればそれをデータセットに配置できますか。
あなたからの多くの言葉は私を大いに助けるかもしれません。あなたが知っていることを遠慮なく教えてください
text - sas 可能性のあるスペルミスをすべて生成する
スペルミスの可能性を生成する方法を知っている人はいますか?
例 : unemployment - uemployment - oneemploymnet - など
r - ドキュメント用語マトリックスを大量のデータを含むマトリックスに変換すると、オーバーフローが発生します
テキストマイニングをしましょう
tm
ここでは、(パッケージからの)ドキュメント用語マトリックスを使用しています。
私がするとき
それは「リスト」であり、構造は次のようになります。
だから私は試してみます
これは1000ドキュメントで機能します。
しかし、私が40000を使おうとすると、もう使いません。
このエラーが発生します:
ベクトルのエラー...:ベクトルをNAにすることはできません追加:整数のオーバーフローによって作成されたnr * ncNA
そこで、as.matrixを調べたところ、関数がそれを行列ではなくas.vectorを使用したベクトルに変換していることがわかりました。ベクトルへの変換は機能しますが、ベクトルからマトリックスへの変換は機能しません。
何が問題になるのか、何か提案はありますか?
ありがとう、キャプテン
.net - .netグラフマイニング
簡単に言うと、実装しようとしているソリューションについてアドバイスが必要です。私は.netテクノロジーを使用してソーシャルネットワークを実装しており、データベース(一種のグラフ/リンクマイニング)で収集および保持されたデータから知識を推測する必要があります。私の質問は次のとおりです。
- このタスクは、ビジネスインテリジェンスツールで実行する必要がありますか?
- このタイプの情報(グラフ)を処理するための.netフレームワークを知っていますか?
- 結果データをどのように永続化する必要がありますか?別のデータベースを使用していますか?