“web-mining”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

1832 参照

python - Pythonでのより良い前処理ライブラリまたは実装はありますか?

fcm などの分類手法や、潜在的ディリクレ配分などの他のトピックモデリング手法を適用できるように、いくつかのテキストドキュメントを前処理する必要があります。

前処理を少し詳しく説明するには、ストップワードを削除し、名詞とキーワードを抽出して、ステミングを実行する必要があります。この目的で使用したコードは次のとおりです。

上記のコードの問題は、

名詞とキーワードの抽出に使用される nltk モジュールには、多くの単語がありません。たとえば、一部のドキュメントに対して前処理が実行され、「サチン」などの名前がキーワードとして認識されず、前処理後に見落とされました。
語幹が正しくない。ステミングが多すぎて (ネットワークとネットワークからネットへ)、名詞もステミングされる場合があります。

必要な機能のためのより良いモジュールはありますか、または同じモジュールのより良い実装はありますか? 親切に助けて

2012-04-23T13:12:38.820

0 投票する

1 に答える

121 参照

javascript - 複数の AJAX ページからデータを収集する (ブラウザのアドオンを使用していますか?)

多くの日付と目的地について、特定の Web サイトから航空券の価格を収集したいと考えています。URL でソース、宛先、および日付を指定できますが、Web サイトは AJAX を使用してデータをフェッチするため、ページの応答で価格をすぐに取得できません。そのような場合、任意のプログラミング言語を使用してデータを取得できます。

このタスクは、Web ブラウザーを使用して各 URL を次々にロードし、ページをレンダリングさせてから、必要なタグを (CSS セレクターまたは JS を使用して) 探して保存する方がよいと考えました。ファイルまたはログに移動し、次の URL に移動します。後でデータを確認して、最良の価格を見つけることができました。

しかし、残念ながら、このタスクを実行するためのブラウザー拡張機能/アドオンが見つかりませんでした (Linux ブラウザーは問題ありませんが、Firefox と Chrome の可能性が高いです)。私はすでに GreaseMonkey に精通していますが、それは彼が行うように設計された種類のタスクではありませんが、同様のツールまたは同様の方法で動作することになると思います。

このタスクに使用できるツールを知っている人はいますか? 他のアプローチも大歓迎です！

javascript css google-chrome-extension firefox-addon web-mining

2012-10-25T21:48:47.747

0 投票する

1 に答える

1477 参照

java - Webクロール中のウイルス/マルウェアの危険性

私は最近、Java と JSoup (http://jsoup.org/) HTML パーサーを使用してカスタム Web クローラー/スパイダーを作成しました。Web クローラーは非常に初歩的なものです。Jsoup のconnectメソッドとgetメソッドを使用してページのソースを取得し、次に他の JSoup メソッドを使用してコンテンツを解析します。見つけたほぼすべてのリンクをランダムにたどりますが、ファイルのダウンロードやスクリプトの実行を試みることはありません。

クローラーは、基本的にランダムな Web ページの長いリストからシードページを選択します。その中には、アダルトコンテンツや悪意のあるコードが含まれている可能性があるものもあります。最近、クローラーを実行しているときに、ウイルス対策 (Avast) がリクエストの 1 つに「脅威が検出されました」というフラグを立てました。問題のある URL は悪意があるように見えました。

私の質問は、私のコンピューターが Web クローラーを介してウイルスやマルウェアに感染することはありますか? 実施すべき予防策やチェックはありますか?

java jsoup data-mining malware web-mining

2012-12-08T03:21:25.073

0 投票する

2 に答える

84 参照

data-mining - 2 つの Web ページ間の意味的関係を測定する方法

大学の Web ページにアクセスしているとします。そこにはたくさんの先生のプロフィールがあります。これらのページは構文的に関連していませんが、意味的に関連しています。このタイプの関係をどのように測定できますか? 実際、関係を見つけるためにどのパラメータに焦点を合わせるべきですか?

data-mining semantics text-mining web-mining site-mining

2013-05-01T18:16:34.580

0 投票する

2 に答える

214 参照

data-mining - テキストマイニングを使用した分類 - 値とキーワードによる分類

都市ごとの経済学と高度に相関する分類問題があります。人口、収入の中央値、雇用などの非構造化データをフリーテキストで持っています。テキストマイニングを使用して、テキスト内の値を理解し、分類を行うことはできますか。ほとんどのテキストマイニング記事を読んだことがあれば、キーワードまたはフレーズカウントを使用して分類を行います。テキストの意味とテキストの頻度で分類できるようにしたいと思います。これは可能ですか？

ところで、私は現在 RapidMiner と R を使用しています。

前もって感謝します、ジョン

data-mining classification text-mining web-mining

2013-09-17T21:35:21.777

0 投票する

1 に答える

495 参照

command - WEKA シンプル CLI コマンドの強制終了

I WEKA SimpleCLI ツールで次のコードを実行します

java weka.core.converters.TextDirectoryLoader -dir c:/mydir/ > c:/output/result.arff

そして、それは次の結果を示しました

[...強制終了] 'c:/output/result.arff' への出力のリダイレクトが完了しました

result.arff ファイルのサイズは 0 KB です。

誰でも問題を知っていますか？

/* 私のデータは約 63,000 ファイルの *.txt ですが、それらのデータの 10 サンプルを試してみるとうまくいきます */

command data-mining weka arff web-mining

2014-05-17T06:20:09.233

問題タブ [web-mining]

python - Pythonでのより良い前処理ライブラリまたは実装はありますか?

javascript - 複数の AJAX ページからデータを収集する (ブラウザのアドオンを使用していますか?)

java - Webクロール中のウイルス/マルウェアの危険性

data-mining - 2 つの Web ページ間の意味的関係を測定する方法

data-mining - テキスト マイニングを使用した分類 - 値とキーワードによる分類

command - WEKA シンプル CLI コマンドの強制終了

Reference

data-mining - テキストマイニングを使用した分類 - 値とキーワードによる分類