問題タブ [text-analysis]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Pythonで句読点間の単語数を数える
Python を使用して、テキスト入力のブロック内の特定の句読点の間に出現する単語の数をカウントしたいと考えています。たとえば、この時点までに書かれたすべての分析は、次のように表すことができます。
[23、2、14]
...最後のピリオド以外に句読点がない最初の文には 23 の単語があるため、次に来る「たとえば」句には 2 つの単語があり、コロンで終わる残りの文には 14 の単語があります。
これを作成するのはおそらくそれほど難しいことではありませんが、特に Pythonic と思われる「車輪を再発明しない」という哲学に沿って、このタスクに特に適したものはすでにありますか?
solr - Lucene インデックスからコロケーション ワードを抽出する
Lucene 内に保存されているドキュメントのインデックスがあります。インデックスからすべてのコロケーション ワードを頻度とともに抽出する必要があります。特定のドキュメント内のコロケーションを検出するためのさまざまなアルゴリズムがあることは知っていますが、このタスク専用に Lucene と連携できる既存のライブラリは知りません。誰かライブラリを知っていますか?
lucene インデックスからバイグラムだけを抽出する方法は知っていますが、もちろんすべてのバイグラムがコロケーション ワードであるとは限りません。
text-analysis - コメントのクラスタ リスト
私は素晴らしい Carrot2 フレームワークを発見したばかりの初心者です。
Java API を使用して、LingoClusteringAlgorithm を使用して Facebook コメントのリスト (約 10 ~ 200 文字のコメントが 100 個まで) をクラスター化しようとしています。コメント テキストを「タイトル」フィールドとして使用し、「スニペット」、「URL」、および「クエリ」フィールドを空のままにすることはできますか? または、より良い方法があります (「タイトル」と「スニペット」にコメント テキストを 2 回使用するなど)。
web-scraping - Rapidminer を使用した imdb 映画レビューのテキスト分析
ラピッドマイナーを使用して、特定の映画のレビューを分析しています。「getpages」を使用して、IMDB からレビューを抽出しました。このサイトには約 94 件のレビューがリストされていますが、抽出後、そのうちの 21 件しか取得できません。xml コードは次のとおりです。
Excel ファイルでは、レビューのリンクを次々に取得しました。また、ユーザーからの「評価」も必要です。
java - クロール時のエラー文字列インデックスが範囲外
最初の 2 つの URL の「Exception in thread "AWT-EventQueue-0" java.lang.StringIndexOutOfBoundsException: String index out of range: 0」をクロールした後、プログラムでエラーが発生し続けます。最初の 2 つの URL は、私が望むようにクロールし、別のクラスのメソッドを使用してそれらからテキストを取得します。他のクラスは、私が知らない問題である可能性があります。私のコードを見て、何が起こっているか見てください。
python - できればGensimを拡張する、動的トピックモデル用の効率的なpythonライブラリはありますか?
トピック モデルで Twitter ストリーム データをモデル化しようとしています。使いやすいソリューションである Gensim は、そのシンプルさが印象的です。LSI の真のオンライン実装がありますが、LDA の実装はありません。Twitter のような変化するコンテンツ ストリームの場合、動的トピック モデルは理想的です。この目的で Gensim を利用できる方法、またはハック - 実装または戦略さえありますか?
Gensimまたは独立したものから(できれば)派生する他のpython実装はありますか?早く始めたいのでpythonの方がいいのですが、何か工夫して最適解があれば教えてください。
ありがとう。
java - ラベル付き潜在ディリクレ配分の入力値
StackExchange の投稿でタグ予測とキーワード抽出を行っています。タイトル、本文、タグで構成される約 36,000 件の投稿があります。ノイズの多い要素をフィルタリングして処理します。この後、ここで取得したラベル付き潜在ディリクレ配分法 (LLDA) を実行します。
出力を見ると、トピックとキーワードの割り当ての前半の大部分はかなり良好です。例:
ただし、出力ファイルの終わりに近づくほど、トピックとキーワードの割り当ては完全に奇妙になります。
誰かがなぜ私が最終的にそのような間違った割り当てを受けるのか説明してもらえますか? また、値が非常に低いのはなぜですか?
約 36,000 件の投稿がある前に述べたように、これらは LLDA を実行するための値です。
以前の値に関するドキュメントはほとんどまたはまったく見つからなかったので、試行錯誤の結果、これらの値が得られたものの中で最も適していることがわかりました。ただし、より理解のある人が私に説明したり、どの値が最適かを提案したりできるでしょうか?