問題タブ [text-mining]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
text - テキストマイニング - 非構造化テキストからバンド名を抽出
これは一種の一般的な自由回答形式の質問であることは承知しています。私は本質的に、前進する方法を決定するための助けと、おそらくいくつかの読み物を探しています.
私は構造化されていないテキスト マイニングを行うアルゴリズムに取り組んでおり、そのテキストから特定のもの (単一のアーティスト、バンドなど) の名前を抽出しようとしています。テキスト自体には予測可能な構造はありませんが、比較的小さいです (1、2 行のテキスト)。
いくつかの例は次のとおりです (実際のイベントではありません)。
今、分類器を試してみることを考えていますが、実際のトレーニング情報を提供するにはテキストが小さすぎるようです。おそらく、この種の問題に対して良い結果をもたらすテキスト マイニング手法、ヒューリスティック、またはアルゴリズムが他にもいくつかあるでしょう (または、おそらくどのアルゴリズムもそうではありません)。
nlp - Jython での Antlr と NLTK
現在、テキストにタグを付けて解析する NLP プロジェクトを Java で作成しています。私の主な問題は、解析コンポーネントに関するものです。現在、タグ付きテキストを解析ツリーに変換するために Antlr を使用しています。Antlr は主に NL 解析ツールとして作成されたものではないため、多くのメモリを消費し、文法の変更に簡単に適応することはできません。この問題を解決するために jython 内で NLTK を使用したいと思います。これは特にこれが分散プロジェクトであることを考慮して推奨されますか、またはこれらの解析ツリーを生成するための適切な Java 同等物があります。
ありがとう
text-mining - 保存されたトピックの状態を使用して、マレットでトピックを推測する
次のコマンドを使用して、いくつかのドキュメントからトピック モデルを生成しました。
ただし、--output-model
シリアル化されたトピック トレーナー オブジェクトを生成するオプションは使用していません。状態ファイルを使用して、新しいドキュメントのトピックを推測する方法はありますか? トレーニングは遅く、シリアル化されたモデルをゼロから作成する必要がある場合、再トレーニングに数日かかります。
java - Java でテキスト分析/マイニング用の API はありますか?
Java でテキスト解析を行うための API があるかどうか知りたいです。テキスト内のすべての単語、個別の単語、表現などを抽出できるもの。見つかった単語が数字、日付、年、名前、通貨などであるかどうかを通知できるもの。
私は今、テキスト分析を開始しているので、キックオフするための API だけが必要です。Web クローラーを作成しましたが、ダウンロードしたデータを分析するための何かが必要です。ページ内の単語数、類似単語、データ型、およびテキストに関連する別のリソースをカウントするメソッドが必要です。
Java でテキスト分析用の API はありますか?
編集:テキストマイニング、テキストをマイニングしたい。これを提供する Java 用の API。
java - 大規模な疎行列の特異値分解の Java 実装
大きな疎行列に対する特異値分解 (SVD) の Java 実装を誰かが知っているかどうか疑問に思っています。潜在意味解析 (LSA) にはこの実装が必要です。
UJMP と JAMA のパッケージを試してみましたが、行数 >= 1000 および列数 >= 500 のときに詰まります。誰かが私に疑似コードまたは何かを指摘していただければ、それは大歓迎です。
java - 名前、数字、お金、日付などでテキストの単語を分類するにはどうすればよいですか?
1 週間前にテキスト マイニングについていくつか質問をしましたが、少し混乱していましたが、今はやりたいことがわかりました。
状況: HTML コンテンツを含むダウンロード ページが多数あります。その一部は、たとえばブログのテキストにすることができます。それらは構造化されておらず、異なるサイトからのものです。
私がやりたいこと:すべての単語を空白で分割し、名前、番号、電話、電子メール、URL、日付、お金、温度などの事前定義された項目でそれぞれまたは単語のグループを分類したい.
私が知っていること:自然言語処理、Named Entity Reconigzer、POSTagging、NayveBayesian、HMM、トレーニング、および分類を行うための多くのことなどについての概念を知っている/聞いたことがありますが、異なる分類子を備えたいくつかの異なる NLP ライブラリがあり、これを行う方法と、何を使用するのか、何をするのかわかりません。
必要なもの:テキスト全体ではなく、テキストから各単語を個別に分類できる、分類子、NLPなどからのコード例が必要です。このようなもの:
誰かが私を助けることができますか?さまざまな API、分類子、およびアルゴリズムと混同しています。
r - WEKAからベクターファイルに文字列をロードするガラガラ
私はWEKAを使用してテキスト分類作業を行っていますが、Rを試してみたいと思います。
問題は、WEKAの文字列パーサーによって作成されたString toVectorARFFファイルをRattleにロードできないことです。
ログを見ると、次のようになります。
私のARFFデータファイルは次のようになります。
これをRで読み取り可能な形式に変換する方法はありますか?
乾杯!
string - RapidMiner感情分析
ポジティブまたはネガティブに分類された短いメッセージのコレクションがあり、WEKAで生成されたARFFファイルに保存されています。分類と処理の目的で、このデータをRapidMinerに移動したいと思います。
RapidMinerの完全な初心者であることは、これらのメッセージの分類子を構築する方法の例を誰もが持っています。メッセージは、次の形式の1つのファイルに含まれています。
ありがとう!
java - WordNet-単語の同義語と関連する単語の構成-JavaまたはPython
WordNetを使用して、用語の基本セットから同様の用語のコレクションを探すことを検討しています。
たとえば、「落胆した」という単語-潜在的な同義語は次のようになりますdaunted, glum, deterred, pessimistic
。
また、次のような潜在的なバイグラムを特定したいと思いました。beat down, put off, caved in
等
JavaまたはPythonを使用してこの情報を抽出するにはどうすればよいですか?そのようなクエリを可能にするホストされたWordNetデータベース/Webインターフェイスはありますか?
ありがとう!