問題タブ [text-analysis]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
nlp - NLP: 質的に「肯定的」な文章と「否定的」な文章
業界固有の文章 (映画のレビューなど) を「ポジティブ」と「ネガティブ」で分析するための最良のアプローチを決定するために、あなたの助けが必要です。以前に OpenNLP などのライブラリを見たことがありますが、レベルが低すぎます。基本的な文の構成を教えてくれるだけです。私が必要としているのは、より高レベルの構造です:
ありがとう!
data-structures - 大量のテキストで一般的なフレーズを見つける方法
私は現在、膨大な量のテキストの中で最も一般的なフレーズを選択する必要があるプロジェクトに取り組んでいます。たとえば、次のような3つの文があるとします。
- 犬は女性を飛び越えた。
- 犬は車に飛び込んだ。
- 犬は階段を飛び上がった。
上記の例から、テキストで最も一般的なフレーズである「犬がジャンプした」を抽出したいと思います。最初は、「[ノードが繰り返される]有向グラフを使用しましょう」と思いました。
有向グラフhttp://img.skitch.com/20091218-81ii2femnfgfipd9jtdg32m74f.png
編集:お詫びします。この図を「上」、「中」、「上」にすると、すべて「the」にリンクするはずです。
各ノードオブジェクトで単語が発生した回数のカウントを維持するつもりでしたが(「the」は6、「dog」と「jumped」、3など)、他の多くの問題にもかかわらず、メインの問題は次の場合に発生しました。次のような例をさらにいくつか追加します(悪い文法は無視してください:-)):
- 犬が飛び跳ねた。
- 犬はこれまでジャンプしたことがないようにジャンプしました。
- 犬は楽しくジャンプしました。
「dog」が(「the」と同じレベルで)新しいルートノードを開始し、「dogjumped」が現在最も一般的なフレーズであると識別されないため、問題が発生します。だから今、私は無向グラフを使ってすべての単語間の関係をマッピングし、最終的には一般的なフレーズを選ぶことができると考えていますが、間の順序の重要な関係が失われるため、これがどのように機能するかわかりません言葉。
したがって、大量のテキストで一般的なフレーズを識別する方法や、使用するデータ構造についての一般的なアイデアはありますか。
ありがとう、ベン
text-processing - タームクラスタリングライブラリ?
クラスタリングという用語を使用するオープンソースの無料ライブラリを知っている人はいますか?
ありがとう、ヤニフ
words - 多くの記事の単語リスト - 用語マトリックス
トルコ語で約 15 万の記事があります。自然言語処理の研究に記事を使用します。記事を処理した後、記事ごとに単語とその頻度を保存したい。
現在RDBSに保存しています。
私は3つのテーブルを持っています:
Articles -> article_id,text
Words -> word_id, type, word
Words-Article -> id, word_id, article_id, frequency (word_id のインデックス、 article_id のインデックス)
問い合わせます
- 記事内のすべての単語
- 記事ごとに 1 つの単語の頻度
- すべての記事およびどの記事での単語の出現
words-article テーブルに何百万もの行があります。このプロジェクトでは常に RDBS を使用していました。mysql から始めて、現在は oracle を使用しています。しかし、私は oracle を使用したくなく、mysql よりも優れたパフォーマンスが必要です。
また、4 GB RAM を搭載したマシンでこのジョブを処理する必要があります。
簡単に言えば、文書と用語のマトリックスを保存し、それに対してクエリを実行する方法は? 性能が必要です。「キー値データベース」はパフォーマンスでmysqlを打ち負かすことができますか? または、mysql に勝るものは何ですか?
あなたの答えのプログラミング言語が依存している場合、私はpythonでコードを書いています。ただし、C/C++ 、Java は問題ありません。
java - JavaでのTfIdfのチュートリアルまたはコード
tf-idf計算を計算できる単純なJavaクラスを探しています。2つのドキュメントで類似性テストを実行したい。tf-idfクラスを使用するBIGAPIをたくさん見つけました。簡単なテストを行うためだけに、大きなjarファイルを使用したくありません。助けてください !または、誰かがTFを見つける方法を教えてくれるかどうかを教えてください。とIDF?結果を計算します:)またはこのための良いJavaチュートリアルを教えていただければ。グーグルを探していることを教えてはいけません。私はすでに3日間行ったのですが、何も見つかりませんでした:(また、Luceneを紹介しないでください:(
text-analysis - 可能性のある英語の単語境界で文字列を分割する
最近、Adobe Acrobat ProのOCR機能を使用して、日本語の漢字辞書を処理しました。出力の全体的な品質は、一般的に私が期待していたよりもかなり優れていますが、テキストの英語部分の単語の境界が失われることがよくあります。たとえば、私のファイルの1行は次のとおりです。
足りない単語の境界をあちこちに挿入することもできますが、これはすでに実質的なタスクに追加されます。いくつかの単語が一緒に実行されるこのようなテキストを分析し、可能性のある単語の境界でテキストを分割できるソフトウェアが存在することを期待しています。そのようなパッケージはありますか?
私はEmacsを使用しているので、問題のパッケージがすでにEmacsパッケージであるか、Emacsに簡単に統合できるとしたら、とても甘いでしょう。そうすれば、上記のような行にカーソルを置いて、繰り返し呼び出すことができます。可能性のある正しさの降順で単語境界の行を分割するコマンド。
nlp - How to extract common / significant phrases from a series of text entries
I have a series of text items- raw HTML from a MySQL database. I want to find the most common phrases in these entries (not the single most common phrase, and ideally, not enforcing word-for-word matching).
My example is any review on Yelp.com, that shows 3 snippets from hundreds of reviews of a given restaurant, in the format:
"Try the hamburger" (in 44 reviews)
e.g., the "Review Highlights" section of this page:
http://www.yelp.com/biz/sushi-gen-los-angeles/
I have NLTK installed and I've played around with it a bit, but am honestly overwhelmed by the options. This seems like a rather common problem and I haven't been able to find a straightforward solution by searching here.
twitter - 小さなテキストコンテンツ(ツイートなど)からのタグの生成
私はすでに同様の質問をしましたが、私には大きな制約があることに気づきました。タグ(キーワード)を生成するためにユーザーツイートなどの小さなテキストセットに取り組んでいます。
そして、受け入れられた提案(ポイントごとの相互情報アルゴリズム)は、より大きなドキュメントで機能することを意図しているようです。
この制約(小さなテキストセットでの作業)を使用して、タグを生成するにはどうすればよいですか?
よろしく
algorithm - ユーザーにタグのリストを提案するアルゴリズム
フリー テキストが与えられた場合、このテキストを分析し、既存のリストからタグのリストを提案する必要があります。
市場にはどのようなアルゴリズムがありますか? たとえば、テキストに次のような単語が含まれている場合に対処できますか
高コレステロール
そして、私はそれが欲しいので提案します
心臓病
ただし、「高コレステロール」は事前に定義されたリストに (最初は) 存在しない場合があります。
java - Javaテキスト分析ライブラリ
キーワードがポジティブに使用されたかネガティブに使用されたかをログに記録するために文を分析するための要件に対するJava駆動のソリューションを探しています。
つまり、キーワードは「キャベツ」と文である可能性があります:-
「私はキャベツは好きですが、エンドウ豆は好きではありません」
そして、私はこれをポジティブとしてログに記録するために、ある種のJavaテキストアナライザーが欲しいです。これには、lucene(Hibernate-Search)ライブラリを利用できますか?
何かご意見は?