問題タブ [text-analysis]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
string - Java で文字列の近接性を比較する
Google と StackOverflow で検索した後、Java での文字列の近接性の比較について話しているリソースが見つかりませんでした。== と equals の違いに関する結果しか見つかりませんでした...
2 つの文字列間の「近接性」を比較し、近接性のパーセンテージを与えることができるライブラリを知っている人はいますか?
例 : 車とバーは非常に近く、 鶏と犬は非常に異なります
たとえば、ユーザーが書いた都市とデータベースにある都市を比較して、データの重複を回避できるようにするという考え方です。たとえば、ユーザーが「NewYork」と書いた場合、「「New-York」のことですか?」と伝えることができます。
どうもありがとう :)
java - Word と PDF の両方で Tika から段落数を取得する
Word (.docx) ドキュメントと PDF の 2 つのドキュメントを調整する必要があるシナリオがあります。この 2 つは互いに「同一」であるはずです (PDF は DOCX ファイルの PDF バージョンにすぎません)。つまり、同じテキスト、コンテンツなどが含まれている必要があります。
具体的には、両方のドキュメントに同じ数の段落が含まれていることを確認する必要があります。したがって、DOCX を読んで段落数を取得し、次に PDF を読んでその段落数を取得する必要があります。両方の数字が同じなら、私は仕事をしています。
Apache Tika (私は 1.3 に興味があります) が、ここでの仕事に適したツールのようです。このソース ファイルでは、Tika が段落カウントの概念をサポートしていることがわかりますが、両方のドキュメントからカウントを取得する方法を見つけようとしています。これが私の最善の試みですが、最後の点のいくつかを接続するのに窒息しています:
だから私は尋ねます:これを正しく設定しましたか、それともベースから外れていますか?基地外の場合は、元に戻すための助けを貸してください. Metadata
また、正しく設定した場合、2 つのインスタンスから目的のカウントを取得するにはどうすればよいでしょうか? 前もって感謝します。
java - 文字列の単語数と文字数を取得する
String を受け入れ、その中の単語 (1 つ以上の空白で区切られている) または文字 (非空白文字) の数を教えてくれる2 つの「モード」(および) で動作する超効率的なメソッドを作成しようとしています。WORD
CHARACTER
を使用してモードバージョンを達成できることを知っています:WORD
StringTokenizer
CHARACTER
しかし、モードに何を使用するか(空白以外の文字の数)についてはまったくわかりません。次のような粗雑なものを使用できると確信しています:
しかし、それは一種の醜いものであり、これを行う最も効率的な方法ではない可能性があります (StringTokenizer
作品についても同じです)。ここで正規表現を使用できますか、それとも他のJava文字列/文字の狂気を使用して、必要なものを非常に効率的な方法で取得できますか? 私はここで数千万の文字列に取り組んでいます。前もって感謝します。
text-analysis - 多肢選択式試験を解くためのテキスト分析
教科書と、その教科書に基づく多肢選択問題のセットが与えられた場合、もちろんデジタル形式で、コンピュータに問題を解決させる方法について何か考えはありますか?
私は単純な単語の連想に沿って何かを考えていました(つまり、回答の特定の単語が質問の単語に近く、何らかの形でそれを最小限に抑えている場合)。データ分析には他にもたくさんのテクニックがあると思いますので、ご意見をお聞かせください。
いいえ、これは宿題や学校とはまったく関係ありません。気まぐれでランダムに考えただけです。
nlp - ウェブサイトのベンチマークを実行する方法は?
私は、ある国の州レベルで不動産ドメインに蔓延しているオンライントレンドの競争分析を行おうとしています。特定の企業に偏っていないレポートを作成する必要がありますが、トレンドのリストについて企業がどのように業績を上げているかを比較または表示するだけです。のパラメータを使用Clickstream analysis
して、会社のWebサイトのパフォーマンスの統計を表示します。Sentiment Analysis
私の意見では、トレンド固有のパフォーマンスを表すことができます。効果的な方法でそれを行う他の方法があれば、私はそのようなアプローチを楽しみにしています。
今、私は共通する傾向を見つけることができません。
- すべての不動産会社に共通する一般的な傾向をどのように見つけることができますか?
使ってみGoogle Trends
ました。それらは、特定の検索用語に関するグラフィカルおよび人口統計情報を提供し、私が使用方法がわからない検索に関連する用語をリストします。そして、国から州へとドリルダウンすると、データ量は非常に少なくなります。
トレンドがわかったら、人々がそれらのトレンドにどのように反応しているかを見つける必要があります。Sentiment Analysis
私にこの情報を提供するものです。
- しかし、トレンドを取得したとしても、その極性を計算できるトレンド固有のデータをどのように取得しますか?
Twitterやその他のソーシャルメディアサイトは、感情分析を実行できるデータを提供できます。ツイッターのある用語に関連するポジティブ、ネガティブ、ニュートラルな行動を与えるこのサイトを使用しました。これに類似したものが必要ですが、この分析を実行できるデータセットはソーシャルメディアのみに限定されるべきではありません。
- この競合分析レポートに追加できる他のエンティティはありますか?
レポートは毎月生成されます。そして、上記のタスクで最大限の自動化が必要です。同様の形式のデータをスクレイピングするためにもWebスクレイピングを使用することを考えています。また、どのデータをスクレイプする必要があり、どのデータを手動で抽出する必要があるのかを知りたいです。
php - PHP は文字列を人の名前またはその他のテキストとして判断します
文字列を受け入れる関数またはクラスを書きたいと思います。次に、プログラムできる基準に基づいて、それが実際の人間の名前である確率を返します。現時点では、英語またはヨーロッパの名前、または他の名前の英語の音訳に大きく偏っていると思います. (たとえば、「bob」、「bob smith」、および「smith」はすべて 1.0 を返し、「sfgoisxdzzg」は .001 または .0000001 のような値を返す必要があります)
これがすでに行われている/行われている場合、誰かが知っていますか? (たとえ別の言語であっても) 私が最初に考えたのは、ある種の機械学習スクリプトを実行する必要があるということでした。それに関する私の問題は、機械学習理論について完全に無知であることです。
では、私の質問の 2 番目の部分は次のとおりです。機械学習は、この問題に取り組むための実行可能なオプションですか? もしそうなら、それを行う方法を学ぶためにどのリソースから始めるべきですか? そうでない場合は、正しい方向に私を向けることができますか?
nlp - wordnet は synset 間の類似性を直接示していますか?
さまざまなアルゴリズムに従って、Wordnet のさまざまな synset 間の類似性を計算するライブラリをいくつか見つけました。私の基本的な質問は、Wordnet が synset 間の類似性測定も提供するのか、それともこの類似性測定は常にサード パーティの実装で何らかのアルゴリズムを使用して計算されるのかということです。
python - 形態学で最も頻繁に出現する 10 の単語を見つける
この問題をより良く解決する方法を教えてください。
ロシア語のテキストがあり、形態学で最も一般的な 10 の単語を見つけたいと考えています。おそらく、 Pythonでこの問題を解決するためのオープン ソース ライブラリはありますか?
r - Rの自動機能によるWebページとそのリンクのWebスクレイピングに助けが必要
ニュースで報告された超常現象のデータを抽出して、出現の空間と時間のデータを分析して相関関係を調べることに興味があります。このプロジェクトは、Web スクレイピング、テキスト抽出、空間および時間の相関分析を学び、使用するためのものです。ですから、このトピックを決定したことをお許しください。何か面白くてやりがいのある仕事をしたかったのです。最初に、このウェブサイトには、報告された超常現象の発生のコレクションがいくつかあることがわかりました.2009年、2010年、2011年、2012年のコレクションがあります。 2009年のリンクはこのようにhttp://paranormal.about.com/od/paranormalgeneralinfo/tp/2009-paranormal-activity.htm
各ページで、彼らはこの内部構造のような見出しの下にストーリーを集めました Paranormal Activity, Posted 03-14-09 これらの見出しの行にはそれぞれ2つのページがあります..このリンクのように行きますhttp://paranormal.about.com/ od/paranormalgeneralinfo/a/news_090314n.htm
これらの各ページには、さまざまな見出しで収集された実際の報告された記事と、それらの記事への実際の Web サイトへのリンクがあります。報告されたテキストを収集し、幽霊、悪魔、UFO などの超常現象の種類と、事件の日時と場所に関する情報を抽出することに興味があります。このデータを空間的および時間的相関について分析したいと考えています。UFO やゴーストが実在する場合、それらの動きには、空間または時間における何らかの動作と相関関係がなければなりません。これは物語のロングショットです...
上記のページからテキストフォームをスクレイピングするのに助けが必要です。ここでは、1 つのページをたどるコードと、必要な最後の最終テキストまでのリンクを書き留めました。最終ページからきれいなテキストを取得するためのより良い効率的な方法があることを誰かに教えてもらえますか。また、2009年全体の全10ページをフォローすることにより、テキスト収集の自動化。
私の投稿を読んでくれて、私を助けてくれてありがとう。このプロジェクト全体で私を指導したい専門家にとって、私は非常に充実しています。
よろしくサティシュ
c# - キーワードに基づいてテキストを要約する jquery プラグインまたは c# コード
ユーザーの検索結果をページに表示している場合、ユーザーが検索したキーワードに基づいてテキストを要約するための jquery プラグインまたは c# コードはありますか?
たとえば、テキストが次の場合:
ユーザーが「単語」を検索していると、次のようになります。