問題タブ [nlp]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
javascript - ユーザーが英語のテキストのみを送信するようにする方法
nlp モジュールは現在英語のテキストのみを処理するため、自然言語処理を含むプロジェクトを構築しているため、ユーザーが送信したコンテンツ (長くなく、数語のみ) が英語であることを確認する必要があります。これを達成するための確立された方法はありますか?Python または Javascript の方法が推奨されます。
nlp - 人間が読めるプログラミング言語はありますか?
つまり、人間のスタイルのコーディングを備えたコード化された言語はありますか? 例えば:
あまり役に立たないことはわかっていますが、そのような文法を作成するのは興味深いことです。
parsing - NLP を使用してレシピの材料を解析するにはどうすればよいですか?
1 カップの小麦粉、2 個のレモンの皮、1 カップの詰められたブラウン シュガーなど、レシピの材料を量、測定、アイテム、説明に解析する必要があります。これを行う最良の方法は何でしょうか? 私はプロジェクトに python を使用することに興味があるので、nltk を使用することが最善の策であると想定していますが、他の言語にも対応しています。
nlp - 自然言語処理に興味がある人にとって、良い出発点は何ですか?
質問
そこで、私は最近、ユーザーによって送信および生成されたテキストから「意味」を導き出すことに対処しなければならない、いくつかの新しい可能なプロジェクトを考え出しました。
自然言語処理は、この種の問題を扱う分野であり、いくつかの初期調査の後、私はOpenNLP Hubと、 attempt プロジェクトのような大学のコラボレーションを見つけました。そしてstackoverflowにはこれがあります。
研究論文や紹介テキストから API に至るまで、誰かが私をいくつかの優れたリソースにリンクしてくれたら、6 歳の子供がクリスマス プレゼントを開けるよりも幸せです!
アップデート
あなたの推奨事項の 1 つを通じて、私はopencyc ( 「世界最大かつ最も完全な一般知識ベースおよび常識推論エンジン」 ) を見つけました。さらに驚くべきことに、 UMBEL と呼ばれるopencycの蒸留バージョンであるプロジェクトがあります。これは、rdf/owl/skos n3 構文のセマンティック データを備えています。
また、「文法記述からレコグナイザー、インタープリター、コンパイラー、およびトランスレーターを構築する」ためのパーサージェネレーターであるantlrにも出くわしました。
そして、ここに私の質問があります。それは、大量の無料でオープンなデータをリストしています。
スタックオーバーフロー コミュニティに感謝します。
algorithm - テキスト分析用のアルゴリズムまたはライブラリ。具体的には、主要な単語、テキスト全体のフレーズ、およびテキストのコレクションです。
私は、テキストのページとテキストのページのコレクションを分析して支配的な単語を判断する必要があるプロジェクトに取り組んでいます。私のために面倒な作業を処理するライブラリ (C# または Java を優先) があるかどうかを知りたいです。そうでない場合、以下の私の目標を達成するアルゴリズムまたは倍数はありますか。
私がやりたいことは、Web で見つけた URL や RSS フィードから作成されたワード クラウドに似ていますが、視覚化は必要ありません。それらは、大統領候補のスピーチを分析して、テーマや最も使用されている言葉が何であるかを確認するために常に使用されます.
複雑なのは、何千もの短いドキュメントに対してこれを行う必要があり、次にこれらのドキュメントのコレクションまたはカテゴリに対して行う必要があることです。
私の最初の計画は、ドキュメントを解析してから、一般的な単語 (of、the、he、she など) をフィルター処理することでした。次に、残りの単語がテキスト (およびコレクション/カテゴリ全体) に表示される回数を数えます。
問題は、将来、ステミング、複数形などを処理したいということです。また、重要なフレーズを識別する方法があるかどうかも確認したいと思います。(単語の数ではなく、フレーズの数は 2 ~ 3 語をまとめたものです)
役立つ戦略、ライブラリ、またはアルゴリズムに関するガイダンスをいただければ幸いです。
algorithm - tf-idf とこれまでに見られなかった用語
TF-IDF (用語頻度 - 逆文書頻度)は、情報検索の定番です。ただし、これは適切なモデルではなく、新しい用語がコーパスに導入されると壊れてしまうようです。クエリや新しいドキュメントに新しい用語が含まれている場合、特にそれらが頻繁に使用される場合、人々はそれをどのように処理しますか? 従来のコサイン マッチングでは、それらは総一致に影響を与えません。
nlp - 自然言語/テキスト マイニングと Reddit/ソーシャル ニュース サイト
reddit、digg、news.google.com などのサイトに関連する自然言語データは豊富にあると思います。
テキスト マイニングについて少し調べてみましたが、これらのツールを使用して reddit などを解析する方法がわかりません。
どのようなアプリケーションを思い付くことができますか?
algorithm - Google の In Quotes はどのように機能しますか?
Google のIn Quotesは本当に気の利いたアプリケーションだと思います。CS 担当者として、その仕組みを理解する必要があります。ニュース記事が、特定の人物に起因する引用のリストにどのように変わると思いますか? 確かにいくつかの間違いはありますが、彼らのアルゴリズムは単純なヒューリスティックや複数の正規表現よりも優れているようです。たとえば、誰かの名前が最後の段落でしか言及されていない場合でも、引用は誰かに起因する可能性があります。
何か案は?この件に関する既知の論文はありますか?
c# - 正規表現を使用して文字列を文に分割する
「1.2.3.4.5.6.7.8.9.10.11」のような文字列を 4 つの文のグループに一致させる必要があります。4 ピリオドごとに文字列をグループに分割するには、正規表現が必要です。何かのようなもの:
ピリオド自体だけでなく、ピリオドの前のテキストを置き換えるため、機能しません。ピリオドだけを数えて、ピリオドと改行文字に置き換えるにはどうすればよいですか?
shell - バイグラムを見つけるためのシェルスクリプト
バイグラムを見つけるためのシェルスクリプトを作成していますが、これはある程度機能します。
唯一の問題は、前の文の末尾と先頭の単語がペアになっていることです。
たとえば、'hello world.' という 2 つの文の場合です。と「フーバー」。私は「世界」と一線を画します。ふー」。これらをgrepなどで除外することは可能でしょうか?
grep [.] で終止符を含むすべてのバイグラムを見つけることができることはわかっていますが、それは正当なバイグラムも見つけます。