問題タブ [lexicon]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
nlp - 適用された NLP: 複数単語の用語のレキシコンに対してドキュメントをスコアリングする方法は?
N
これはおそらくかなり基本的な NLP の質問ですが、手元に次のタスクがあります: 1-、2-、3- などの用語の (英語) レキシコンに対してスコアリングする必要があるテキスト ドキュメントのコレクションがあります。言葉が長い。N
は何らかの「妥当な」数に制限されていますが、 のさまざまな値に対する辞書内のさまざまな用語の分布は、n = 1, ..., N
かなり均一である可能性があります。このレキシコンには、たとえば、特定のタイプのデバイスのリストを含めることができ、特定のドキュメントがこれらのデバイスのいずれかに関するものであるかどうかを確認したいと考えています。したがって、レキシコン エントリのいずれかが 1 つ以上出現する場合、ドキュメントのスコアを高くしたいと思います。
レキシコンに出現する可能性のあるさまざまな形式の単語を考慮しながらスコアリングを行う標準的な NLP 手法は何ですか? 入力ドキュメントとレキシコンの両方がスコアリングを実行できるようにするには、どのような前処理が必要ですか? 前処理とスコアリングの両方のために、どのような種類のオープンソース ツールが存在しますか?
analytics - 小さなテキストのテキスト分析とクラスタリング
私はプログラミング スキルのデータセットを持っており、それを前処理/クリーンアップして、より一般的なグループをいくつか作成します。
- きれいにするために、次のテキストにどのようなテキストクリーニングを行うことができますか. 以下のデータセットの例。Visual C と C は同じか、Yi と Yi フレームワークは同じです。
- 以下をより抽象的なカテゴリに分類するのに役立つ、プログラマー/ソフトウェアエンジニアリングおよびプロジェクト管理またはオントロジーのための辞書はありますか?
ここに私のデータセットがあります
r - R を使用した感情分析 (コードが正しく機能しない)
テキストの感情分析を行うために、レキシコンベースのスコアリング方法を使用しようとしています。スタックオーバーフローの投稿を読んだ後、 http://analyzecore.com/2014/04/28/twitter-sentiment-analysis/からコードを直接借りました:辞書のフレーズによるR感情分析
私のデータセットについて少し要約します:
そして私が使用しているコード:
私は Bing Liu のオピニオン ディクショナリを使用しており、次のようにロードしました。
スコアリング関数を介してデータと辞書を実行するために使用したコードは次のとおりです。
しかし、何をしても、30 本の弦すべてでスコアが 0 しか得られません。(出力の概要については、以下の表を参照してください):
どこを修正すべきかについてのアイデアがありません(この質問をここに投稿する前に、自分のコードで多くのエラーを見つけました)。どんな助けでも大歓迎です!
indexing - レキシコンは MarkLogic でどのように機能しますか?
Marklogiclexicons
との違いindexes
は何ですか。
例を挙げて説明してください。
parsing - 非常に多くのトークンを使用してレクサーを構築する
もう2時間も探してる どうしたらいいのかわからない
数千の単語に一致するレクサーを使用するアナライザーを構築しようとしています。これらは自然言語の単語であるため、非常に多くあります。
最初に、1 つのトークンに対して 1000 個の異なる一致を使用して簡単な方法で試しました。
javac のコンパイル後、コードが大きすぎることが返されます。
では、lexer で何千ものトークンを管理するにはどうすればよいでしょうか?
n 個の単語に 1 つのトークンを使用するよりも、各単語に n 個のトークンを使用する方が効率的であると読みました。しかし、この場合、1000 個以上のトークンを含むルールを作成することになりますが、これは良いアイデアとは思えません。
トークン マネージャーを変更するか、トークン マネージャーを作成して、リスト内の単語に一致するようにすることができます。
ここで、レクサーが有限状態マシンであることを知っています。これが不可能な理由です。他のレクサーを使用する方法はありますか? ;
すべての単語に一致する巨大な正規表現を自動的に生成することはできますが、後で単語を独立して処理することはできません。
ファイルからトークンをロードする方法があるかもしれませんが、この解決策は解決策 2 と 3 にかなり近いものです。
多分私は別の言語を使用する必要がありますか?XLE (70,000 を超えるトークンのレキシコンを処理できる) から Java に移行しようとしていますが、ここで興味深いのは Java ファイルを生成することです!
これで、javacc lexer を使用して数千のトークンを処理する方法を見つけることができます。誰かがそれに慣れていて、アイデアを持っているなら、それは素晴らしいことですか?
一番
コランタン
rascal - Rascal のレキシコンにテキスト ファイルを追加する
テキストファイルから取得したターミナルを Rascal のレキシコンに追加することは可能ですか? これは実行時に発生しますが、これを実現する明確な方法はありません。Rascal プロジェクトとは別にデータを保持したいと思います。たとえば、テキスト ファイルから国のリストを読み取った場合、これらを辞書に追加するにはどうすればよいでしょうか (lexical
キーワードを使用)。