問題タブ [semantic-analysis]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1205 参照

nlp - 文リストからキーワードを抽出する方法・ツール

大量の文のリストがあり、各文に固有のキーワードをタグ付けして、グループ化の目的でどの文が類似しているかを識別できるようにしたいと考えています。

例として:

私はキーワード抽出のために alchemy api や openCalais などのツールを調べてきましたが、何千ものユニークだが類似した個人にタグを付けるのではなく、ドキュメント全体や段落など、データのブロックから意味を抽出するためにこれらを使用しているようです。文章。

要するに、理想的には次のことをしたいと思います。

  1. ドキュメントまたは Web ページから文を取得します (おそらく、大きなスプレッドシートまたはツイートのリストから)
  2. その上に一意の識別子を配置します(ある種のキーワード)
  3. 文をキーワードでグループ化する
0 投票する
1 に答える
437 参照

python - 2 つの Web コンテンツが類似しているかどうかを見分ける方法は?

2 つの HTML ソースが与えられた場合、最初にこのようなものを使用してメイン コンテンツを抽出したいと思います。他のより良いライブラリはありますか- 私は特に Python/Javascript のものを探していますか?

2 つの抽出されたコンテンツを取得したら、それらがどの程度類似しているかを示す 0 から 1 の間のスコアを返したいと考えています。 Amazon.com と Walmart.com の同じ製品も高いスコアになります。これどうやってするの?すでにこれを行う既存のライブラリはありますか? 使用できる優れたライブラリは何ですか? 基本的に、自動要約キーワード抽出固有表現認識感情分析の組み合わせを探しています。

0 投票する
1 に答える
1851 参照

c - C言語の意味解析

最近、言語のセマンティック アナライザーを探していましたがC、見つかりませんでした。flexパーサーを生成するためのyacc C言語ファイルを見つけました。それらを変更してパーサーを生成することができました。しかし今、次のステップを実行する必要があります。C誰かがツリーの意味分析と構築の例をいくつか教えてくれれば幸いです。セマンティック分析に関する情報も役に立ちます。いくつかの小さなCコンパイラを見つけましたが、それらは独自のパーサーを使用しているため、私には合いません。

0 投票する
0 に答える
184 参照

optimization - struct bytes padding

From the given situation, we can say that we are able to declare array of structure in different ways. As I conclude, the difference is space optimization, namely the following:

As is indicated at the top of the code, this takes up 1600 bytes. While this one

takes only 1400 bytes. My question is that, when we are using such kind of things in real applications, is there any semantic difference between them? Optimization is good, but is it possible to change the main idea of code, when we declare array of structure into different forms?

0 投票する
1 に答える
5375 参照

compiler-construction - バイソンの意味型チェック分析

私はどこでも例を見つけようとしてきましたが、それは無駄でした。

基本的なRubyインタープリターを書こうとしています。このために、トークン認識文を含むフレックスレキシカルファイルと文法ファイルを作成しました。

文法にセマンティックタイプチェックが含まれていることを望みます。

私の文法ファイルには、たとえば次のものが含まれています。

これは、整数と浮動小数点数の有効なルールである必要があります。

私が読んだことによると、argなどの非終端記号のタイプを次のように指定できます。

ここで、「intval」は型共用体であり、intC型に対応します。

しかし、これは整数の場合のみです。たとえば、floatに対してルールを有効にする方法がわかりません。私は2つの異なるルールを持つことを考えました。1つはint用、もう1つはfloat用です。

しかし、この残虐行為では、floatとintの間に追加を許可するルールが必要になるため、これを行うにははるかに優れた方法があると確信しています。

私が見つけたすべての例には、1つのタイプしかありません(通常、電卓のような例では整数)。

加算などのルールが引数としてintとfloatを持つことができるように指定するにはどうすればよいですか?

どうもありがとうございます。

0 投票する
1 に答える
254 参照

hadoop - SparseVectorsFromSequenceFiles、RowIdJob、および RowSimilarityJob ジョブのメモリ実装はありますか

SparseVectorsFromSequenceFilesMap/Reduce ジョブを実行する Mahout が提供する、RowIdJobおよびRowSimilarityJobHadoop ジョブを使用して、潜在的セマンティック分析の実行に取り組んできました。私は、単一のスレッドまたはできれば複数のスレッドで、メモリ内で実行されるこれらの機能の同等の実装を見つけようとしています。

そのようなことはありますか?

0 投票する
2 に答える
1543 参照

python - 品詞を使用してセマンティックテキストの類似性を評価するにはどうすればよいですか?

テキスト間の意味的類似性を評価するプログラムを作成しようとしています。私はすでにテキスト間のn-gram頻度を比較しました(語彙の尺度)。これより少し浅いものが欲しかったので、文の構成の類似性を見ることは、テキストの類似性を評価する1つの方法であると考えました。

ただし、私が理解できるのは、POSを数えることだけです(たとえば、テキストごとに4つの名詞、2つの動詞など)。これは、単にn-gramを数えることに似ています(実際にはn-gramよりもうまく機能しません)。

多くの人々(Pearsons、ETS Research、IBM、学者など)は、より深い対策のために品詞を使用していますが、どのようにそれを行ったかについては誰も言いません。品詞をセマンティックテキストの類似性の「より深い」測定にどのように使用できますか?

0 投票する
1 に答える
7009 参照

python - WordNetを使用して2つのテキスト間の意味的類似性を判断しますか?

WordNetを使用してPythonの2つのテキスト間の意味的類似性をどのように判断できますか?

明らかな前処理は、ストップワードとステミングを削除することですが、それではどうしますか?

私が考えることができる唯一の方法は、2つのテキストの各単語間のWordNetパス距離を計算することです。これはユニグラムの標準です。しかし、これらは大きな(400ワード)テキストであり、自然言語のドキュメントであり、特定の順序や構造(英語の文法によって課せられたものを除く)ではない単語が含まれています。では、テキスト間でどの単語を比較しますか?Pythonでこれをどのように行いますか?

0 投票する
2 に答える
1961 参照

semantic-markup - 名詞入力に関連する形容詞を見つける

ユーザーが検索ボックスに入力する単語に基づいて、ユーザーのパーソナリティの特徴を判断したいと考えています。次に例を示します。

検索ワード:「パソコン」

検出されたパーソナリティ/記述子: 分析的、論理的、体系的、系統的


私は、このタスクが非常に重要であることを理解しています。以前に WordNet を使用したことがありますが、名詞ノードごとに形容詞クラウドが含まれているかどうかはわかりません。品詞のタグ付けはそれ自体が獣であるため、独自のコーパスを構築し、キーワードと共存する形容詞の用語頻度を検索することが最善のアイデアであるかどうかはわかりませんが、以下で説明します.

私は現在、ウィキペディアのダンプを使用して、ストップ ワード (and、or、of、to、a など) を削除した後、用語の頻度について各記事を処理しています。私の考えでは、コーパス全体で形容詞 (POS タグ付けに WordNet を使用) と名詞の共存 (たとえば、形容詞論理はしばしば名詞コンピューターと共起する) を検索し、相対的な語幹形容詞頻度に基づいて検索することでした。 、名詞と意味的に関連しているかどうかを判断します。潜在的な用途は計り知れません。


もう 1 つのアイデアは、名詞をステム化し、そのステムで始まる形容詞を検索してから、その形容詞の同義語を検索することです。例:

検索ワード:「パソコン」

語幹 : " comput- "

語幹のある形容詞: 計算

同義語: ???


問題は、名詞の形容詞形が常に形容詞形を持っているとは限らず、一部の名詞語幹がひどく間違った形容詞に一致することです。*悪い*例:

検索語: "running" (技術的には動名詞ですが、それでも名詞です)

語幹 : " run- "

語幹のある形容詞: 鼻水

同義語: NOT THE WORDS I WANT. 「アスレチック」、「やる​​気」、「規律」などの言葉を見つけたい


これは以前に行われたことですか?これにどのようにアプローチするかについて提案はありますか? まるで、ドキュメント内の「重要な」単語の形容詞の雲を生成しようとしているかのようです。

編集:この問題には「正しい」答えがないことを認識しています。最高の理論的可能性を備えた方法を提示した人には誰でも賞金を授与します.

0 投票する
1 に答える
1626 参照

compiler-construction - Clang のセマンティック分析ステップはコンパイラの重要な部分ですか?

私は Clang の詳細を理解しようとしていますが、「Sema」ライブラリについてはよくわかりません。コンパイラがプログラムをコンパイルするためにたどるパスのセマンティック分析ですか? それとも、プログラマーが自分のコードを分析するためにのみ使用しますか?

私が収集したものから、パーサーはASTを構築し、ASTを使用してさまざまなことを行う「ASTコンシューマー」があります。そのため、コード生成ライブラリは AST を IR に変換します。また、セマンティック分析ライブラリは AST を使用してコードを分析します。この理解は正しいですか、それともセマンティック アナライザーはコンパイルにも使用されますか?