問題タブ [nlp]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
13 に答える
22501 参照

algorithm - 複数形を単数形にする方法は?

ORM用にいくつかのテーブル名を準備していますが、複数のテーブル名を単一のエンティティ名に変換したいと思います。私の唯一の問題は、それを確実に実行するアルゴリズムを見つけることです。これが私が今していることです:

  1. 単語が-iesで終わる場合は、末尾を-yに置き換えます
  2. 単語が-esで終わる場合は、この末尾を削除します。ただし、これは常に機能するとは限りません。たとえば、TypesTypに置き換えます。
  3. それ以外の場合は、末尾の-sを削除します

誰かがより良いアルゴリズムを知っていますか?

0 投票する
1 に答える
223 参照

nlp - 検索エンジン用ロシア語文書コーパス

私は、英語でクエリを受け取り、ロシア語でドキュメントを検索するクロスランゲージ情報検索に取り組んでいます。このシステムを評価するには、検索するロシア語のドキュメントのコレクションがあると便利です。私が検索できるドキュメントのコレクションや、(ウィキペディアは別として) ロシア語のドキュメントを簡単に収集できる Web サイトを知っている人はいますか?

ドキュメントは何でもかまいませんが、人間の知識の特定の領域 (CS、建築、工学、芸術、文献分析など) に含まれていればよいでしょう。

0 投票する
6 に答える
496 参照

language-agnostic - String.Format の適切な冠詞 (a/an)

適切な冠詞 (a/an) を使用しながら名詞を文に適切に挿入する、文化に配慮した方法を探しています。これを行う適切な方法が他の場所に存在する場合は、String.Format を使用できます。

例えば:

基本文: 「あなたは{0}を見ています」

これは、「ニンジンを見ている」または「卵を見ている」のようにフォーマットする必要があります。

現在、挿入する単語の最初の文字を手動で確認してから、「a」または「an」を手動で挿入することでこれを行っています。しかし、アプリケーションが他の言語にローカライズされている場合、これが私を制限するのではないかと心配しています。

この問題に取り組むためのベストプラクティスはありますか?

解決策: この問題は、私が最初に述べた方法でこの問題を解決するためのユーティリティまたはフレームワークが存在しないという点で複雑なようです。(私の状況では) 最良の解決策は、記事を名詞と共にデータベースに保存して、翻訳者が必要なレベルの制御を行えるようにすることです。すべての提案をありがとう!

0 投票する
5 に答える
2663 参照

java - 単語のテキストを分析するためのアルゴリズム

テキストのブロック内にすべての可能なフレーズを作成するアルゴリズムが必要です。たとえば、テキストでは:

次の組み合わせが作成されます。

あなたはその考えを理解します。基本的に重要なのは、文から「フレーズ」の可能なすべての組み合わせを取得することです。これを最適に実装する方法について何か考えはありますか?

0 投票する
14 に答える
17826 参照

ruby - テキストの段落をどのように文に解析しますか? (できればRubyで)

Mr. and Dr. や USA などのケースを考慮して、段落または大量のテキストをどのように文に分割しますか (できれば Ruby を使用)。(文を配列の配列に入れるだけだと仮定します)

更新: 私が考えた解決策の 1 つは、品詞タガー (POST) と分類子を使用して文の終わりを判断することです。

ジョーンズ氏からデータを入手した彼は、イタリアの夏の別荘のバルコニーに出たとき、顔に暖かい日差しを感じました。彼は生きていて幸せでした。

CLASSIFIER Mr./PERSON ジョーンズ/PERSON は感じた/おお/おあたたかい/おお太陽/お上に/おおお彼/お顔/おおとして/おおお彼は/おおお/お外へ/おおお上へ/おおおバルコニー/おお/O 彼の/O 夏/O 家/O in/O イタリア/LOCATION ./O 彼/O は/O 幸せだった/O to/O be/O 生きている/O ./O

POST Mr./NNP ジョーンズ/NNP フェルト/VBD the/DT warm/JJ sun/NN on/IN his/PRP$ face/NN as/IN he/PRP stepped/VBD out/RP on/IN the/DT バルコニー/ NN of/IN his/PRP$ summer/NN home/NN in/IN Italy./NNP He/PRP was/VBD happy/JJ to/TO be/VB alive./IN

イタリアが場所なので、ピリオドが文の有効な末尾であると仮定できますか? 「さん」で終わるので。他の品詞がない場合、これは有効な文末期間ではないと仮定できますか? これは私の質問に対する最良の答えですか?

考え?

0 投票する
3 に答える
59495 参照

java - 優れた自然言語処理ライブラリはありますか

現在のモジュールに NLP を実装する必要があります。ここで役立つ良いライブラリを探しています。「LingPipe」に出くわしましたが、その使い方を完全に追うことができませんでした。
基本的には、平易な英語で入力された顧客の指示(配達指示)をアプリケーションが解読できる機能を実装する必要があります。例えば:

  • 明日の昼12時に受け取ります
  • 6月10日以降のお届け希望
  • 水曜日より前に送信しないでください
  • 注文に XYZ を 10 単位追加する
0 投票する
9 に答える
3175 参照

compiler-construction - Natural Programming Language.... 何を見たいですか?

私はコンパイラの作成を検討しており、「C」スタイルで何かを完成させた後、それを他のモデルに適応させることを検討しています。「自然な」プログラミング言語で見られると予想される構文構造は何ですか?

このコンパイラのターゲット プラットフォームは CLR であり、現在、レクサー/パーサーに Oslo+MGrammar を使用しています (おそらく、これは単にプレイするための言い訳であることがわかります)。

私のプロジェクトの目標の 1 つは、プログラミングが構造化された構文や要求よりも会話のように感じられるようにすることです。

これはもう少し伸ばしたほうがいいと思います。私が取り組んでいるアイデアの 1 つは、クラス宣言を段落のように読むことです。

...翻訳も...

0 投票する
4 に答える
9882 参照

java - JAVA で使用する NLP ツールキットは?

私は、NCBI (National Center for Biotechnology Information) に接続し、そこで記事を検索する Web サイトで構成されるプロジェクトに取り組んでいます。問題は、すべての結果に対してテキスト マイニングを行う必要があるということです。テキストマイニングには JAVA 言語を使用し、Web サイトの開発には ICEFACES を使用した AJAX を使用しています。What do I have : 検索から返された記事のリスト。各記事には ID と要約があります。アイデアは、各要約テキストからキーワードを取得することです。そして、すべてのアブストラクトのすべてのキーワードを比較し、最も繰り返されているキーワードを見つけます。次に、検索に関連する単語をウェブサイトに表示します。何か案は ?私はウェブでたくさん検索しましたが、Named Entity Recognition、Part Of Speech のタグ付け、遺伝子とタンパク質に関する NER の GENIA シソーラスがあることを知っています。すでにステミングを試しました... ストップ ワード リストなど... この問題を解決するための最善の方法を知りたいだけです。どうもありがとう。

0 投票する
2 に答える
593 参照

nlp - STTS タグセットの英訳

ドイツ語の最も一般的な品詞タグセットは、STTS タグセットです。各タグの説明の英訳が必要です。私は言語学者ではないので、これを自分で翻訳するのは気が進まない (資格どころか)。

Google からは何も報告がありませんでした。

0 投票する
3 に答える
465 参照

algorithm - 全文検索結果から (Google と同様に) 関連する小さなテキストを抽出する

ディスカッション フォーラム データベースに全文検索を実装しました。Google の方法で検索結果を表示したいと考えています。非常に長い html ページの場合でも、検索結果リストに表示されるテキストは 2 ~ 3 行だけです。通常、これらは検索語を含む行です。

テキスト自体と検索用語に基づいてテキストの数行を抽出する方法の良いアルゴリズムは何でしょうか。テキスト内で検索用語が出現する前に 1 行のテキストを使用し、その後に 1 行を使用するだけの簡単なことを考えることができますが、それは単純すぎて機能しないようです。

いくつかの方向性、アイデア、洞察を得たいと思います。

ありがとうございました。