問題タブ [text-normalization]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
516 参照

ruby - StringScanner からアイテムをキャプチャするにはどうすればよいですか?

Ruby の StringScanner を使用して、英語のテキストを正規化しています。

代わりに、私はちょうど得て" mice"います。

StringScanner#scanと をキャプチャしていませ(\d)(\w+)

0 投票する
1 に答える
2144 参照

ruby-on-rails - Postgres 全文検索を使用して完全一致を検索する最良の方法は何ですか?

約 150 万レコードの Postgres データベースがあります。私の Ruby on Rails アプリでは、statement_textフィールド (1 から数百の単語を含む可能性があります) を検索する必要があります。

私の問題: pgSearchgem を使用してsearch_all_wordsやのようなスコープを作成できることはわかっていますが、正確に一致するレコードのみが結果セットに返されるsearch_any_wordsようにする最も効率的な方法が何であるかはわかりません。

つまり、"Pope Francis" を検索する場合、これらの 2 つの単語が連続していて同じ順序である場合にのみ検索する必要があります (たとえば、"教皇の名前は Francis" ではありません)。

これまでのところ、GIN インデックスとILIKE完全一致検索を組み合わせただけです。しかし、GIN インデックスが基本的にすべてのレコード内の単語の正確な位置を格納することILIKEによって機能することを考えると、検索語がフィールドと完全に一致することを保証するより効率的な (非) 方法があるはずではありませんか?

0 投票する
0 に答える
29 参照

python - 数の品詞を決定する

特定の番号について、コンテキストに応じて、それが電話番号なのか数量値なのかを区別したいと考えています。私が今持っている 1 つのアイデアは、その品詞を理解することですが、NLTK を使用してそれを行うのに問題があります。

例: 「あなたは何冊の本を持っていますか? 私は 911 本持っています。」この場合、911は形容詞なので「NINE HUNDRED AND ELEVEN」に変換する必要があります。しかし、この文では「119 番に電話してくれませんか、緊急事態です!」911は名詞(電話番号)ですので、「NINE ONE ONE」に変換してください。

NLTK でトークナイザーを使用すると、911 が基数であるとしか表示されませんが、より具体的な品詞が得られるように変更する方法はありますか? (名詞、形容詞、または代名詞が欲しい)