問題タブ [text-normalization]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
ruby - StringScanner からアイテムをキャプチャするにはどうすればよいですか?
Ruby の StringScanner を使用して、英語のテキストを正規化しています。
代わりに、私はちょうど得て" mice"
います。
StringScanner#scan
と をキャプチャしていませ(\d)
ん(\w+)
。
ruby-on-rails - Postgres 全文検索を使用して完全一致を検索する最良の方法は何ですか?
約 150 万レコードの Postgres データベースがあります。私の Ruby on Rails アプリでは、statement_text
フィールド (1 から数百の単語を含む可能性があります) を検索する必要があります。
私の問題: pgSearch
gem を使用してsearch_all_words
やのようなスコープを作成できることはわかっていますが、正確に一致するレコードのみが結果セットに返されるsearch_any_words
ようにする最も効率的な方法が何であるかはわかりません。
つまり、"Pope Francis" を検索する場合、これらの 2 つの単語が連続していて同じ順序である場合にのみ検索する必要があります (たとえば、"教皇の名前は Francis" ではありません)。
これまでのところ、GIN インデックスとILIKE
完全一致検索を組み合わせただけです。しかし、GIN インデックスが基本的にすべてのレコード内の単語の正確な位置を格納することILIKE
によって機能することを考えると、検索語がフィールドと完全に一致することを保証するより効率的な (非) 方法があるはずではありませんか?
python - 数の品詞を決定する
特定の番号について、コンテキストに応じて、それが電話番号なのか数量値なのかを区別したいと考えています。私が今持っている 1 つのアイデアは、その品詞を理解することですが、NLTK を使用してそれを行うのに問題があります。
例: 「あなたは何冊の本を持っていますか? 私は 911 本持っています。」この場合、911は形容詞なので「NINE HUNDRED AND ELEVEN」に変換する必要があります。しかし、この文では「119 番に電話してくれませんか、緊急事態です!」911は名詞(電話番号)ですので、「NINE ONE ONE」に変換してください。
NLTK でトークナイザーを使用すると、911 が基数であるとしか表示されませんが、より具体的な品詞が得られるように変更する方法はありますか? (名詞、形容詞、または代名詞が欲しい)