問題タブ [metaphone]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 距離やメタフォンを編集しますか?
私は、「インターネット用語」でいっぱいのオンライン レビュー データに取り組んでいます。単語について語彙分析を行いたいと思います。簡単に言えば、インターネットで使用されている言語を考慮できるスペルチェッカーが必要です。いくつかの調査の後、私は2つのアプローチを見つけました:
- 編集距離の修正版であるテキストブリュー。
- サウンドベースのアプローチを採用したMetaphone。
PS。データを解析して、「lol」、「lmao」などのネット用語をきれいにします。私の唯一の懸念はスペルが間違っている単語であり、Java に取り組んでいます。
java - それらの英語以外のキャラクターのメタフォンを入手することは可能ですか?
Java では、英語以外の文字を英語の文字に変換できます。
たとえば、私は欲しい:
すぐ..
以下の方法を試すと
また
彼らは皆、結果としてKrz?ka?aを与えますか?
私はこのプロセスをoracle sqlで単純に言って行うことができます:
デュアルから;
そしてKRZAKALAを入手してください。
私はJavaでそれもとても単純でなければならないと思いますか???
java - Metaphone アルゴリズムからの予期しない結果
Java でさまざまな単語に音声マッチングを使用しています。私はSoundexを使用しましたが、粗すぎます。Metaphone に切り替えて、その方が優れていることに気付きました。しかし、私が厳密にそれをテストしたとき。私は奇妙な行動を見つけました。それが metaphone の仕組みなのか、それとも間違った使い方をしているのかを私は尋ねなければなりませんでした。次の例では、正常に動作します:-
これは印刷されます
"cricket" は "cricket" のように聞こえますが、なぜ "cricket" と "cricketgame" は同じなのでしょうか。誰かがこれを説明するなら。それは大いに役立つでしょう。
r - MetaPhone 関数 (SoundEx など) 関数と R での使用?
MetaPhone、Double Metaphone、Caverphone 、MetaPhone3、SoundExを使用したいと考えています。まだ誰かがそれを行っている場合は、 「R」内でNameX関数を使用して、同様の値を分類および要約して、分析前のデータ クレンジング操作を最小限に抑えることができます。
各アルゴリズムには独自の長所と短所があり、SoundEx を使用したくないことを十分に認識していますが、代替手段が見つからない場合でも機能する可能性があります。この投稿で述べた ように、 Harperは、SoundEx の下にある無関係な名前のリストのいずれかと一致しますが、より良い結果の一致のために Metaphone では一致しないはずです。
ある程度の柔軟性を維持しながら、どれが私の目的に最も適しているかはわかりませんが、値を確認する前に、それらのいくつかを試して、次のような表を生成したいのはそのためです。
姓は私の最初の分析の対象ではありませんが、同じ値として扱われる「響きのある」単語のようなすべてを効果的に検討したいので、これは良い例だと思います。 .
私がすでに見たいくつかのこと:
- C パッケージを作成してRCppで呼び出すことができることは知っていますが、SEの SoundEx には C ソリューションもありますが、以前に R パッケージを作成したことがなく、より簡単な方法があれば車輪の再発明を避けたいと考えています。 Rで直接行うか、機能を利用できるパッケージが存在しますか?
- RecordLinkageと現在のstringdistパッケージには SoundEx 関数がありますが、どの形式の MetaPhone 関数もありません。
だから私は具体的に答えを探しているのは、MetaPhone / CaverphoneがRでどのように機能し、「値」を知っているので、データ値をグループ化できるかということです。
追加の注意点は、私は R を毎日使用しているわけではないので、まだ R に慣れていないと考えていることです。
sphinx - メタフォンとワイルドカード検索を備えた Sphinx
私たちは解剖学のプラットフォームであり、検索にはスフィンクスを使用しています。検索をよりあいまいにしたいと考えており、metaphone を使用してスペルミスを修正し始めました。たとえばphalanges
、検索ワードが であっても見つかりfalanges
ます。
それは良いことですが、もっと欲しいです。ユーザーがfalange
or でも入力できるようにしたいのですが、falang
それでもphalanges
. これを達成する方法はありますか?
興味がある場合は、こちらからsphinx 構成ファイルをチェックアウトできます。
ありがとう!