問題タブ [fuzzywuzzy]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
3456 参照

python - Python fuzzywuzzy マッチのインデックスを取得する

私はfuzzywuzzy文のリストで一致を見つけるためにPythonを使用しています:

一致とその周りの文を印刷しようとしています:

残念ながら、スクリプトは元のリストで一致を見つけることができません。

ValueError: (u'したがって、上記の 2 つの目的に加えて、この本は少なくとも 2 つのグループ向けに書かれています: 1.', 59) はリストにありません

元のリストで一致のインデックスを見つけるより良い方法はありますか? どのように私にそれを与えることができますfuzzywuzzyか?それについてのreadmeには何もないようです。

によって返された一致の元のリストでインデックスを取得するにはどうすればよいfuzzywuzzyですか?

0 投票する
1 に答える
1582 参照

pandas - パンダとあいまい一致

現在、2 つのデータ フレームがあります。fuzzywuzzy の process.extractOne 関数を使用して、クライアント名のあいまい一致を取得しようとしています。サンプル データに対して次のスクリプトを実行すると、良好な結果が得られ、エラーは発生しませんが、現在のデータ フレームに対して次のスクリプトを実行すると、属性エラーとタイプ エラーの両方が発生します。セキュリティ上の理由からデータを提供することはできませんが、提供されたスクリプトに基づいてエラーが発生する理由を誰かが理解できる場合、私は大いに義務付けられます.

いくつかの例がないとトラブルシューティングが難しくなることはわかっているので、質問に答えて投稿を編集し、このプロセスに役立つようにします. 具体的なエラーは次のとおりです。

1.AttributeError: 'dict_keys' オブジェクトには属性 'items' がありません

2.TypeError: 文字列またはバッファが必要です

0 投票する
4 に答える
21386 参照

python - fuzzywuzzy という名前のモジュールはありません

python3用のpipでfuzzywuzzyをインストールしました。ピップリストを実行すると表示されます

ただし、インポートしようとするとエラーが発生します。

誰もこの問題の経験がありますか?

0 投票する
1 に答える
9208 参照

python - 各行をデータ フレーム内のすべての行と比較し、結果を各行のリストに保存します

各行を pandas データフレーム内のすべての行と比較しfuzzywuzzy.fuzzy.partial_ratio() >= 85、結果を各行のリストに書き込もうとしています。

例:

ライブラリで pandas 関数を使用しfuzzywuzzyて結果を取得したい:

しかし、これを取得する方法がわかりません。

0 投票する
3 に答える
1149 参照

python - あいまい検索 Python

たとえば、大きなサンプル テキストがあります。

「動脈性高血圧は、合併症の結果、患者の生存予後を左右する可能性があります。テンスタテンは、予防的治療(処理)の枠組みに入ります。彼(彼女、その)報告(関係)の効率/不要な影響が重要です。 . 利尿薬、テンスタテンが最初に意図した薬. 治療上の代替手段は非常に多数あります.

そして、テキストで「生存の予後を確認する」かどうかを検出しようとしていますが、あいまいな方法です。たとえば、「生存の予言に関与している」も肯定的な答えを返さなければなりません。

fuzzywuzzy、nltk、および新しい正規表現ファジー関数を調べましたが、実行する方法が見つかりませんでした:

0 投票する
1 に答える
811 参照

python - Python でデータベース内の類似の文字列を識別する

100 万をはるかに超える文字列を含むデータベース テーブルがあります。各文字列は、長さが 2 語から 5 語または 6 語までさまざまな用語です。

また、csv ファイルには、数千を超える小さな用語のブラックリストがあります。私がやりたいことは、データベース内の類似した用語を csv ファイル内のブラックリストに登録された用語と識別することです。この場合の類似性は、ブラックリストに登録された用語のスペルミスと解釈できます。

私は、レーベンシュタイン距離を使用して文字列の類似性を評価し、類似性の整数表現を返すことができるfuzzywuzzyなどの Python のライブラリに精通しています。このチュートリアルの例は次のとおりです。

このアプローチの欠点は、別の文脈で何かを意味する用語を誤って識別する可能性があることです。

この単純な例は、ブラックリストに登録された文字列「big butt」で、「big but」のような無害な文字列と混同されます。

私の質問は、python でこれを達成することはプログラム的に可能ですか、それとも似たようなキーワードをすべて取得して誤検出をフィルタリングする方が簡単でしょうか?

0 投票する
1 に答える
2702 参照

python - Pandasを使用してExcelファイルでファジーマッチングを行うにはどうすればよいですか?

ID と NAME の 2 つの列を持つ account というテーブルがあります。ID は一意のハッシュですが、NAME は重複する可能性のある文字列です。

このExcelファイルを読み取り、0〜3個の同様のNAME値に一致するPythonスクリプトを作成しようとしていますが、うまく動作しないようです。誰か助けてくれませんか?ありがとう

どんな助けでも大歓迎です!

ファイルには次のような行があります:-

予想される(出力データフレーム)は次のようになります。

問題: 上記のコードは、一致するものを実際に連結せずに、出力保存ファイルとして入力を再現するだけです。

0 投票する
1 に答える
3342 参照

python - fuzzywuzzy を使用してデータフレームに新しい列を作成する

データフレームの最初の列を2番目の列と一致させるためにPythonでパッケージをpandas使用しているデータフレームがあります。fuzzywuzzy

最初の列、2 番目の列、部分比率スコアで出力を作成する関数を定義しました。しかし、それは機能していません。

助けてください

よろしく

-そろばん

0 投票する
1 に答える
809 参照

python - nltk pythonでUnigramTaggerのスペルミスを処理するには?

私はPython nltkライブラリを使用して名前付きエンティティの認識を行っていUnigramTaggerます.カスタムタグトークンを使用しています.そして、それは完全にうまくいきます. 問題は、タガーがモデルで言及した単語に正確にタグ付けすることです.スペルミスがあると、単語を見つけることができません. この問題を解決するにはどうすればよいですか? 比率検索を許可する方法は気に入りfuzzywuzzyましたが、同じ機能が nltk タガーによって提供されているかどうかはわかりません。ここで助けが必要です。ありがとう。