問題タブ [sequencematcher]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - csvの2つの列を比較し、別のcsvで文字列類似度を出力する
私はPythonプログラミングに非常に慣れていません。文字列値の 2 つの列を持つ csv ファイルを取得しようとしており、両方の列の文字列の類似度を比較したいと考えています。次に、値を取得して比率を別のファイルに出力したいと思います。
csv は次のようになります。
列 1 の文字列が列 2 とどのように類似しているかを出力ファイルに行ごとに表示する必要があります。比率スコアを出力するために difflib を使用しています。
これは私がこれまでに持っているコードです:
エラーが発生します:
列リストを正しくインポートして、sequencematcher 関数に対して実行していないように感じます。
python - difflib.SequenceMatcher isjunk引数は考慮されていませんか?
Python difflib ライブラリでは、SequenceMatcher クラスが予期しない動作をしていますか、それとも想定される動作を読み違えていますか?
この場合、isjunk の引数が何の違いもないように見えるのはなぜですか?
私の理解では、スペースを省略した場合、比率は 1 になるはずです。
python - Pythonで複数の文字列間の無効な文字を削除するには?
スペイン語で OCR を使用するプロジェクトに取り組んでいます。カメラは、テキスト行のさまざまなフレームをキャプチャします。テキスト行には次の内容が含まれます。
Este texto, es una prueba del dispositivo lector para no videntes.
いくつかの操作の後、次のような文字列が得られます。
次のような最終的な文字列でスキャンされた行のテキストを取得できるように、文字列を結合したいと思います。
まずSequenceMatcher
、2 つの文字列の間で使用しようとしましたが、効果的ではありませんでした。
|
結果には、またはのような無効な文字が含まれています!
。
s2
との間s3
:
など。 Windows 7 で python 2.7 を使用しています。
python - Python 3.6 SequenceMatcher().get_matching_blocks() はどのように機能しますか?
SequenceMatcher.ratio()
2 つの文字列の類似性を取得するために使用しようとしています:"86418648"
と"86488648"
:
返される比率は です0.5
。これは、2 つの文字列で異なる文字が 1 つしかないため、予想よりもはるかに低くなっています。
マッチングブロックをもとに比率を算出しているようです。だから私は実行しようとしましたSequenceMatcher.get_matching_blocks()
:
しかし、私は結果が次のようになると予想していました:
最初の 3 つの数字が一致しなかった理由を説明できる人はいます"864"
か?