python - Python で Unicode 文字列から改行文字を削除する際の問題

Question

Unicode テキストがあります。出力を印刷する前に、テキストからすべての改行文字を削除したかったのです。私のコードは次のようになります。

input_string = u'\u3010JK\u3011\u9032\u5b66\u306b\u56f0\u3063\u305f\uff2a\uff2b\u304c\u5148\u751f\u306b\u52a9\u3051\u3066\u3082\u3089\u3046\u305f\u3081\u306b\uff33\uff25\uff38\uff01.mov'
output_string = ' '.join(input_string.splitlines())
print output_string

私は、ライブラリメソッドがすべての汚い改行 uncicode 文字のケースを処理することを望んでいました。ただし、このメソッドは指定された入力から改行文字を削除しないようです。指定された入力から改行文字を削除する解決策を提案してください。

score 6 · Accepted Answer

私のPythonによると、文字列にはカテゴリの文字Cc（制御文字）が含まれていません：

>>> unicodedata.category(u'\n') in map(unicodedata.category, input_string)
False

したがって、この文字列には改行はありません。unicodedata.nameこれを確認します：

>>> for c in s: print unicodedata.name(c)
... 
LEFT BLACK LENTICULAR BRACKET
LATIN CAPITAL LETTER J
LATIN CAPITAL LETTER K
RIGHT BLACK LENTICULAR BRACKET
CJK UNIFIED IDEOGRAPH-9032
CJK UNIFIED IDEOGRAPH-5B66
HIRAGANA LETTER NI
CJK UNIFIED IDEOGRAPH-56F0
HIRAGANA LETTER SMALL TU
HIRAGANA LETTER TA
FULLWIDTH LATIN CAPITAL LETTER J
FULLWIDTH LATIN CAPITAL LETTER K
HIRAGANA LETTER GA
CJK UNIFIED IDEOGRAPH-5148
CJK UNIFIED IDEOGRAPH-751F
HIRAGANA LETTER NI
CJK UNIFIED IDEOGRAPH-52A9
HIRAGANA LETTER KE
HIRAGANA LETTER TE
HIRAGANA LETTER MO
HIRAGANA LETTER RA
HIRAGANA LETTER U
HIRAGANA LETTER TA
HIRAGANA LETTER ME
HIRAGANA LETTER NI
FULLWIDTH LATIN CAPITAL LETTER S
FULLWIDTH LATIN CAPITAL LETTER E
FULLWIDTH LATIN CAPITAL LETTER X
FULLWIDTH EXCLAMATION MARK
FULL STOP
LATIN SMALL LETTER M
LATIN SMALL LETTER O
LATIN SMALL LETTER V

score 1 · Accepted Answer

この文字列には、改行や改行のようなものはありません。33 文字あり、すべて印刷可能な文字であり、書式設定されていません。

printステートメントが最後に改行を追加するという事実と、 sys.stdout.write?の動作に混乱しているかもしれません。

python - Python で Unicode 文字列から改行文字を削除する際の問題

2 に答える 2

Related

Reference