djangoプレイリスト管理を備えた小さなicecast2ホームサーバーがあります。また、エンコーディングが壊れたmp3がたくさんあります。まず、Pythonでエンコーディング修復ツールを見つけようとしましたが、うまくいくものは見つかりませんでした( python-ftfy、nltk - ユニコード入力をサポートしていません)。
私はbeets
、メディア タグを解析するためにスイス ナイフのように pip を使用します。これは非常にシンプルで、ほとんどの場合、ほぼ十分だと思います。
文字セットの検出には を使用chardet
しますが、短い文字列に問題があるため、遭遇したエンコーディングに対していくつかの強制調整を使用します。エンコーディングが間違っている場合は、すべてのタグで間違っていると思われるため、使用されているすべてのエンコーディングを最初に収集します。
class MostFrequentEncoding(dict):
def from_attrs(self, obj):
for attr in dir(obj):
val = getattr(obj, attr)
self.feed(val)
def feed(self, obj):
if obj and isinstance(obj, basestring):
guess = chardet.detect(obj)
encoding = guess['encoding']
if encoding not in self:
self.setdefault(encoding, {'confidence': 0.0, 'total': 0})
self[encoding]['confidence'] += guess['confidence']
self[encoding]['total'] += 1
def encodings(self):
return sorted(self, key=lambda x: self[x]['total'], reverse=True)
微調整は次のとおりです。
charset_coercing = {
('MacCyrillic', 'windows-1251'): {'MacCyrillic': -0.1},
}
つまり、MacCyrillic
とwindows-1251
チャンスが同時にある場合、 を優先する必要がありwindows-1251
ます。
def fix_encoding(src, possible_encodings):
if not isinstance(src, basestring) or not src:
return src
guess = chardet.detect(src)
first_encoding = guess['encoding']
encodings = list(possible_encodings) # copy possible encodings
if first_encoding in encodings: # we believe chardet, so first tested
encodings.remove(first_encoding) # encoding will be the one, detected by chardet
encodings.insert(0, first_encoding)
encodings_set = set(encodings)
tested_encodings = { k:{'string': '', 'confidence': -1.0} for k in encodings }
try:
lat = src.encode('latin-1') if isinstance(src, unicode) else src # make latin string
except UnicodeEncodeError:
lat = src.encode('utf-8') # may be not necessary, should return src?
while encodings:
candidate = encodings.pop(0)
if not candidate:
continue
if not candidate in tested_encodings:
tested_encodings.setdefault(candidate, {'string': '', 'confidence': -1.0})
try:
fixed_string = lat.decode(candidate)
except UnicodeDecodeError:
continue
# try to detect charset again
fixed_confidence = chardet.detect(fixed_string)['confidence']
# it seems, that new confidence is usually higher, if the previous detection was right
tested_encodings[candidate]['string'] = fixed_string
tested_encodings[candidate]['confidence'] = fixed_confidence
# perform charset coercing
for subset, coercing_encodings in charset_coercing.items():
if set(subset).issubset(encodings_set):
for enc, penalty in coercing_encodings.items():
tested_encodings[enc]['confidence'] += penalty
result = tested_encodings.get(first_encoding)
if result['confidence'] >= 0.99: # if confidence value for first detection is high, use it
return result['string']
max_confidence_charset = max(tested_encodings, key=lambda x: tested_encodings[x]['confidence'])
return tested_encodings[max_confidence_charset]['string']
メディア ファイルの解析:
def extract_tags(media_file):
try:
mf = MediaFile(media_file)
except:
return {}
mfe = MostFrequentEncoding()
mfe.from_attrs(mf)
encodings = mfe.encodings()
tags = {}
for attr in sorted(dir(mf)):
val = getattr(mf, attr)
if not val or callable(val) or \
attr in ['__dict__', '__doc__', '__module__', '__weakref__', 'mgfile', 'art']:
continue
fixed = fix_encoding(val, encodings)
tags[attr] = remove_extra_spaces(fixed) if isinstance(fixed, basestring) else fixed
if mf.art:
tags['art'] = { 'data': mf.art, 'mime': imghdr.what(None, h=mf.art) }
return tags
そして、例えば使用法:
f = '/media/Media/Music/Jason Becker/Jason Becker - Perpetual Burn/02__1.mp3'
pprint(extract_tags(f))
ここに完全なスクリプトがあります。解析中にアルバムのアスキー カバーを表示できます。
動作しているようですが、Python で維持されているスイス ナイフ エンコーディングの修復ライブラリはありますか?