人々がタイトルをどのようにスラッグ化するかを少し調べた後、英語以外のタイトルを処理する方法が見当たらないことがよくあることに気づきました。
urlエンコーディングは非常に制限されています。http://www.blooberry.com/indexdot/html/topics/urlencoding.htmを参照してください
だから、例えば、人々は次のようなもののタイトルスラッグをどのように扱うのですか?
「Unalágrimacayóenlaarena」
インド・ヨーロッパ語族の合理的な表を考え出すことができます。ISO-8859-1を介してエンコードできるもの。たとえば、変換テーブルは'á'=>'a'を変換するため、スラッグは次のようになります。
「una-lagrima-cayo-en-la-arena」
ただし、Unicodeを使用している(特にUTF-8エンコーディングを使用している)ため、取得するソートコードポイントについての保証はありません(ISO-8859-1エンコードできないものに備える必要があります。
私は一言で言えば。これにどのように対処しますか?ISO_8859-1の範囲(<255)の文字の変換テーブルを考え出し、それ以外はすべて削除する必要がありますか?
編集:もう少しコンテキストを与えるために、先験的に、私は実際にはインド以外のヨーロッパ言語でデータをスラッグ化することを期待していませんが、そのようなデータに遭遇した場合は計画を立てたいと思います。拡張ASCIIの変換テーブルがあれば便利です。ポインタはありますか?
また、人々が尋ねているので、私はGoogleAppEngineで実行されているPythonを使用しています