d - ubyte[]を指定されたエンコーディングにデコードする方法は?

Question

問題は、実行時にエンコーディングが設定されている場合にファイルを解析する方法ですか?

エンコーディングは次のとおりです: utf-8、utf-16、latin1またはその他

目標は、選択したエンコーディングから ubyte[] を文字列に変換することです。std.stdio.File.byChunk または std.mmFile.MmFile を使用すると、データとして ubyte[] があるためです。

score 1 · Accepted Answer

テキストファイルをutf-8に変換しようとしていますか? 答えが「はい」の場合、フォボスにはこれに特化した機能があります@trusted string toUTF8(in char[] s)。詳細については、 http://dlang.org/phobos/std_utf.htmlを参照してください。

必要なものではない場合は申し訳ありません。

score 0 · Accepted Answer

私は方法を見つけました。おそらくstd.algorithm.reduceを使用する方が良いはずです

import std.string;
import std.stdio;
import std.encoding;
import std.algorithm;

void main( string[] args ){
    File f = File( "pathToAfFile.txt", "r" );
    size_t i;
    auto e = EncodingScheme.create("utf-8");
    foreach( const(ubyte)[] buffer; f.byChunk( 4096 ) ){
        size_t step = 0;
        if( step == 0 ) step = e.firstSequence( buffer );
        for( size_t start; start + step < buffer.length; start = start + step )
            write( e.decode( buffer[start..start + step] ) );
    }
}

score 0 · Accepted Answer

D 文字列はすでに UTF-8 です。トランスコーディングは必要ありません。validatefromを使用しstd.utfて、ファイルに有効な UTF-8 が含まれているかどうかを確認できます。readTextfromを使用するstd.fileと、検証が行われます。

score 0 · Accepted Answer

File.byChunk は、front 経由で ubyte[] を返す範囲を返します。

簡単なGoogle検索は、UTF-8が1から6バイトを使用してデータをエンコードすることを示しているように見えたので、常に6バイトのデータがあり、std.encodingのデコードを使用してdchar文字に変換できることを確認してください。その後、std.utf の toUFT8 を使用して、dstring の代わりに通常の文字列に変換できます。

以下の convert 関数は、符号なしの配列範囲を文字列に変換します。

import std.encoding, std.stdio, std.traits, std.utf;

void main()
{
    File input = File("test.txt");

    string data = convert(input.byChunk(512));

    writeln("Data: ", data);
}

string convert(R)(R chunkRange) 
in
{
    assert(isArray!(typeof(chunkRange.front)) && isUnsigned!(typeof(chunkRange.front[0])));
} 
body
{
    ubyte[] inbuffer;
    dchar[] outbuffer;

    while(inbuffer.length > 0 || !chunkRange.empty)
    {
        while((inbuffer.length < 6) && !chunkRange.empty)// Max UTF-8 byte length is 6
        {
            inbuffer ~= chunkRange.front;
            chunkRange.popFront();
        }

        outbuffer ~= decode(inbuffer);
    }

    return toUTF8(outbuffer); // Convert to string instead of dstring
}

d - ubyte[]を指定されたエンコーディングにデコードする方法は?

4 に答える 4

Related

Reference