2

以下のコードを使用してusocketストリームから読み取っていたとき:

(let ((stream (socket-stream sk)) line)
  (loop for line = (read-line stream)
     while line do (format t line)))

read-line が ASCII 以外の文字に遭遇すると、例外がスローされます。

decoding error on stream
#<SB-SYS:FD-STREAM
  for "socket 118.229.141.195:52946, peer: 119.75.217.109..."
  {BCA02F1}>
(:EXTERNAL-FORMAT :UTF-8):
  the octet sequence (176) cannot be decoded.
   [Condition of type SB-INT:STREAM-DECODING-ERROR]

read-line も read-byte も機能しないので、trivial-utf-8 を使用して read-utf-8-string を使用して utf-8 文字列を読み取ろうとしましたが、バイナリ ストリームのみを受け入れ、socket-stream は受け入れないようです。バイナリストリームを作成するので、非ASCII文字を持つソケットストリームから読み取る方法を混乱させましたか?

4

3 に答える 3

1

最初にread-sequence(事前に長さがわかっている場合)またはread-bytesいくつかある間に、それらを文字列に変換できます(babel:octets-to-string octets :encoding :utf-8))(オクテットは です(make-array expected-length :element-type '(unsigned-byte 8)))。

于 2011-12-09T14:04:15.933 に答える
1

表示されるエラーは、読み取ろうとしているデータが実際には有効な UTF-8 データではないことを示しています。実際、176(= #b10110000) は UTF-8 文字を導入できるバイトではありません。読み取ろうとしているデータが他のエンコーディングである場合は、それに応じて Lisp コンパイラの外部フォーマット設定を調整するか、BabelまたはFLEXI-STREAMSを使用してデータをデコードしてみてください。

于 2011-12-10T10:28:57.853 に答える
0

一度それが必要になり、それを行うためのライブラリを探すのが面倒だったので、自分でやりました:)それは最善の方法ではないかもしれませんが、高速で複雑ではないものだけが必要だったので、ここに行きます:

(defun read-utf8-char (stream)
  (loop for i from 7 downto 0
     with first-byte = (read-byte stream nil 0)
     do (when (= first-byte 0) (return +null+))
     do (when (or (not (logbitp i first-byte)) (= i 0))
          (setf first-byte (logand first-byte (- (ash 1 i) 1)))
              (return
            (code-char 
             (dotimes (a (- 6 i) first-byte)
               (setf first-byte
                     (+ (ash first-byte 6)
                        (logand (read-byte stream) #x3F)))))))))
于 2011-12-09T15:43:34.327 に答える