これに関する最初の検索の後、私は少し迷っています。
バッファ オブジェクトを使用して、一連の Unicode コード ポイントを保持したいと考えています。上記のシーケンスからトークンをスキャンして抽出する必要があるだけなので、基本的にこれは読み取り専用バッファーであり、バッファー内でポインターを進め、サブセグメントを抽出する機能が必要です。もちろん、バッファ オブジェクトは通常の正規表現と文字列の検索操作をサポートする必要があります。
これには通常の Unicode 文字列を使用できますが、問題は、バッファ内でポインタを進めることをシミュレートするために部分文字列のコピーを作成することです。何らかの回避策がない限り、これはより大きなバッファーに対して非常に非効率的であるようです。
適切なオブジェクトがあることがわかりMemoryview
ますが、Unicode をサポートしていません (?)。
上記の機能を提供するために他に何が使用できますか? (Py2 か Py3 か)。