3

中国語テキストを含む UTF-8 CSV ファイルなど、Unicode データを適切に処理する CSV (コンマ区切り値) パーサーの Java 実装を探しています。そのようなパーサーは、反復、比較などの際にコードポイント関連のメソッドを内部的に使用する必要があると思います.Apache 2ライセンスまたは同様のライセンスが最適です。

4

3 に答える 3

4

私は車輪の再発明を信じていません。したがって、私は自分のパーサーを作成して、他の誰かがしたのと同じ頭痛の種を経験したくありません。

個人的にはOstermillerの CSV Parser が気に入っています。興味がある場合は、Maven リポジトリもあります。


OpenCSVも確認できます。Unicode の解析に関するスタック オーバーフローの質問が既にあります。

于 2009-12-23T18:40:47.190 に答える
0

Commons CSVを試しましたか?

于 2009-12-23T19:58:18.610 に答える
-1

自分で書くのはとても簡単です。FileInputStreamとUTF-8を使用するInputStreamReaderを使用してファイルを開きます。それをBufferedReaderでラップし、readLine()を使用して反復処理できます。各行を文字列として取得します。正規表現を使用してフィールドに分割します。

唯一注意が必要なのは、引用符で囲まれたコンマをフィールド区切り文字として扱わないように正規表現を作成することです。

上記のアプローチは少し非効率的ですが、ほとんどのアプリにとっては十分に高速です。実際のパフォーマンス要件がある場合は、文字を反復処理するものが必要になります。私は数年前に、正常に動作するステートマシンを使用するものを作成しました。

于 2009-12-23T18:32:44.343 に答える