フォーラム データの巨大なデータベースがあります。NLP の目的で、データベースからコーパスを抽出する必要があります。抽出ステップにはパラメーター (FTS クエリなど) があり、コーパスをパラメーター メタデータと共にファイル システムに保存したいと考えています。
一部のコーパスは、数十メガバイトの大きさになります。ファイル全体をロードせずにメタデータを読み取ることができるように、ファイルをメタデータとともに保存する最良の方法は何ですか。
関連する可能性のある次のテクノロジーを使用しています:PyQt、Postgres、Python、NLTK。
いくつかのメモ:
- コーパスを重いデータベースから分離したい。
- メタデータの構造は非常に単純なので、sqlite は使用したくありません。
- Pickling では、私が知る限り、部分的な非シリアル化は許可されていません。
- 個別のメタデータ ファイルを用意したくありません。
- 私はプロトコルバッファの経験がありますが、やはり扱いが難しすぎるようです。
メタデータを文字列にピクルして、ファイルの最初の行にメタデータを表すことができると思います。これは私が考える最も簡単な方法のようです。つまり、pickle 形式が ASCII セーフである場合です。