個人的な経験と制限などの理解の両方に関する質問です。たとえば、100,000 行 (エントリ) のテキスト ファイルと 100,000 の同一のエントリを含むデータベースがあり、それぞれに 1 つの単語が含まれ、ダブルはありません。より速く処理でき、メモリ消費が最も少ないのはどれですか?
テキストファイル全体を最初にリストにメモリにロードできることを理解しています(約1MBのみ)。この情報は、文字列の内容を確認するために使用されています。文字列内の (スペースで区切られた) すべての単語がファイルに存在する必要があります。存在しない場合、リスト内の最も類似したエントリに変更されます。一言で言えば、非常に高度なオートコレクトです。残念ながら、車輪の再発明をしなければなりません。
とにかく、私の質問はまだ残っています。私の最良の選択はどれですか?私は可能な限り最小限の外部モジュールを使用しようとしているので、SQLite に固執するかもしれないと考えています (それは標準ですよね? もう 1 つ害はありませんが) 改行区切りのテキスト ファイルが私の最速で最も経済的である場合オプション、それらを処理するための具体的な方法はありますか? Python などの言語で計算が可能であれば、このスクリプトで 1 秒間に少なくとも 100 回の一致操作を実行できるようにしたいと考えています。