エンコーディング、文字、テキストの基礎を学びたいです。これらを理解することは、それがログ ファイルであろうと集合知のアルゴリズムを構築するためのテキスト ソースであろうと、大量のテキスト セットを処理するために重要です。私の今の知識は、「UTF-8さえ使えば大丈夫」というようなごく基本的なことです。
高度なトピックについてすぐに学ぶ必要があるとは言いません。しかし、私は知る必要があります:
- エンコーディングに関するビットおよびバイトレベルの知識。
- 英語で使用されていない文字とアルファベット。
- マルチバイトエンコーディング。(私は中国語と日本語をある程度理解しています。そしてそれらを解析することは重要です。)
- 正規表現。
- テキスト処理のアルゴリズム。
- 自然言語の解析。
また、数学とコーパス言語学の理解も必要です。現在および将来の Web (セマンティック、インテリジェント、リアルタイム Web) には、大きなテキストの処理、解析、および分析が必要です。
いくつかの弾丸を使い始めるためのリソース (おそらく本?) を探しています。(スタック オーバーフローでは、正規表現に関する有益な議論が数多く見つかります。そのため、そのトピックに関するリソースを提案する必要はありません。)