2

エンコーディング、文字、テキストの基礎を学びたいです。これらを理解することは、それがログ ファイルであろうと集合知のアルゴリズムを構築するためのテキスト ソースであろうと、大量のテキスト セットを処理するために重要です。私の今の知識は、「UTF-8さえ使えば大丈夫」というようなごく基本的なことです。

高度なトピックについてすぐに学ぶ必要があるとは言いません。しかし、私は知る必要があります:

  • エンコーディングに関するビットおよびバイトレベルの知識。
  • 英語で使用されていない文字とアルファベット。
  • マルチバイトエンコーディング。(私は中国語と日本語をある程度理解しています。そしてそれらを解析することは重要です。)
  • 正規表現。
  • テキスト処理のアルゴリズム。
  • 自然言語の解析。

また、数学とコーパス言語学の理解も必要です。現在および将来の Web (セマンティック、インテリジェント、リアルタイム Web) には、大きなテキストの処理、解析、および分析が必要です。

いくつかの弾丸を使い始めるためのリソース (おそらく本?) を探しています。(スタック オーバーフローでは、正規表現に関する有益な議論が数多く見つかります。そのため、そのトピックに関するリソースを提案する必要はありません。)

4

2 に答える 2

3
  • ウィキペディアに加えて、エンコーディングに関するJoelSpolskysの記事も本当に良いです。
  • この無料の文字コード表は、すべてのUnicode文字に適したリソースです。
  • この正規表現 のチュートリアルが役立ちます。
  • 特にNLP日本語については、この日本のNLP プロジェクトをご覧ください。
  • テキスト処理で、このオープンソースプロジェクトが役立ちます。
于 2010-05-01T03:08:40.387 に答える
0

最も一般的な「Xトピックについて学びたい」という質問でよくあることですが、ウィキペディアは開始するのに適した場所です。

http://en.wikipedia.org/wiki/Character_encoding

http://en.wikipedia.org/wiki/Natural_language_processing

于 2010-05-01T02:56:28.197 に答える