2

日本語と英語のテキストを含む文字列が与えられた場合、次のようにします。

  1. 日本語部分をひらがなからカタカナ、半角から全角に変換します。
  2. 文字列を単語で分割します (日本語のテキストは、単語を区切るためにスペースを使用しません)

私は現在、優れた iOS / OS X 文字列ライブラリ (何百もの複雑さとエッジ ケースに対応しています) を使用しています。

CFStringTransformkCFStringTransformHiraganaKatakana定数で。

enumerateSubstringsInRange:options:usingBlock:NSStringEnumerationByWords定数で。

検索はクライアントからサーバーに移動しているため、これらのメソッドの PHP または Python バージョンが必要です。

4

1 に答える 1

0

おそらくnltkjpまたはtiny segmenter で、両方ともnltkと互換性があります。日本語コーパスについては、萩原雅人のサイトを参照してください。

于 2013-04-09T12:59:39.050 に答える