Tika には、まだペルシャ語の言語プロファイルが同梱されていません。バージョン 1.0 の時点で、27 の言語がすぐにサポートされます。
languages=be,ca,da,de,eo,et,el,en,es,fi,fr,gl,hu,is,it,lt,nl,no,pl,pt,ro,ru,sk,sl,sv,th,uk
li
あなたの例では、入力は0.41の距離で(リトアニア語)として誤検出され、0.022の確実性しきい値を超えています。の内部作業の詳細については、ソース コードを参照してくださいLanguageIdentifier
。
デフォルトでは、ペルシャ語 (ペルシャ語、ISO 639-1 2 文字コード) は認識されません。fa
Tika に別の言語を認識させたい場合は、最初に言語プロファイルを作成する必要があります。
これには、次の手順が必要です。
あなたの言語のテキストコーパスを見つけてください。ハムシャーリ コレクションを見つけました。これで十分です。コーパスまたはその一部をダウンロードし、XML からプレーン テキスト ファイルを作成します。
言語識別子の ngram ファイルを作成します。これはTikaCLIを使用して実行できます。
java -jar tika-app-1.0.jar --create-profile=fa -eUTF-8 fa-corpus.txt
fa.ngp
これは、n-gram を含む
ファイルと呼ばれます。
新しい言語を認識するように Tika を構成します。プログラムを使用してこれを行うLanguageIdentifier.initProfiles()
か、プロパティ ファイルを名前tika.language.override.properties
とともにクラスパスに配置します。ngram ファイルがクラスパスにもあることを確認してください。
Tika を実行すると、言語が正しく検出されるはずです。
更新: 言語プロファイルを作成するために必要な手順の詳細。