7

どうにかしてそれを行う方法を説明することができた人を喜ばせることができます:-)

追加する必要がある言語の n-gram ファイルを取得する必要がありますか?

を作成しtika.language.override.properties、他の lang コードを追加して、classPath に lang-code.ngp n-gram ファイルを追加することは問題ですか? その場合、どこで入手できますか? また、これだけの問題である場合、Tika がより多くの言語をサポートしていないのはなぜですか?

現在、言語検出でサポートされている言語は次のとおりです。

da,de,et,el,en,es,fi,fr,hu,is,it,lt,nl,no,pl,pt,ru,sv,th

tika は従来の n-gram 表記を使用します

er_ 132232
_de 103517
en_ 82666
et_ 80661
for 65286
_fo 57945
de_ 51382
der 44049
at_ 41915
det 41381
_og 40344
_at 39482
ing 38707
den 36795
og_ 36577
_me 34924
nde 34528

この言語検出アプリケーションは現在これらの言語をサポートしていますが、n-gram ファイルが少し異なります

af  bg  cs  de  en  fa  fr  he  hr  id  ja  ko  ml  ne  no  pl  ro  sk  sq  sw   te  tl  uk   vi     zh-tw ar  bn  da  el  es  fi   gu  hi  hu  it  kn  mk  mr   nl   pa  pt  ru  so   sv  ta  th   tr  ur  zh-cn

JSON表記で

{"freq":{"D":9246,"E":2445,"F":2510,"G":3299,"A":6930,"B":3706,"C":2451,"L":2519,"M":3951,"N":3334,"O":2514,"H" ....
4

1 に答える 1

1

TIKA-490のように見えますが、新しい言語プロファイルを追加できるはずです。TIKA-546は、まだそれほど簡単ではないことを示しているようです。それまでの間、Nutch の NGramProfile ツールから始めて、出力を微調整する必要があります。

Nutch ツールを使用してファイルを生成し、TIKA-490 のコメントを参照して使用方法の詳細を確認することをお勧めします。

于 2011-06-03T16:35:54.390 に答える