問題タブ [mecab]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
nlp - MeCab の出力とタグセットは何ですか?
MeCab のデフォルト出力について教えてもらえますか? MeCab が出力する注釈と、モルフォ アナライザーのタグセットはどこにありますか
誰でも MeCab からのこの出力を解読できますか?
java - MeCab - 日本語の品詞と形態素解析ツールを呼び出す Java ファイルをコンパイルするには?
MeCab (http://mecab.sourceforge.net/#download) を使用して、日本語の文章の単語分割と、すべての単語を品詞でタグ付けしようとしています。http://mecab.sourceforge.net/#install-unixの手順に従って MeCab をインストールしました。150,000 文を処理するシェル スクリプトを書きたくないので (私の Mac OS X ターミナルでは日本語の文字が表示されないため)、既存の Java バインディングを使用しています: http://sourceforge.net/projects/mecab/files /mecab-java/0.98pre3/ . この時点で、指定された test.java ファイルをコンパイルして実行しようとしています。
README は次のとおりです。
コンパイルします: javac test.java. 次に実行します: java -classpath MeCab.jar test -d ../dic. 結果は次のエラーです。
この mecab-java-0.98pre3 ディレクトリの階層がよくわからないので、この test.java を実際にコンパイルして実行する方法がわかりません。アイデアはありますか?ありがとう!
c# - libmecab.dll(MeCab)をC#で動作させるようにしています
日本語の形態アナライザーMeCabをC#プログラム(Visual Studio 2010 Express、Windows 7)で使用しようとしていますが、エンコードに問題があります。私の入力(テキストボックスに貼り付けられた)がこれである場合:
これは、他のエンコーディングのテキストがUTF-8でエンコードされたテキストと間違えられていると思います。ただし、EUC-JPであり、Encoding.Convertを使用してUTF-8に変換しても、出力は変更されません。Shift-JISであると仮定し、同じことを行うと、異なるジブリッシュが発生します。また、テキストを確実に処理している間(MeCab出力がフォーマットされることになっている方法です)、入力をUTF-8として解釈しているようにも見えません。そうすると、出力に1文字の「化合物」で始まる同一の行がすべて含まれるわけではなく、明らかに識別できません。
MeCabのコマンドラインで文を実行すると、さらに別の見た目のジブリッシュが発生します。ただし、繰り返しになりますが、これは左下にある1つの疑問符と括弧の列にすぎないため、Windowsコマンドラインが日本語のフォントをサポートしていないという問題だけではありません。繰り返しになりますが、入力をUTF-8として読み込んでいないだけです。(MeCabをUTF-8モードでインストールしました。)
コードの関連部分は次のようになります。
(もっともらしいものをいじって違いが生じるかどうかを確認するという観点から、「UnmanagedType.AnsiBStr」を「UnmanagedType.BStr」に切り替えてみました。これにより、「AccessViolationException was unhandled」というエラーが発生し、「CharSet = CharSet.Unicode」をDllImportパラメーターに変換します。これにより、出力が「EOS」になります。)
これが私が変換を行ってきた方法です:
提案/挑発?
parsing - Python用のMeCabに変数を渡すにはどうすればよいですか?
コードは次のとおりです。
問題は、文字列をraw_inputに入力した後、IDLEでエラーが発生することです。
ただし、これを行う場合:
適切な結果が得られます:
私が試したのは、最初はUnicodeタグ、Unicodeでテキストファイルに書き込んでテキストを解析すること、その他数百万ものことです。Python2.7とMeCab0.98を実行しています。これが答えられない場合は、エラーに少しでも光を当てていただければ幸いです。
python - Python 2.7 - MeCab で解析された情報をテキスト ファイルに書き込むにはどうすればよいですか?
私は、日本語入力を許可する GUI を作成しました。ファイル > パースに移動すると、テキスト ファイルに書き込みます。そのテキスト ファイルは、MeCab を介して実行され、単語の間にスペースが挿入されます。その後、もう一度テキスト ファイルに書き込まれることになっているので、別の GUI ウィンドウで表示できます。
私が抱えている問題は、解析されたデータをテキスト ファイルに書きたくないということです。初めて書いても問題ありません。また、解析された情報を問題なく IDLE に出力します。パーサーとエラーは次のとおりです。
java - MeCab パス パラメーターは、Windows で空白を受け入れません
MeCab Javaを使用して、Java コードからMecabを呼び出すことに成功しました。次のステートメントを使用して、タガーを初期化します。
filePath
現在、実際に空白文字が含まれている可能性がある問題に直面していますc:\folder name\
。そのようなパスを使用しようとすると、Mecab から次のようなエラーが表示されます。
これは、Mecab が空白を正しく認識しなかったことを意味します。
Mecab に Windows ファイル パスのホワイトスケープを受け入れるように指示するにはどうすればよいでしょうか?
nlp - MeCab にストップワードを追加するにはどうすればよいですか?
「私」、「あなた」などのストップワードを MeCab に追加したいと考えています。しかし、MeCab のマニュアルには、ストップワードの情報が見つかりません。
ios - iOS での MeCab 日本語トークナイザーのオプションは?
https://github.com/FLCLjp/iPhone-libmecabにあるMeCab 用の iPhone ライブラリを使用しています。可能なすべての単語をトークン化するのに苦労しています。具体的には、「吉本興業」を「吉本」と「興業」の 2 つにトークン化することはできません。これを修正するために使用できるオプションはありますか? iPhone ライブラリは何も公開しませんが、objective-c ラッパーの下で C++ を使用します。よりきめ細かい制御を行うために変更できる何らかの設定があるに違いないと思いますが、どこから始めればよいかわかりません。
ちなみに、この「mecab」にタグを付けたい人は、おそらく適切でしょう。新しいタグを作成することはまだ許可されていません。
更新: iOS ライブラリは、libmecab.cpp で定義されている mecab_sparse_tonode2() を呼び出しています。誰かがそのファイルに関する英語のドキュメントを教えてくれれば、それで十分かもしれません。
python - Mac 10.8.3 MeCab Python「シンボルが見つかりません」エラー
「 https://code.google.com/p/mecab/downloads/list 」をインストールしました。
と
たぶんRUBYユーザーも同じエラーです。 http://www.sssg.org/blogs/naoya/archives/2183
でもRUBYはわからない。だから私は彼らの固定された解決策を理解していません。
お願い、誰か助けて~!
lua - Lua と Mecab をバインドするには?
LuaでMecabを使いたいのですが、バインディングの手順がどうしてもわかりません.windows7で仕事をしていません.bingdingsとは共有ライブラリを作るということですか? もしそうなら?Java に関するいくつかのバインド ファイルが表示されます。パッケージ org.chasen.mecab 内のファイルは、それが swig によって作成されたことを示しています。それは私を混乱させます。または、自分で書くだけですか?バインディングの後、Luaで使用したい場合は他に何をすればよいですか?ところで私はmingwを使用しています。
グレートウルフへ:私は次のコマンドを使用してそれを行います
以下のエラーが発生しました。
これらの関数は mecab.h で宣言されているようですが、それを処理する方法がわかりません。