問題タブ [machine-translation]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - nltk.align.bleu_score.bleu でエラーが発生するのはなぜですか?
中国語の文章の BLEU スコアを計算すると、0 の値が見つかりました。
候補文はc
and 2 つの参考文献はr1
andr2
コードは:
しかし、私は結果を得ました0
。プロセスに足を踏み入れたときbleu
、私はそれを見つけました
上記のプログラムは に進みexcept ValueError
ます。ただし、これがエラーを返す理由がわかりません。他の文を試すと、ゼロ以外の値を取得できます。
nlp - moses train-model.perl スクリプト エラー、--lm factor:order:filename が必要
私が実行すると:
示した:
エラー: --lm factor:order:filename を使用して、/home/zhanwang/mosesdecoder/scripts/training/train-model.perl 行 597 で少なくとも 1 つの言語モデルを指定します。
root@zhanwang-virtual-machine:/home/zhanwang/mosesmodel/corpus3# $MOSES/scripts/training/train-model.perl
しかし、因子モデルは使いたくありません。
これも試してみてください。同じことを見せてください。どんなパラメーターを試しても、 -- を使用するように求められますlm factor:order:filename
。
標準フレーズ モデルの場合、通常、次のようにトレーニング スクリプトを実行します。
構文ベースの翻訳モデルを構築したいのですが、どうすればよいですか?
ここに私のコーパスがあります:
ghkm ルールを抽出し、「バージニア州の都市を教えてください」を翻訳できるモデルを構築したいと考えています。「回答市 loc_2 州 ID 'バージニア'」に
machine-translation - Odashi/mteval の使用エラー: 共有オブジェクト ファイルを開けません
mteval-sentence -e BLEU RIBES -r ref.tok -h hyp1.tok
Ubuntuでコマンドを実行しようとすると、エラーが発生し続けます。エラーは「mteval-sentence: 共有ライブラリの読み込み中にエラーが発生しました: libmteval.so.0: 共有オブジェクト ファイルを開けません: そのようなファイルまたはディレクトリはありません」です。任意のヒント?
neural-network - 注意 モデルの実装 Keras/Theano
Keras/Theano を使用した機械翻訳のアテンション モデルの実装を探しています。Groundhog のようなライブラリに出くわしましたが、まず基本的な実装を探しています。
python - tensorflow rnn モデルの重みの観察
ここで公開されている tensorflow rnn 翻訳モデルを使用しています:
翻訳モデル
私は自分の考えに従って、このコードの一部を変更したいと考えています。
最初にやりたいことはtarget_weights
、各レイヤーの を確認することです。
私が知っていることは、最初はtarget_weights
パディング用のゼロと文の各単語用の 1 の配列が含まれているということです。
初期化後、session.run メソッドに渡され、確実に変更されます。
ここで、学習プロセス中にこの配列が直面する変化をどのように確認する必要があるかを誰かが知っているかどうかを知りたいです。
または、各レイヤーの重みを確認し、各レイヤーに対応する値を確認するにはどうすればよいですか。
前もって感謝します
machine-learning - 機械翻訳における単語のアラインメントの形式は何ですか?
私はこの論文を読んでいますが、単語の配置がどのように表現されるかを理解するのに苦労しています。正確には、セクションのすぐ下で、ソース文の長さの範囲とターゲット文の範囲内の範囲が4.1
アラインメントの形式であると著者は言います。これは、各アラインメントが 2 つの数値のペアであることを意味します。これは、通常、文が 40 ~ 100 語を超えず、 の値であり、typeを使用して格納できることを前提としています。したがって、これらのアライメントを格納するために必要なスペースの量は. しかし、次のページに行くと、セクション のすぐ上に、スペースが であると書かれています。なぜ?私は混乱していますか?(i,j)
i
j
i
j
short
2 x sizeof(short) x number of word alignments
4.2
sizeof(short) x number of word alignments
algorithm - 字句構造転送に最適なパーサー アルゴリズムは?
より大きなプロジェクトの一環として、言語Aから言語Bへの機械翻訳を実装したいと考えています。この言語セットを自動的に機械翻訳するツールがなく、利用可能な言語 B のコーパスが非常に少ないため、次のことを試みています。
1.言語Aの文が与えられた場合、ツールを使用して言語A PoS (品詞) タグのセットを取得します。
2.私が PoS タグ付けに使用しているツール (Freeling) は解析ツリーを返さないので、一連のタグから独自の解析ツリーを構築することを考えました。
3.解析ツリーが完成したら、それをレベルごとにトラバースし (ルートから開始)、言語Bの文法規則に従って要素を並べ替えます。
いくつかの調査を行った後、Earley 解析 (言語Bの文法は時間の経過とともに変化する可能性があるため、任意の言語を解析する能力に注目したため、特定の基準を常に満たすとは保証できません) について知りました。 ただし、私の最終的な目標は構造転送を行うことであるため、ボトムアップパーサーを使用して要素をルールに一致させて並べ替えようとすることでパフォーマンスが向上するかどうか、または間違った道を進んでいるかどうかはわかりません私の解決策は完全に間違っています。
python - Tensorflow で 2 つの異なる LSTM セルを使用する
ニューラル マシン トランスレータを作成していますが、2 つの異なるLSTM セル (エンコーダ用とデコード用) を使用する必要があります。
2 つのセルの形状は異なります。
- エンコーダー (最初のもの) は入力文のトークンを受け取り、状態ベクトルを生成します
- デコーダー (2 つ目) には前の状態ベクトルが供給され、それ自体によって生成されたトークン
これを Tensorflow で記述しました。スクリプトを実行すると、次のエラーが発生しました (デコーダ フェーズで発生しました)。
まったく新しい LSTM セルを作成することを明示的に指定するにはどうすればよいですか?
前もって感謝します !
アレクシス
machine-learning - ラテン語(英語、ドイツ語)からアラビア語への音声翻訳
機械翻訳に関する論文をいくつか読みましたが、よくわかりませんでした。
言語モデル (Google 翻訳) は、私が知る限り、音声学と機械学習を使用しています。
私の質問は、ユーザーが意図したアラビア語の単語を翻訳するために、英語で発音的に綴られたアラビア語の単語を変換することは可能ですか?
たとえば、「Hadith」という単語は、アラビア語の「حديث」の英語の音声学です。プログラムで「ハディース」からアラビア語に変更できますか?
c# - Microsoft Translator Bad request (400) の問題
この問題に関するスレッドを見てきましたが、私の問題は特に混乱しています。200 万文字の無料サブスクリプション、有効なクライアント ID とシークレットがあります。コードを実行すると、API を数回正常に呼び出すことができます (私が見た中では、連続して 75 回の呼び出しが成功しました)。次に、他のすべての呼び出しが不正な要求応答を返します。リモート サーバーがエラーを返しました: (400) 不正な要求。
資格情報を使用して一度トークンを作成し、二度と作成しません。ファイルをループして解析し、API を呼び出して、解析されたすべての文字列を翻訳用に送信します。私が今気づいているある種の限界に達しているようです。
私のアカウントを見ると、既に翻訳した文字が割り引かれているようには見えないため、トークンを作成するときに資格情報が間違っているのではないかと非常に疑わしくなります。私はそれを4回チェックしましたが、すべて問題ないようです。
ここで私が見逃している可能性があるものについてのガイダンスは大歓迎です。
トークンを作成するコードは次のとおりです。ただし、無料サブスクリプションでは認識していない未知の制限がある可能性があると思います.
API 自体を呼び出すコードは次のとおりです。ループから API メソッドを呼び出します。
API の呼び出しが数回成功した後、次のメッセージが表示されるようになりました。 System.Net.WebException: リモート サーバーがエラーを返しました: (400) 要求が正しくありません。System.Net.HttpWebRequest.GetResponse() で Translate.TranslateText.Program.RunBing(文字列スターム) で