問題タブ [bert-language-model]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
machine-learning - BERT アーキテクチャの簡素化を試みる
BERT について興味深い質問があります。
異なるコンテキストでの 2 つの単語の類似性は、異なるコンテキストを構成する入力埋め込みの類似性に依存すると言って、モデルのアーキテクチャを単純化できますか? たとえば、コンテキスト DRINK_GLASS 内の GLASS とコンテキスト LOVE_WINE 内の WINE の埋め込みの類似性は、入力埋め込み GLASS と WINE (最後の位置) および DRINK と LOVE (最初の位置) の類似性に依存すると言えますか? それとも、DRINK (最初のコンテキスト、最初の位置) と WINE (2 番目のコンテキスト、2 番目の位置) および LOVE と GLASS (その逆) の類似性も考慮に入れる必要がありますか?
助けてくれてありがとう。今のところ、Bert のアーキテクチャを正確に理解することは非常に困難ですが、実験をしようとしているので、いくつかの基本を理解する必要があります。
google-cloud-platform - Huggingface Bert TPU の微調整は Colab では機能するが、GCP では機能しない
TPU で Huggingface トランスフォーマーの BERT モデルを微調整しようとしています。Colab では動作しますが、GCP で有料の TPU に切り替えると失敗します。Jupyter ノートブックのコードは次のとおりです。
エラーメッセージは次のとおりです。
これを Huggingface github ( https://github.com/huggingface/transformers/issues/2572 ) に投稿したところ、TPU サーバーのバージョンが TPU クライアントのバージョンと一致しない可能性があることが示唆されていますが、a) 確認方法がわかりませんそのためにも、b)それについて何をすべきか。提案をいただければ幸いです。