0

私は、既存のサイト (英語で書かれている) のローカライズ版を別の国 (英語圏ではない) 向けに設計するプロジェクトに取り組んでいます。そして、ビジネス要件は「すべての可能なケースと不可能なケースに英語のテキストがないこと」です。

サイトが完全に翻訳されているかどうか、つまり英語のテキストが含まれていないかどうかをチェックできるチェッカー ソフトウェア/サービスがあるかどうかは誰にもわかりません。

壊れたリンク、html の有効性などをチェックするためのサイトがあることを新しく知りました。

この方法が必要であると私が考える理由は次のとおり
です。 1. すべての国で (バックエンドとフロントエンドの両方で) 共通のコードがたくさんある
2. 誰かが共通のコードに何かをコミットした場合、これがそうではないことを確認する必要がありますローカライズされたバージョンで英語のテキストの問題が発生します。
3. ビジネスの観点からは、英語のテキストを表示するよりも、サイトが一部の機能をサポートしていないことが望ましい (法的事項)
4. フロントエンドとバックエンドの両方のコードが大幅に変更される
5. テキストに影響するファイルが多数あるクライアントの画面で。残念ながら、メッセージのあるものだけではありません。一部のメッセージはバックエンドから送信されますが、ほとんどはフロントエンドにあります
6.これらすべての事実により、現在、誰かが手動ですべてのフォームに記入し、自分の目で見ています。それは、各展開の前です...

4

2 に答える 2

1

あなたは間違った方向から問題に取り組んでいると思います。テキストが英語であるかどうかを検出できるアルゴリズムまたは Web クローラーをお探しですか? わかりませんが、そのようなものが存在することさえ疑わしいです。

ウェブサイトを翻訳したことがあれば、コードベースや翻訳テキストに完全にアクセスできますよね? Notepad++ のような比較ツールで英語と非英語の両方の文字列ファイル (.resx または使用しているファイル) を開いて違いを確認し、不足している文字列があるかどうかを確認することはできませんか? ソースコードをチェックして、ユーザーに表示可能なテキストを出力できるすべてのパーツが meta:resourceKey プロパティ (または使用しているもの) を使用していることを確認します。

于 2013-01-12T20:42:37.093 に答える
1

クロールの方法を使用したい場合、これを行う既存のクローラーは知りませんが、2 つの単純な問題の組み合わせのように思えます。

  1. Web クローラー用の既存のオープンソース コードを見つけるのは非常に簡単です。
  2. テキストに使用できる言語の数が限られている場合、n-gram 分析による言語の識別は簡単です。

唯一の困難な部分は、アナライザーが常に適切なテキストのチャンクを処理できるようにすることです。段落ごとに内容を抽出できます。フォームの場合、おそらくいくつかのフォーム ラベルのテキストを結合する必要があります。

于 2013-02-22T17:53:14.767 に答える