検索可能なPDFからテキストを抽出するSDKをテストしています。SDKの依存関係の1つが最近更新されたため、ヘブライ語テキストの既存のテストが失敗します。ヘブライ語も、関連するテクノロジーが右から左への言語をどのように表現するかについても十分に知りません。
NUnitテストは、抽出されたテキストがC#文字列"מנבוצץז"と一致することを表明します。
string hebrewText = reader.ReadToEnd();
Assert.AreEqual("מנבוצץז ", hebrewText);
ラスタライズされたPDFには、同じ文字であると私が信じているものがありますが、順序が逆です。
単体テストは次のメッセージで失敗します。
予想:「מנבוצץז」
しかし、だった:「זץצובנמ」
実際の結果は、ラスタライズされたPDFに表示されるものとより厳密に一致しますが、元のテストが間違っているかどうかは完全にはわかりません。
- C#文字列のヘブライ語文字は、印刷されたヘブライ語テキストのように右から左に読むことになっていますか?
- .NETスタックの一部がヘブライ語の文字列の方向を改ざんしていますか?
- NUnitはどうですか?
- 検索可能なPDFに埋め込まれたヘブライ文字は、通常、ラスタライズされたテキストと同じ方向に進むことになっていますか?
- この単体テストを「修正」するかどうかを決定する前に、他に知っておくべきことはありますか?