PDF 形式の何千もの試験がありますが、その問題を標準形式 (JSON、YML、または XML) に抽出したいと考えています。
それらは多肢選択式です:
質問1
月面を初めて歩いた人は誰ですか?
a) ユーリ・ガガーリン
b) エレン・リプリー
c) ニール・アームストロング
d) シェパード
質問2
太陽系にはいくつの惑星がありますか?
ア)10
ロ)12
ウ 14
エ) 15
(...)
JSON の場合:
{
"number": 1,
"wording": "Who as the first man to walk on the moon",
"alternatives": {
"a": Yuri Gagarin
"b": Ellen Ripley
"c": Neil Armstrong
"d": Shepard
}
}
注意点として、これらの試験は異なる教師によって行われたため、若干異なる場合があります。つまり、プレーンテキストに抽出しても、正規表現を使用して一致させることはできません。(私が試したところ、組み合わせ(文言構造/代替構造)は巨大です)
例えば:
「質問X(...)」。
「質問(X)(...)」。
「質問X - (...)」。
"バツ) (...)"。
"バツ- (...)"。
代替案も変更される可能性があります。
(...)
を。(...)
あ- (...)
1) (...)
プログラムに質問を「教え」て見つけさせるには、ある種の機械学習ツールが必要だと思います。
別の方法として、質問 (印刷物) が互いに物理的に離れているため、それらの PDF を画像に変換し、何らかの画像認識を使用できると考えました。
それは実現可能ですか?それらの質問を特定するためのツール (パッケージ、ライブラリ、アルゴリズム) はありますか?