machine-learning - 試験問題の識別 (テキスト認識)

Question

PDF 形式の何千もの試験がありますが、その問題を標準形式 (JSON、YML、または XML) に抽出したいと考えています。

それらは多肢選択式です:

質問1

月面を初めて歩いた人は誰ですか?

a) ユーリ・ガガーリン

b) エレン・リプリー

c) ニール・アームストロング

d) シェパード

質問2

太陽系にはいくつの惑星がありますか?

ア）10

ロ）12

ウ 14

エ) 15

(...)

JSON の場合:

{
  "number": 1,
  "wording": "Who as the first man to walk on the moon",
  "alternatives": {
    "a": Yuri Gagarin
    "b": Ellen Ripley
    "c": Neil Armstrong
    "d": Shepard
  }
}

注意点として、これらの試験は異なる教師によって行われたため、若干異なる場合があります。つまり、プレーンテキストに抽出しても、正規表現を使用して一致させることはできません。（私が試したところ、組み合わせ（文言構造/代替構造）は巨大です）

例えば：

「質問X（...）」。

「質問（X）（...）」。

「質問X - (...)」。

"バツ）（...）"。

"バツ- （...）"。

代替案も変更される可能性があります。

(...)

を。(...)

あ- (...)

1) (...)

プログラムに質問を「教え」て見つけさせるには、ある種の機械学習ツールが必要だと思います。

別の方法として、質問 (印刷物) が互いに物理的に離れているため、それらの PDF を画像に変換し、何らかの画像認識を使用できると考えました。

それは実現可能ですか？それらの質問を特定するためのツール (パッケージ、ライブラリ、アルゴリズム) はありますか?

score 0 · Accepted Answer

あなたの問題に対する単純な機械学習ソリューションはありません。PDF が 1000 で、フォーマットが 10 の場合、フォーマットごとに文字列パーサーを作成することをお勧めします。機械学習の道をたどると、解決策を見つけるまでの時間が長くなる可能性があります。Pythonが役立つはずです。

machine-learning - 試験問題の識別 (テキスト認識)

1 に答える 1

Related

Reference