0

PDF 形式の何千もの試験がありますが、その問題を標準形式 (JSON、YML、または XML) に抽出したいと考えています。

それらは多肢選択式です:

質問1

月面を初めて歩いた人は誰ですか?

a) ユーリ・ガガーリン

b) エレン・リプリー

c) ニール・アームストロング

d) シェパード

質問2

太陽系にはいくつの惑星がありますか?

ア)10

ロ)12

ウ 14

エ) 15

(...)

JSON の場合:

{
  "number": 1,
  "wording": "Who as the first man to walk on the moon",
  "alternatives": {
    "a": Yuri Gagarin
    "b": Ellen Ripley
    "c": Neil Armstrong
    "d": Shepard
  }
}

注意点として、これらの試験は異なる教師によって行われたため、若干異なる場合があります。つまり、プレーンテキストに抽出しても、正規表現を使用して一致させることはできません。(私が試したところ、組み合わせ(文言構造/代替構造)は巨大です)

例えば:

「質問X(...)」。

「質問(X)(...)」。

「質問X - (...)」。

"バツ) (...)"。

"バツ- (...)"。

代替案も変更される可能性があります。

(...)

を。(...)

あ- (...)

1) (...)

プログラムに質問を「教え」て見つけさせるには、ある種の機械学習ツールが必要だと思います。

別の方法として、質問 (印刷物) が互いに物理的に離れているため、それらの PDF を画像に変換し、何らかの画像認識を使用できると考えました。

それは実現可能ですか?それらの質問を特定するためのツール (パッケージ、ライブラリ、アルゴリズム) はありますか?

4

1 に答える 1

0

あなたの問題に対する単純な機械学習ソリューションはありません。PDF が 1000 で、フォーマットが 10 の場合、フォーマットごとに文字列パーサーを作成することをお勧めします。機械学習の道をたどると、解決策を見つけるまでの時間が長くなる可能性があります。Pythonが役立つはずです。

于 2014-07-20T05:53:32.657 に答える