algorithm - 手書きのアンケートを人が書き写す際のエラーを最小限に抑えるプログラムを開発する方法

Question

調査を行うためのカスタムソフトウェアを開発する必要があります。質問は多肢選択式の場合もあれば、ごくまれにフリーテキストの場合もあります。

多肢選択部分の手入力データに誤りがないかチェックするサブシステムの設計を依頼されました。私たちは、ユーザーのデータ入力プロセスをスピードアップし、デジタルフォームと元のアンケートとの間の人間による入力の違いを最小限に抑えようとしています。アンケートは人間のインタビュアーによる手書きのマークとテキストで埋められているため、マークが読みにくい場合や、ユーザーが誤って質問で異なる値を選択する可能性があるため、それを回避したいと考えています。

ソフトウェアには、タイピングの違いを検出するための自動制御が含まれている必要があります。多肢選択問題の各回答が選択される確率は同じです。

この質問には 2 つの部分があります。

GUI。

私が念頭に置いている最も単純なことは、質問表示の最も使いやすいデザインを実装することです。つまり、大きくて読みやすいフォントを使用し、十分なスペースを空けて選択肢を表示することです。他に何かありますか？入力を高速化するために、ドロップダウンリストを使用したいと思います (マウスよりもキーボードを優先します)。質問がセクションにグループ化されているため、そのセクションの質問に対して選択された回答を表示したいのですが、これによりプロセスが遅くなる可能性があります。他のアイデアはありますか？

エラーチェックサブシステム。

多肢選択式の問題で人間のタイプミスを最小限に抑える、またはチェックするために他に何ができますか? これは解決可能な問題ですか？ユーザーが入力した値が手書きのフォームと同じであることを確認する統計的方法はありますか? たとえば、アンケートに 5 つの質問があり、それぞれに 4 つの選択肢があるとします。インタビュアーが紙に記入した n 個の調査フォームがあり、それらをソフトウェアに入力する準備ができているとしましょう。次に、すべてを再確認することなく、n 個の調査を手動で転記する可能性のある偶発的な違いを最小限に抑える方法を考えてみましょう。 n 回のアンケートの 5 つの質問

私の最初の提案は、すべての手書きフォームの処理の最後に、ソフトウェアがいくつかのフォームをランダムに選択して、いくつかの例で応答を再確認することですが、どのような基準でこの選択を行うことができますか? この検証は、重要な方法ですべてをカバーするのに十分でしょうか?

実際の調査は全国レベルで、合計 200 問以上の質問が 56 ページあるため、多くの人が手書きで書くページが多くなり、エラーの可能性を減らし、データ入力の速度を最適化することが意図されています。処理する。面接官がラップトップやハンドヘルドを持っていくのは面倒なので、調査は最初に紙に記入する必要があります。

score 13 · Accepted Answer

オールドスクールと呼んでください。しかし、これを行うための最も実用的な方法は、二重入力を使用することだと思います。2 人のデータ入力担当者が自分の調査に入力し、スタックを交換して他の担当者の調査に入力します。システムが 2 つの違いを検出すると、フラグが立てられます。その後、2 人の店員が頭を合わせて正しい答えを決定します (または、より上級の研究スタッフメンバーなどによってレビューされる場合もあります)。ここにある他のいくつかの提案 (GUI に関する mdma の提案がとても気に入っています) と組み合わせると、エラーの少ないシステムになります。

はい、これによりデータ入力時間が 2 倍になります (おそらく)。ただし、非常にシンプルであり、エラーを大幅に削減できます。OMR のアイデアは素晴らしいものですが、このプロジェクト (全国的な 52 ページの調査) が、単独のハッカーが初めてそれを実装しようとする最良のケースのようには思えません。どのようなソフトウェアが必要ですか? そのために利用できるハードウェアは何ですか? インタビュアーが 4 つの可能な回答すべてに印を付けてから、メモを脇に書き留めるという間抜けなものを特定するには、依然として多くの人的作業が必要です。調査をランダムにサンプリングして、機械が何を意味するかを把握することをお勧めします。 - 読み取りエラー率です。それでも、修正されたデータではなく、エラー率の推定値が得られます。

今回は雇用主に質の高い結果を提供するためのより簡単な方法を試してください。次に、それらの結果を事前検証済みのデータセットとして使用して、次回の OMR の実験に使用します。

score 6 · Accepted Answer

OCR/OMR は、予測不可能な人為的エラーを除外し、かなり予測可能な機械エラーに置き換えるため、おそらく最良の選択です。OCR が苦労する可能性のあるフォームを除外し、これらを修正してスキャン精度を向上させることも可能です。

しかし、元の質問に正面から取り組む：

エラーチェック

本質的に同じことが複数回尋ねられるか、否定的に再び尋ねられるように、質問を関連付けます。相関する質問からの回答も相関しない場合、これは入力エラーを示している可能性があります。
標準からの逸脱: 典型的な応答にパターンがある場合、これらの典型的な応答からの逸脱は、潜在的な入力エラーと見なすことができます。たとえば、質問 2 と 3 の回答が A の場合、質問の回答は C または D である可能性が高くなります。これは、上記の相関関係を一般化したものです。相関関係は、すでに入力されたデータに基づいて動的に計算できます。

GUI

GUI を紙のフォームに似せて、入力担当者が紙で見たものが画面に反映されるようにします。その場合、紙の質問の回答を GUI の間違った質問に入力する可能性は低くなります。
スライダーを使用して現在の質問の場所を紙の上に維持するなど、データ入力担当者に視覚的な支援を提供します。
データを入力するためのカスタムエントリデバイスは、キーボードナビゲーションやリストボックスよりも使いやすい場合があります。たとえば、すべてのオプションが ABC D と綴られたタッチディスプレイなどです。事務員はオプションを押すだけで済み、それが選択されて次の質問が表示されます (短い一時停止の後)。店員が間違えた場合は、各質問の横にある前へ/次へのボタンを使用できます。
入力されたデータの音声フィードバックを提供するため、店員が「A」と入力すると、「A」が聞こえます。

編集: データの二重入力の実行または改善された GUI の実装を検討している場合は、さまざまなアプローチの有効性を評価するためにパイロットスキームを実施する価値があるかもしれません。二重入力は費用がかかる可能性があります (データ入力タスクのコストが 2 倍になります)。これは、精度の向上によって正当化される場合とそうでない場合があります。パイロットスキームを使用すると、デュアルエントリの有効性を迅速かつ比較的安価に評価できます。また、UI を変更せずに 1 人のデータ入力担当者からのエラーのレベルを把握することもできます。これは、UI の変更やその他のエラー削減戦略が必要かどうか、およびそれらを実装するためにどれだけのコストが正当化できるかを判断するのに役立ちます。

関連リンク

score 5 · Accepted Answer

私の最初の提案は、すべての手書きフォームの処理の最後に、ソフトウェアがいくつかのフォームをランダムに選択して、いくつかの例で応答の二重チェックを行うことです。

これが実際に意味のある結果を生むとは思えません。おそらく、エラーは意図的ではなく、ランダムです。ランダムチェックはシステムエラーを見つけますが、フォームの 10% をダブルチェックしても、ランダムエラーの 10% しか見つかりません (フォームの 20% をチェックしてもエラーの 20% など)。

紙の調査はどのように見えますか? 可能であれば、手書きのテストをスキャンし、OCR が検出した回答とデータ入力オペレーターが入力した内容を比較する OCR システムがより良い解決策になると思います。かなりの数のアンケートを手作業でダブルチェックすることになるかもしれませんが、ランダムに選んだ場合よりも、ダブルチェックしたアンケートにエラーが含まれている可能性が高いという確信を持つことができます。

紙の調査がどのように見えるかを制御することもできれば、それはさらに良いことです。OCR が可能な限り正確になるように特別に設計することができます。

score 4 · Accepted Answer

質問を完全に回避して申し訳ありませんが、昨日 eBay に行って、7 インチの Android o/s スレート PC に 99 米ドルを支払いました。世界のペーストプロセッサではなく、大量の RAM を備えているわけでもありませんが、現場でのユーザーアンケートに記入するには十分です。

この問題を解決するために、あなたの組織がインタビュアー 1 人あたり 99 ドルを支払う余裕がないなんて信じられません。

少なくとも上司に提案する価値はありますね。

score 4 · Accepted Answer

エラーを減らすために二重入力を使用するという Matt Parker の提案を支持します。非常にエラーに敏感なデータ入力タスクにトリプルエントリが使用されているのを見たことがあります。

二重入力の良い点は、いくつかの仮定 (主に、エラー率が入力項目と店員間で一貫しているということ) を作成し、入力競合が発生する率を使用して、全体的なエラー率の概算を作成できることです。 .

より洗練された複式記入システムでは、データ入力タスクの一部と個々の店員のエラー率も測定できるため、エラー率を減らすための改善を行うことができます。

score 3 · Accepted Answer

この問題に対するソフトウェアアプローチのベストミックスを実装した後、 AmazonのMechanical Turkプログラムを介して出力を実行し、オリジナルへの文字起こしの人間によるクロスチェックを実行することも検討できます。それらの線に沿った他のプロジェクトはreCaptchaであり（私が知る限り、それは印刷されたテキストOCR専用ですが）、スミソニアンメディアのカタログ化のようなことをしているように見えるBeextraに出くわしました。

score 3 · Accepted Answer

組み合わせたアプローチが必要なように思えますが、実際のフォームは自動処理に適しているはずです。ドキュメントをスキャンして電子版だけを処理することもできます。複数選択入力を自動的に処理できる場合は、ユーザーをループから除外することでエラー率を向上させることができます。OCRパッケージによっては、システムが行った選択についてシステムがどれだけ確実であるかを示す値が返されると思います。その値に応じて、フォームを人に検証してもらいたいと思うでしょう。自由形式のエントリではなく、多肢選択式のマークに ocr を使用することについて話していることに注意してください。これはおそらくそれ自体の問題です。

並行して、ocr システムのエラー率を見つけるために、おそらくランダムチェックを行いたいと思うでしょう。次に、この値を使用して、多肢選択問題の合計の信頼値を決定できます。

人間の入力だけを使用する場合、同様のアプローチが役立つと思います。おそらくすべてのエラーを取り除くことはできないでしょう。なぜなら、人々はエラーを起こし、エラーを修正するためにエラーを起こすからです。しかし、サンプルサイズが十分に大きければ、おそらく人間の入力におけるエラーの割合を決定することができます。この数値は、調査の結果を決定するために使用できます。

他の UI のアイデアとしては、スキャンしたフォームを使用して、UI のチェックボックスが書かれたチェックボックスに近くなるように UI をオーバーレイすることができます。角度のある既知の線がいくつかある場合、フォームの直線化とスケーリングはそれほど難しくありません。UI 入力要素が鉛筆のマークに近い場合、正しい分類のレートが高くなる可能性があります。

おそらく統計分析を使用して、ラインから外れているように見えるフォームを選択することもできますが、均一でない選択によって結果が歪められる可能性があり、均一なランダムエラーよりも悪い可能性があります. 紙のアンケートのデザインによっては、それを UI にコピーすると役立つ場合があります。この 2 つが似ていれば、誰もがエラーを見つけやすくなります。それに固執しないと、アンケートの参考文献の一部になる可能性があります。デザイン（このように役立つかもしれません。

これはかなり大規模な操作のようです。スタッフには統計学者が何人かいると思います。彼らが何を必要としているのか、彼らを助けるために何ができるのか、結果をさらにゆがめるために何をすべきでないのかについて話し合ってください。

score 2 · Accepted Answer

多肢選択式の回答の転記におけるエラーの検出に関しては、複数のデータ入力担当者と統計プロファイリングを使用することをお勧めします。

統計学者は結果を比較して、あるデータ入力ユーザーが入力した回答と他のユーザーが入力した回答の分布が著しく異なる質問があるかどうかを確認できます。その場合、それらの質問にフラグを立てて、フォームから再入力することができます。

フォームがデータ入力担当者にランダムに割り当てられていると仮定すると、入力された結果は、データ入力ユーザーごとに十分な数のフォームに対してかなり類似した回答分布を持つはずです。

score 2 · Accepted Answer

人間による二重チェックは、おそらくエラー数を減らすための最も一般的な方法です。. あなたがそれをスピードアップしたい場合は、一人の人が与えられた回答の総数を計算し、この数をアンケートの一番下に書くことができます（一種の「コントロールサム」）. アプリケーションにデータを入力する人は、その数を特別なフィールドにも入力する必要があります。システムは、与えられた回答の数を計算し、期待値と比較できます。これにより、正確な量の問題は解決できますが、データの正確さは解決できません。

データマイニングのいくつかの方法を使用して、挿入されたデータのエラーを検出することもできます。例: 年齢と給与範囲を尋ねる場合、次のようなルールを作成できます: 年齢 < X の場合、その人の収入は Y を超える可能性が最も高いため、アラートを出して修正を依頼します。これをアソシエーションルールと呼びます

GUI: 紙のフォームの表現に対して 1:1 である必要があります。いくつかのキーボードショートカットは、作業をスピードアップするのに役立つ場合があります。

score 1 · Accepted Answer

前述したように、2 回キーを押します。はい、それは「作業を 2 倍にする」ことですが、それはポイント 2 につながります。

調査を簡単にキーにします。

それらは、キーヤーにとって読みやすいものでなければなりません。注意に関するセクションが強調表示されているため、フォームのノイズから際立っています。

あなたの「GUI」はそうであってはなりません。GUI の主な利点は「発見しやすさ」です。これらの人々は何も「発見」するべきではありません。キー入力を開始したら、キーボードナビゲーションを「唯一の」方法にする必要があります。片手か両手でキーボードを操作し、片手でアンケートページを変更する == マウスを操作する手はありません。画面 (マウスなど) への注意は、キーイングの調査から離れています。

キーヤーは「頭を下げる」必要があり、画面を見る必要はまったくありません。実用的であれば、音声プロンプトを使用してキーヤーがページを切り替えた場所を伝え、キーイングしているものとコンピューターがキーイングしているものが基本的に同じであることを確認することができます。音声によるプロンプトが不可能な場合は、アンケートのページにエントリのユーザーキーを入力してください。コンピュータはページ「2」にあることをすでに「認識」しているため、キーヤーがページ番号を入力すると、同じ場所にあることを検証できます。

キー入力エラーには可聴プロンプトを使用してください。彼らにガベージを入力させないでください。「保存」を押してからエラーを修正してください。データが間違っていることがすぐにわかっている場合は、それらを停止して、すぐに修正してもらいます。コンピューターに止められたことに気付く前に、すでに 3 つのフィールドをキー入力しているため、5 ～ 6 回の「ディンディンディン」以上に注意を引くものはありません。長いアンケートのエラーを監査するのは時間の無駄です。

データ画面を「スクロール」しないでください。ページを前後に移動します。スクロールがしんどい。スクロールすると、画面上のフィールドが移動します。そうでないときは、常に同じ場所にいるので、参加者が画面を見る必要がある場合は、常に同じ場所を見ることができます。

このため、任意の長さのドロップダウンリストを使用してください。いずれにせよ、彼らは画面を見るべきではないので、とにかくドロップダウンを使用すべきではありません。フォームは、何をキーにする必要があるかを正確に伝える必要があります。

データ入力に一貫性を持たせます。できるだけ10キーを使用してください。選択肢が 10 を超えていて、0 ～ 9 がアンケート全体で実用的でない場合は、00 ～ 99 を使用する必要があります。人々はキーをそのように考えないので、オプションに AZ を使用しないでください。彼らは、キーボードの単語パターンを覚えるほど、キーボードの文字を覚えません。01-26 は、どの曜日でも AZ よりもはるかに高速にキーを設定できます。

また、SHIFT キーは味方ではありません。ただし、「英語を入力する」モードの場合は問題ありません。

最後に、アンケートを整理して、すべての「入力」や「空白を埋める」作業を 1 つのセクション (理想的には最後) にまとめます。これにより、残りの 10 キーをブレイズでキー入力し、ゾーンに入ることができ、手を前後に動かす必要がなくなります。多くの人は、"english" と入力するときは "top key" 番号 (つまり、一番上の行を使用) を使用し、そうでない場合は 10 のキー番号を使用します。

score 1 · Accepted Answer

多肢選択問題については、自動スキャンがかなり信頼できるようです。データ入力を開始する前にすべてのドキュメントをスキャンするオプションがある場合は、スキャンを UI に組み込み、コンピューターで推測します。

多肢選択問題の場合は、片面にデータ入力フォームを、もう片面に元のスキャンを用意します。コンピューターの推測が特定のしきい値を超えている場合は、データ入力エリアにその選択肢を入力します。コンピュータの推測が特定のしきい値を下回っている場合 (複数の回答または回答が見つからない)、最初の回答にマークを付けず、その質問を注意が必要として強調表示します。推測がなくても、スキャンされた紙が画面のデータ入力の横に表示されていると便利です。

手書きの回答については、スキャンした入力をデータ入力エリアの横に配置する以外に、本当の提案はありません。画像が元のドキュメントほど判読しにくい場合でも、各質問に正しいテキストが入力されていることを確認するのに役立ちます。かなり一般的な入力エラーは、間違った質問に対して正しい答えが入力された場合に、1 つずれることです。画像を画面に表示すると、それが少し減り、別の人間が確認しやすくなります.

これは、すべてのフォームのレイアウトが同一であることを前提としているため、特定のページの特定の部分を表示するコードを記述して、それがフォームの正しい部分であると期待できます。

score 0 · Accepted Answer

閉ループシステムを設計します。

定期的な担当者が入力する二重盲検の「参照フォーム」を時々挿入して、パフォーマンスを自動的に評価し、成功率に基づいてフィードバックを提供する必要があります。

これにより、人的要因の動機が制御され、入力エラーの主な原因が排除されます。

algorithm - 手書きのアンケートを人が書き写す際のエラーを最小限に抑えるプログラムを開発する方法

12 に答える 12

Related

Reference