2

私の目標は、学生フォーラムのメッセージをコーディングするために教育で使用される一般的なコーディング機器を理解し、おそらく自動化するために使用されるテキスト分類システムを構築することです。

コーディング スキームには 4 つのコード (T、E、I、R) があり、各オンライン フォーラム メッセージにはそのうちの 1 つのみを割り当てることができます。これらのコードは生徒の学習サイクルの段階を表しており、モデルによって、生徒の学習がメッセージに反映される 4 つの段階を経るという理論が立てられています。人間のコーダーによってコード化された 1750 のメッセージがあり、これらの各フェーズ (T、E、I、および R) を定義するものについての洞察を提供できるモデルを構築したいと考えています。

私たちの最初の目標は、重要だと考えたさまざまな機能に基づいて「典型的な」分類器を構築することでした。ただし、回答 (およびその内容) は前のメッセージに依存するため、何らかの方法で「スレッド コンテキスト」を含めたいと考えています。基本的に、議論の前のメッセージのクラスと、特定の作成者の前のメッセージをどうにかして考慮したいと思います。このようなもの:

ここに画像の説明を入力

今、私はこれを始めたばかりで、この問題をモデル化する方法についてさまざまなアイデアを模索しています。私はどういうわけかこれに隠れマルコフ モデルを使用することを考えていましたが、正しい軌道に乗っているのでしょうか?

問題は、これがラベル付けされたデータセットであることを考えると、状態が不明ではないということです。状態を知っており、遷移と放出の確率を推定し、それらを「不明なデータ」の分類に使用したいと考えています (折りたたみまたは本当に新しいメッセージを保持)。

また、状態ごとに複数の観測値があり、使用する機能によっては、多数のテキスト抽出機能がある場合があります。

最後に、各状態は 2 つの以前の状態に依存します。1) スレッド内の以前のメッセージの状態、および 2) 作成者の以前の状態です。これがどういうわけかモデル化できるかどうかはわかりません:)

編集:条件付きランダムフィールドについて学びましたが、今のところ、この種の問題により適しているようです。それらについてのアドバイスはありますか? :)

4

0 に答える 0