6

私は、グラマースクールの満足度と一般的な問題を調査することを目的とした生徒のチームの「プログラマー」です。1 から 6 までのスケールに基づいて作成された質問があり、Python で作成したダイアグラム ソフトウェアによってこれらの回答を解釈します。

<textarea>質問の最後に、好きなように使用できる があります。現在、このデータを使用できるようにする方法を考えています (800 以上の回答を読みたくありません)。

Python でテキスト分析を使用して、生徒が書いたものを調査するにはどうすればよいですか? 次のように、書き留めた文に「タグを付ける」方法を考えていました。

I don't like being in school. [wellbeing][negative]
I have way too much homework. [homework][much]
I think there should be more interesting projects. [projects][more]

それを取得するための使用可能なアプローチはありますか? 既存のトークナイザーを使用することは理にかなっていますか?

ご協力いただきありがとうございます!

4

4 に答える 4

2

まあ、私はここでアイデアを投げかけているだけです..しかし、私が考えることができる1つのアプローチは、

  1. クラスタリング アルゴリズムを使用して、最初に応答をクラスタ化します。K-means のようなものか、LDA のようなものを使用してトピック モデリングを行うことができます。

  2. 次に、テキスト分析を行うことでタグ付けアプローチを使用して、ステップ 1 で取得した各クラスター/トピックで頻繁に使用される/関連するキーワードを生成できます。

なぜステップ 1 が良い考えなのか? ええと、私の意見では、テキスト分析を行っているときに、任意に文にタグを付けると、多くのタグが生成される可能性があります。それらの多くは文脈が似ています。したがって、使いやすさが低下する可能性があり、各文の大量のタグを分析する必要があります.

クラスタリング/トピック モデリングを使用すると、コンテキストの問題をある程度軽減することもできます。したがって、私の意見ではより使いやすいです。

于 2012-12-09T10:40:13.360 に答える
1

あなたの質問にはあまり答えません。しかし、最後に小さなテキストエリアの質問がある古典的なアンケート(チェックボックスなど)があることを理解していれば...

したがって、約800以上の回答が得られます。しかし、答えはそれほど長くはないと思います。通常、それは数行または数単語でさえあります...手動のQDAソフトウェアは、完璧ではないアルゴリズムよりも優れていると思います. たとえば、オープン ソースの RQDA (R プロジェクト パッケージ) や Nvivio などの商用ソフトウェアを使用できます...

ありがとう

于 2012-12-10T13:59:36.293 に答える
1

「NLTK 感情分析」は、検索を開始するのに適した場所です。Natural Language Toolkit、Python でテキスト分析を行うためのパッケージですが、タスクが非常に複雑であるため、単純ではありません。最初のいくつかの結果には説得力のあるデモがありましたが、詳細には見ていませんでした。

于 2012-12-09T12:35:23.650 に答える
0

これは、質問と回答に「タグを付ける」という理由だけで、AI プログラミングによく似ています。http://pyaiml.sourceforge.net/と人工知能マークアップ言語を見てください。私はあまり経験がありませんが、ゼロから行うのではなく、必要に応じて微調整できる場合があります。

于 2012-12-09T10:40:39.577 に答える