私は常に新しいことを学ばなければならないことに気づきました。新しい科目を学ぶプロセスを早める方法を考えてみました。ウィキペディアの記事を解析し、最も重要な情報以外をすべて削除するプログラムを作成できれば、すばらしいと思いました。
PDFに関するウィキペディアの記事から、最初の 100 文を抽出することから始めました。私は、それがどれほど価値があると思ったかに基づいて、各文にスコアを付けました. 最終的に、次の形式のファイルを作成しました。
<sentence>
<value>
<sentence>
<value>
etc.
次に、このファイルを解析し、各文を指定した値と関連付けるさまざまな関数を見つけようとしました。機械学習や統計学などを学び始めたばかりなので、いろいろ手探りでやっています。これは私の最新の試みです: https://github.com/JesseAldridge/Wikipedia-Summarizer/blob/master/plot_sentences.py。
まったく相関関係がないように思われるものをたくさん試してみました -- 単語の長さの平均、記事内の位置など(より具体的には、小文字の 'e' の数を数えるのが最もうまくいくようです)。しかし、それは少し不自由に思えます。なぜなら、より長い文には有用な情報が含まれる可能性が高いことは明らかだからです。
ある時点で、いくつかの興味深い関数を見つけたと思ったのですが、(内側の四分位数だけを数えて) 外れ値を削除しようとすると、すべての文に対して単純に 0 を返し、悪い結果になることが判明しました。これは、私が間違っている可能性のある他の多くのことについて疑問に思いました...また、これがこの問題に取り組む良い方法であるかどうかも疑問に思っています.
私は正しい軌道に乗っていると思いますか?それとも、これは単なるばかげた用事ですか?リンクされたコードに明らかな欠陥はありますか? ウィキペディアの記事を要約する問題にアプローチするより良い方法を知っている人はいますか? まとめるのに長い時間がかかる完璧なものよりも、迅速で汚い解決策が欲しい. 一般的なアドバイスも歓迎します。