1

この質問は、コーディングよりも哲学に関係している可能性があります。nltk は、文の各単語をタガーでマークするタグ パッケージと、単語をその原形に変換するステム パッケージの両方を提供します。ステマーは、非正規の単語を原形に変換できないことがよくあります。たとえば、「It's」から「It is」、「knew」から「know」、「got」から「get」などです。タガーが「's」を動詞として正しい形 (「VBZ」) として正しくタグ付けし、「知っていた」(「VBD」) と「知っている」(" VB")。「知っていた」が過去形の動詞であることはすでにわかっているので、なぜそれが「ステマーが基本形を正しく返すのは難しいですか? パフォーマンスは満足のいくものではありませんが、入手可能な最良のステム機能は Snowball ステム機能のようです。

4

1 に答える 1

2

ステマーは、非正規の単語を原形に変換できないことがよくあります。

ステマーは、本来の目的を果たしています。「通常、ステミングとは、ほとんどの場合、この目標を正しく達成することを期待して単語の末尾を切り取る粗雑なヒューリスティック プロセスを指し、多くの場合、派生接辞の削除が含まれます。レンマタイゼーション通常、単語の語彙と形態素分析を使用して物事を適切に行うことを指し、通常は語尾変化のみを削除し、単語の基本形または辞書形を返すことを目的としています。これは補題として知られています。」(ソース

言語的に適切な基本形が必要な場合は、代わりにレンマタイザーを使用してください。

于 2013-08-23T10:48:59.127 に答える