machine-learning - 教師あり学習タスクの特徴としての関係の表現

Question

教師あり学習タスクにオブジェクト間の関係を使用しようとしています。たとえば、"Cats eat fish" のようなテキストが与えられた場合、Cats-eat-fish という関係を学習タスク (つまり、単語の意味を識別する) の特徴として使用したいと思います。したがって、この関係を数値で表して、モデルを学習するための機能として使用できるようにしたいと思います。どうすればそれを達成できるかについての提案。私はそれを整数にハッシュすることを考えていましたが、意味的に同じ2つの関係が2つの非常に異なるハッシュ値を持つ可能性があるなどの課題を引き起こす可能性があります。理想的には、同じ値にハッシュする 2 つの類似した関係 (たとえば、生活と居住地) が必要です。ハッシュする前にリレーションを正規化できるかどうかも把握する必要があると思います。

おそらく数値機能を使用しない他のアプローチも役立つでしょう。この問題に対するグラフベースのアプローチがあるかどうかも疑問に思っています。

score 0 · Accepted Answer

動詞の前の典型的な単語 (通常は主語) と動詞の後の典型的な単語 (通常は目的語) を表現する機能によって動詞を表現するのはどうでしょうか。500 個の最も頻繁に使用される単語 (または最も識別力のある単語) を取得できるとします。各動詞は 1000 次元のベクトルとして表されます。ベクトルの各特徴は、バイナリ (特定のしきい値を超える頻度の単語があるかどうか)、純粋なカウント、またはおそらく対数として最適です。次に、PCA を実行して、ベクトルをより小さな次元に縮小できます。

上記のアプローチは確率論的であり、あなたが望むものに応じて良い場合も悪い場合もあります。多くの手動入力で正確に実行したい場合は、状況セマンティクスを調べてください。

score 0 · Accepted Answer

考えられるすべての関係タイプに対して (非常に多数の) バイナリ機能を作成し、結果の (非常にまばらな) 機能空間で何らかの形式の次元削減を実行することをお勧めします。

これを行うもう 1 つの方法は、スパース性を減らすために、裸の単語をエンティティタイプに置き換えることです。たとえば、[動物] は [動物] を食べたり、[アニメーション] は [アニメーション] を食べたり、この空間でバイナリ機能を使用したりします。 . 単一次元の数値へのマッピングは避けたいと考えています。これを行うと、フィーチャ間に誤った順序関係が課されるためです。

machine-learning - 教師あり学習タスクの特徴としての関係の表現

2 に答える 2

Related

Reference