6

さて、通常はトピック モデル (LDA、pLSI など) を使用して、一連のドキュメントに存在する可能性のあるトピックを教師なしで推測します。LDAの問題を解決するために利用できる非常に優れたツールがあるので、私の問題をLDAフレームワークに押し込む方法について誰かがアイデアを持っているかどうか知りたい.

徹底するために、入力として次の情報を用意しています。

  • ドキュメントのセット (各セグメントがドキュメントである、1 つの生物からの DNA のセグメント)
    • このシナリオでは、ドキュメントは 1 つのトピックのみを持つことができます
  • 一連のトピック (他の生物の DNA のセグメント)
  • この場合の単語は、塩基のトリプレットです (今のところ)

私が答えたい質問は次のとおりです。現在のドキュメントのトピックは何ですか? 言い換えれば、与えられた DNA セグメントについて、それが最も可能性が高い他の生物 (同じ種) は? セグメントの交換が発生してから突然変異などがあった可能性があるため、2 つのセグメントは同一ではありません。

これと従来の LDA モデルの主な違いは、事前にトピックを知っていることです。

私の最初のアイデアは、pLSA モデル ( http://en.wikipedia.org/wiki/PLSA ) を使用し、トピック ノードを明示的に設定してから、標準の EM 学習を実行することでした (ベイジアン パラメーターを処理できるまともなライブラリがあれば)潜在変数を使用した学習...)、その後、任意のアルゴリズムを使用した推論が続きます (モデルはポリツリーであるため、これは重要ではありません)。

編集:これに出くわす可能性のある人のために、私はそれを解決したと思います。ラベル付き LDA を使用して、すべてのラベルをすべてのドキュメントに割り当てることができることがわかりました。各ラベルはトピックと 1 対 1 で対応しているため、アルゴリズムに対して事実上、「ドキュメントごとに、独自のトピックを作成するのではなく、この与えられた一連のトピック (ラベル セット) からトピックを選択する」ということを伝えていることになります。

4

2 に答える 2