問題タブ [lsa]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - Rのドキュメント全体を使用した潜在テキスト分析(lsaパッケージ)
R の lsa パッケージを使用して、短い引用に対して潜在テキスト分析を正常に実行するコードがあります (以下を参照)。ただし、より大きなドキュメントのテキストに対してこの方法を使用したいと思います。各引用スペースにすべてをコピーして貼り付けるのは非常に非効率的です。機能しますが、実行には永遠の時間がかかります。データベースまたはデータフレームから各「引用」(この場合はドキュメント) を直接インポートする方法はありますか? もしそうなら、それはどのような形式である必要がありますか?txt 形式のドキュメントは、R にインポートすると自動的に段落に分割されますが、これが lsa パッケージによって実行される分析と互換性があるかどうかはわかりません。
python - テキスト クラスタリングを行うときに K-Means の前に LSA を使用する理由
K-Means を使用したテキスト クラスタリングに関する Scikit Learn のこのチュートリアルに従っています: http://scikit-learn.org/stable/auto_examples/text/document_clustering.html
この例では、必要に応じて LSA (SVD を使用) を使用して次元削減を実行します。
なぜこれが便利なのですか?次元 (機能) の数は、"max_features" パラメーターを使用して TF-IDF ベクトライザーで既に制御できます。
LSA (および LDA) もトピック モデリング手法であることは理解しています。クラスタリングとの違いは、ドキュメントが複数のトピックに属しているが、1 つのクラスターにしか属していないことです。K-Means クラスタリングのコンテキストで LSA が使用される理由がわかりません。
コード例:
r - TermDocumentMatrix を調べて、R の単語/用語の完全なリストを取得する
inspect(TermDocumentMatrix())
テキストドキュメント間の単語/用語の頻度のリストを取得するために使用しようとしています(R)
のサンプル コードを使用する?TermDocumentMatrix
:
これで、これらを検査できます。
結果:
しかし、用語のより長いリストが必要です...どうすれば入手できますか?
試してみましたがmyinspection = inspect(tdm[1:1000, 1:5])
、どこにも行きません
python - nltkを使用してPythonのリストの列から類似の単語を減らす方法は?
以下のようにパンダに列があります
似たような単語を見つけて、列を表すためにいくつかの単語に減らしたい、つまり、似たような単語を減らして、最も一般的な単語を使用したい。
入力:
出力:
前もって感謝します
keras - 深層学習へのテキスト表現に最適なツール
テキストを深層学習用に準備するのに最適なツールはどれですか?
Word2Vec
, Glove
, Keras
, LSA
...はどう違いますか?
python - ValueError: 形状 (4,4) と (3,) が整列していません: 4 (dim 1) != 3 (dim 0)
numpy を使用してマトリックスを作成すると、以下のスクリプト エラーが表示されます。
ValueError: 形状 (4,4) と (3,) が整列していません: 4 (dim 1) != 3 (dim 0)
nlp - 文間の意味比較
文の意味的な比較をしたい。たとえば、次の入力があります。
「トランプは米国の大統領になったことがない」
私は新聞でこれに対してWebスクレイピングを行い、次の結果を想定してみましょう:
「トランプはアメリカ合衆国の大統領です」。
ここで、入力と結果 (複数) のセマンティック比較を行って、指定された入力が正しいかどうかを識別する必要があります。
私はインターネットをサーフィンして、 dandelionやparalleldotsのようないくつかの API を見つけましたが、それらは文の比較を行っており、これに対して90% 以上のスコアを与えてくれます。
この問題をオーバーホールする方法や、このタスクに使用できるオープン ソース API について誰か教えてもらえますか?
もう一つの例:
入力:
「トランプはイギリスの大統領です」
入力の比較:
「トランプはアメリカの大統領です」
word-embedding - BERT 文の埋め込みと LSA の埋め込みの違い
サービスとしての BERT ( https://github.com/hanxiao/bert-as-service ) を使用すると、文レベルの埋め込みを抽出できます。300 次元の単語ベクトルを提供する事前トレーニング済みの LSA モデルがあると仮定すると、意味の一貫性について 2 つの文を比較しようとしているときに、LSA モデルが BERT よりも優れたパフォーマンスを発揮するシナリオを理解しようとしています。
LSA は単語行列の大きな袋の圧縮にすぎないため、このユースケースに LSA が適している理由は思いつきません。
nlp - コヒーレンス スコア (u_mass) -18 は良いか悪いか?
この質問 ( Coherence score 0.4 is good or bad? ) を読んだところ、コヒーレンス スコア (u_mass) が -14 から 14 であることがわかりました。 . u_mass スコアがどのように範囲外 (-14、14) になっているのだろうか?
更新: gensim ライブラリを使用して、2 から 50 までのトピックの数をスキャンしました。u_mass の場合、0 から開始して最低の負の点まで、c_v の上下逆バージョンのように少し戻ります。
python - LSA sklearn ベクトルのロード
sklearn で LSA モデルをトレーニングしました。このモデルは pickle で保存されました。
2 番目のステップとして、このモデルをロードする別のプログラムを使用して、単語ベクトルを比較します。これらのベクトルをロードできない問題、私のコードは以下のとおりです
これによりエラーが発生します
query_vector = model.transform(query) AttributeError: 'numpy.ndarray' オブジェクトに属性 'transform' がありません