問題タブ [tidytext]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
2955 参照

r - unnest_tokens の反対

これはおそらくばかげた質問ですが、ググってググっても解決策が見つかりません。検索する質問の正しい言い方がわからないからだと思います。

ストップワードを取り除くために、Rできちんとしたテキスト形式に変換したデータフレームがあります。私は今、そのデータフレームを元の形式に戻したいと思っています。

unnest_tokens の反対/逆のコマンドは何ですか?

編集:これが私が扱っているデータの外観です。Silge と Robinson のTidy Textの本からの分析を再現しようとしていますが、イタリアのオペラのリブレットを使用しています。

ストップワードを取り除くことができるように、それをきちんとしたテキストに変えます。

今、私はこのようなものを持っています:

キャラクター名と関連するセリフの形式に戻して、他のことを見てみたいと思います。基本的には、以前と同じ形式のテキストを希望しますが、ストップ ワードを削除します。

0 投票する
1 に答える
862 参照

r - R tidytext stop_words は、gutenbergr のダウンロードから一貫してフィルタリングされません

これは奇妙なパズルです。Gutenbergr から 2 つのテキストをダウンロードしました - Alice in Wonderland と Ulysses。stop_words は Alice から消えますが、Ulysses には残っています。この問題は、anti_join をフィルター (!word %in% stop_words$word) に置き換えても持続しました。

Ulysses から stop_words を取得するにはどうすればよいですか?

ご協力いただきありがとうございます!

Alice & Ulysses の上位 15 の tf_idf のプロット

0 投票する
2 に答える
2988 参照

r - 省略形を無視して unnest_tokens() で文をトークン化する

私は優れたtidytextパッケージを使用して、いくつかの段落で文をトークン化しています。たとえば、次の段落を取り上げます。

「私は、ダーシー氏に何の欠陥もないことを完全に確信しています。彼は偽装せずにそれを所有しています。」

そしてそれを2つの文にトークン化します

  1. 「ダーシー氏には何の欠陥もないと私は完全に確信しています。」
  2. 「彼は変装せずにそれを所有しています。」

ただし、デフォルトのセンテンス トークナイザーを使用すると、tidytext3 つのセンテンスが得られます。

コード

結果

tidytext「Mr.」などの一般的な略語の問題に遭遇することなく、文をトークン化するために使用する簡単な方法は何ですか? または「博士」文末として解釈されていますか?