問題タブ [tidytext]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - unnest_tokens の反対
これはおそらくばかげた質問ですが、ググってググっても解決策が見つかりません。検索する質問の正しい言い方がわからないからだと思います。
ストップワードを取り除くために、Rできちんとしたテキスト形式に変換したデータフレームがあります。私は今、そのデータフレームを元の形式に戻したいと思っています。
unnest_tokens の反対/逆のコマンドは何ですか?
編集:これが私が扱っているデータの外観です。Silge と Robinson のTidy Textの本からの分析を再現しようとしていますが、イタリアのオペラのリブレットを使用しています。
ストップワードを取り除くことができるように、それをきちんとしたテキストに変えます。
今、私はこのようなものを持っています:
キャラクター名と関連するセリフの形式に戻して、他のことを見てみたいと思います。基本的には、以前と同じ形式のテキストを希望しますが、ストップ ワードを削除します。
r - R tidytext stop_words は、gutenbergr のダウンロードから一貫してフィルタリングされません
これは奇妙なパズルです。Gutenbergr から 2 つのテキストをダウンロードしました - Alice in Wonderland と Ulysses。stop_words は Alice から消えますが、Ulysses には残っています。この問題は、anti_join をフィルター (!word %in% stop_words$word) に置き換えても持続しました。
Ulysses から stop_words を取得するにはどうすればよいですか?
ご協力いただきありがとうございます!
r - 省略形を無視して unnest_tokens() で文をトークン化する
私は優れたtidytext
パッケージを使用して、いくつかの段落で文をトークン化しています。たとえば、次の段落を取り上げます。
「私は、ダーシー氏に何の欠陥もないことを完全に確信しています。彼は偽装せずにそれを所有しています。」
そしてそれを2つの文にトークン化します
- 「ダーシー氏には何の欠陥もないと私は完全に確信しています。」
- 「彼は変装せずにそれを所有しています。」
ただし、デフォルトのセンテンス トークナイザーを使用すると、tidytext
3 つのセンテンスが得られます。
コード
結果
tidytext
「Mr.」などの一般的な略語の問題に遭遇することなく、文をトークン化するために使用する簡単な方法は何ですか? または「博士」文末として解釈されていますか?