問題タブ [tidytext]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

279 問題

0 投票する

2 に答える

2955 参照

r - unnest_tokens の反対

これはおそらくばかげた質問ですが、ググってググっても解決策が見つかりません。検索する質問の正しい言い方がわからないからだと思います。

ストップワードを取り除くために、Rできちんとしたテキスト形式に変換したデータフレームがあります。私は今、そのデータフレームを元の形式に戻したいと思っています。

unnest_tokens の反対/逆のコマンドは何ですか?

編集：これが私が扱っているデータの外観です。Silge と Robinson のTidy Textの本からの分析を再現しようとしていますが、イタリアのオペラのリブレットを使用しています。

ストップワードを取り除くことができるように、それをきちんとしたテキストに変えます。

今、私はこのようなものを持っています:

キャラクター名と関連するセリフの形式に戻して、他のことを見てみたいと思います。基本的には、以前と同じ形式のテキストを希望しますが、ストップワードを削除します。

r tidyr tidyverse tidytext

2017-10-13T16:44:37.667

0 投票する

1 に答える

862 参照

r - R tidytext stop_words は、gutenbergr のダウンロードから一貫してフィルタリングされません

これは奇妙なパズルです。Gutenbergr から 2 つのテキストをダウンロードしました - Alice in Wonderland と Ulysses。stop_words は Alice から消えますが、Ulysses には残っています。この問題は、anti_join をフィルター (!word %in% stop_words$word) に置き換えても持続しました。

Ulysses から stop_words を取得するにはどうすればよいですか?

ご協力いただきありがとうございます！

Alice & Ulysses の上位 15 の tf_idf のプロット

r stop-words tidytext anti-join

2017-11-09T19:14:52.190

0 投票する

2 に答える

2988 参照

r - 省略形を無視して unnest_tokens() で文をトークン化する

私は優れたtidytextパッケージを使用して、いくつかの段落で文をトークン化しています。たとえば、次の段落を取り上げます。

「私は、ダーシー氏に何の欠陥もないことを完全に確信しています。彼は偽装せずにそれを所有しています。」

そしてそれを2つの文にトークン化します

「ダーシー氏には何の欠陥もないと私は完全に確信しています。」
「彼は変装せずにそれを所有しています。」

ただし、デフォルトのセンテンストークナイザーを使用すると、tidytext3 つのセンテンスが得られます。

コード

結果

tidytext「Mr.」などの一般的な略語の問題に遭遇することなく、文をトークン化するために使用する簡単な方法は何ですか? または「博士」文末として解釈されていますか？

r text tidytext

2017-11-09T21:15:09.887

1 2 3 4 5 6 7 8 9 10

問題タブ [tidytext]

r - unnest_tokens の反対

r - R tidytext stop_words は、gutenbergr のダウンロードから一貫してフィルタリングされません

r - 省略形を無視して unnest_tokens() で文をトークン化する

Reference