-1

単語が連結されるべきではない場所に連結されているテキスト ファイルがあります。以下は、テキスト ファイルの例です。

Gangnam S. の JOEY Eaton Center - トロント (4/5) の Yelp のレビュー。JOEY Eaton Center 86 件のレビュー 評価の詳細 カテゴリ:レストラン カナダ (新設) ナイトライフ バー スポーツ バー カナダ (新設); Sports Bars 1 Dundas St W Toronto;ON M5G 1Z3 近所: Downtown Core (647) 352-5639 http://www.joeyrestaurants.comAddPhotos 営業時間: 月~日 午前 11 時~午前 2 時 子供向け: いいえ クレジット カードを受け入れる: はい 駐車場: ガレージ。街の服装: カジュアル グループにおすすめ: はい 価格帯: $ 予約: はい 配達: いいえ お持ち帰り: はい ウェイター サービス: はい 屋外席: はい Wi-Fi: 無料 おすすめ: ディナー アルコール: フルバー 騒音レベル:平均 雰囲気: トレンディーテレビあり: はい ジャンル: いいえ 最初に口コミを投稿 Karen G. ビジネス情報を編集 友達に送信ブックマーク レビューを書く JOEY Eaton Center のレビュー 86 レビュー マッチング: レビューを検索 レビューハイライト... 3 件のレビューで ロブスターのラビオリまたはロブスターのグリルチーズをお試しください。8 件のレビューで ...ボンベイ バター チキンを注文しました - トーストを添えて... 7 件のレビューで 読み込み中... 並べ替え: Yelp 並べ替え | 日付 | 評価 | エリート | Facebook の友達の Facebook の友達 FromReviewers あなたの 友達からのレビューをフォロー中 86 件のレビュー (英語) Catherine J. Elite'12 からのレビュー 11 人の友達 26 件のレビュー Catherine J. Markham; 2012 年 11 月 21 日 ON 倉庫ほどの大きさのバーとそれに見合ったラインナップ。しかし、ジョーイのウェルカム マットを飛び越えると、この街の素晴らしい紹介が得られます。このジョイントを楽しむ理由はいくつかあります: 1) サイズ。大きいです。

R を使用して、このテキストと不適切に連結された単語をクリーンアップする効率的な方法は何でしょうか?

ありがとう、

ブッチ

4

1 に答える 1

0

問題が、不適切に連結された 2 つの単語に小文字の最初の単語と大文字の 2 番目の単語が含まれている場合、テキストがtxt次の場合に機能します。

gsub("([a-z])([A-Z])", "\\1 \\2", txt)

例えば

> txt <- "FriendBookmark Write a Review 86 reviews for JOEY Eaton Centre Reviews Matching: Search Reviews ReviewHighlights"
> gsub("([a-z])([A-Z])", "\\1 \\2", txt)
[1] "Friend Bookmark Write a Review 86 reviews for JOEY Eaton Centre Reviews Matching: Search Reviews Review Highlights"

残念ながら、「camelCase」として連結されていない単語を解析する方法はより困難です。したがって、たとえば「カップルの理由」を分離するには、テキストをトークン化し、部分的な単語で辞書検索を実行する必要があり、それでも決定的ではありません。「theresits」-「there sits」または「the resits」をどのように解析しますか?

于 2015-09-18T18:34:15.393 に答える