フォーラムからデータ フレームにスクレイピングされたテキスト メッセージのコレクションがあります。再現可能な例を次に示します。
example.df <- data.frame(author=c("Mikey", "Donald", "Mikey", "Daisy", "Minnie", "Daisy"),
message=c("Hello World! Mikey Mouse",
"Quack Quack! Donald Duck",
"I was born in 1928. Mikey Mouse",
"Quack Quack! Daisy Duck",
"The quick fox jump over Minnie Mouse",
"Quack Quack! Daisy Duck"))
私の考えは、メッセージに複数のメッセージを書いたすべての人について、同じ作成者のすべてのメッセージで見つかった最も長い共通サフィックスを見つけることです。他のすべての場合は、うまく劣化する正規表現の方法を見つけます。
関数 getLongestCommonSubstring のおかげで有望に見えるバイオコンダクタ パッケージ RLibstree を見つけましたが、関数を同じ作成者からのすべてのメッセージにグループ化する方法がわかりません。