まず第一に、私は言語学や言語の研究の専門家ではありません。私はあなたがやろうとしていることを理解していると思いますが、それを行う最善の方法はわかりません.
私が正しければ、あなたの言葉の中心性尺度 (ソーシャル ネットワークの参照を説明するもの) を決定し、他の人と最もリンクしている人々を見つける必要がありますか?
問題は、事前にトークン化と補題化の手順を適用しないと、最も中心的な単語が最も興味をそそる単語 (if、then、いくつかの冗長な形容詞...) であることが確実にわかることです。したがって、使用されている動詞の語幹と名詞のみを分離して、自分のアプローチを試すことができるのは自分だけです。
心に留めておかなければならないもう 1 つの問題は、単語はその存在と希少性の両方によって重要であるということです (たとえば、tf-idf の重み測定を参照してください)。
結論として、Google で次の検索を行いました。
「n グラム グラフ 言語 中心性 ワード」
そして、あなたが求めていることに興味深いと思われるこの論文を見つけました(私はそれを自分で見てみるかもしれません!):
LexRank: テキスト要約における顕著性としてのグラフベースの字句中心性