統計がある一連のニュース記事があります。たとえば、ある範囲の記事に言及している twitter 投稿の数です。統計値の自然な動作は、新しい投稿の数が急速に増加し、ニュースが古くなるにつれて減少することです。
データセット全体について、統計への変更が重要でなくなるまでの日数を計算する方法を知りたいです (例: 投稿全体の 0.1% 未満)。
情報と方法を探すためのヒントを教えてください。Python のコード サンプルもよろしくお願いします :)
統計がある一連のニュース記事があります。たとえば、ある範囲の記事に言及している twitter 投稿の数です。統計値の自然な動作は、新しい投稿の数が急速に増加し、ニュースが古くなるにつれて減少することです。
データセット全体について、統計への変更が重要でなくなるまでの日数を計算する方法を知りたいです (例: 投稿全体の 0.1% 未満)。
情報と方法を探すためのヒントを教えてください。Python のコード サンプルもよろしくお願いします :)
この質問は、時系列分析に関するものです。カットオフ ポイントの決定に関心があるので、まず管理図を読むことから始めるとよいでしょう。(管理図を超えて)統計をより深く掘り下げたい場合は、変化点分析を調べ、時系列の構造変化も調べてください。
Python モジュール: Python でこの分析を実行するには、NumPyおよびpandasモジュールが関連しています。statalgo のこの投稿は、Python コードに関して正しい軌道に乗ることができます。(分析に R を使用する場合は、CRAN パッケージtseriesおよびstrucchangeを検討してください。)
SE (統計) の関連する質問:時系列データの変化を検出するにはどうすればよいですか?
関連する実際の例: ウサマ ビン ラディンの死後、そのニュースがTwitterでどのように広まったかについて、かなりの分析が行われました。この記事には、ニュースの拡散の停止に関するあなたの質問に特に関連するセクションもあります.
最後に、 Stats SE サイトでこれを尋ねることも検討してください。
それが役立つことを願っています。