0

私はデータマイニングに不慣れで、統計とPythonの大まかな知識を持っています。

case_reportsmysqlデータベースに特定の政府機関からのテーブルがあり、1つまたは複数のid:のフィールドがあるという問題がありますcase。理論的には、caseは一意であると言われていますが、 case:の複数のフィールドが存在する可能性がありidます。 date_rcvd,age,dosage,wt,age,route of administration,submission_type etcBUT FOR THESAMEPATIENTのような他の行フィールドのデータ。

       THEORETICALLY 'IDEAL' OF CASE REPORT SET FOR ONE PATIENT

  | id = 55 | case = 1 | age = 20 | source = x    | drug = az | date = p
  | id = 12 | case = 1 | age = null | source = y    | drug = az | date = q
  | id = 11 | case = 1 | age = 20 | source = null | null      | date = g
  | id = 15 | case = 1 | age = 20 | source = z    | drug = z  | date = m


                        THE PROBLEM SET EXAMPLE FOR ONE PATIENT

  | id = 55 | case = 1 | age = 20   | source = x       | drug = az    | date = p
  | id = 12 | case = 2 | age = 20   | source = y    | drug = az     | date = q
  | id = 55 | case = 1 | age = 20   | source = null   | null         | date = g
  | id = 55 | case = 1 | age = null | source = x    | drug = az   | date = null

ある種のクラスタリングアプローチからunique_idでGROUPBYできるようにしたいので、ケースIDのクエリで4ではなく単一の結果になります。マッチングに使用できる他のフィールドは12個あります。

case=おそらくユニークな患者の症例rptであり、症例が進行して記録されるときに進行する可能性があります。 id=それに関連する他のテーブルへのparameter_idリンクcase

繰り返しますが、 THEORY "" THEY ""では、これらの複数のcaseレコードには少なくとも1つの異なるid番号が必要であると述べていますが、そうでない場合は、次のようになります。別のレポーターソースからのもの、電子提出からの重複した提出、およびバックアップの郵送レポート、またはそのid:caseの別のレポーターソースからのフォローアップ症例報告を反映している。idprocess_dateDELETE id,case < recent and that 'will probably be the correct one leaving the proper

ある種のk-meansクラスタリングアプローチを考えていましたか?

リソース、コード例のリンク、開始する戦略は高く評価されていますが、最初の方法論を探しているだけでは、答え全体が魔法のように期待できないことがよくあります。

私はCASEいくつかに固有の帰無仮説を作成しids、問題を定義してデータを収集しました。これは、多くの固有の帰無仮説が多くの固有idのものにリンクしていることを証明していますids。データはプロプライエタリであるか、もっと共有したいと思います。

**UPDATED EXAMPLE DATA @idris IGNORE ABOVE EXAMPLE**

+---------+---------+----------+----------+----------+----------+----+-----+----------+
| id      | case    | date     | rept_dt  | mfr_dt   | foll_seq | wt | age | gndr_cod |
+---------+---------+----------+----------+----------+----------+----+-----+----------+
| 4610164 | 3118662 | 20050314 | 20050311 | 20050301 | 2        |  0 |  51 | M        |
| 4622120 | 3118662 | 20050322 | 20050321 | 20050314 | 3        |  0 |  0  | M        |
| 4622120 | 3118662 | 20050329 | 20050325 | 20050314 |          |  0 |  51 | M        |
| 4802410 | 3118662 | 20051013 | 20051012 | 20051004 | 5        |  0 |  51 | M        |
+---------+---------+----------+----------+----------+----------+----+-----+----------+

一番、

コリン

4

0 に答える 0