私はデータマイニングに不慣れで、統計とPythonの大まかな知識を持っています。
case_reports
mysqlデータベースに特定の政府機関からのテーブルがあり、1つまたは複数のid
:のフィールドがあるという問題がありますcase
。理論的には、case
は一意であると言われていますが、 case
:の複数のフィールドが存在する可能性がありid
ます。 date_rcvd,age,dosage,wt,age,route of administration,submission_type etc
BUT FOR THESAMEPATIENTのような他の行フィールドのデータ。
THEORETICALLY 'IDEAL' OF CASE REPORT SET FOR ONE PATIENT
| id = 55 | case = 1 | age = 20 | source = x | drug = az | date = p
| id = 12 | case = 1 | age = null | source = y | drug = az | date = q
| id = 11 | case = 1 | age = 20 | source = null | null | date = g
| id = 15 | case = 1 | age = 20 | source = z | drug = z | date = m
THE PROBLEM SET EXAMPLE FOR ONE PATIENT
| id = 55 | case = 1 | age = 20 | source = x | drug = az | date = p
| id = 12 | case = 2 | age = 20 | source = y | drug = az | date = q
| id = 55 | case = 1 | age = 20 | source = null | null | date = g
| id = 55 | case = 1 | age = null | source = x | drug = az | date = null
ある種のクラスタリングアプローチからunique_idでGROUPBYできるようにしたいので、ケースIDのクエリで4ではなく単一の結果になります。マッチングに使用できる他のフィールドは12個あります。
case
=おそらくユニークな患者の症例rptであり、症例が進行して記録されるときに進行する可能性があります。
id
=それに関連する他のテーブルへのparameter_idリンクcase
繰り返しますが、 THEORY "" THEY ""では、これらの複数のcase
レコードには少なくとも1つの異なるid
番号が必要であると述べていますが、そうでない場合は、次のようになります。別のレポーターソースからのもの、電子提出からの重複した提出、およびバックアップの郵送レポート、またはそのid:caseの別のレポーターソースからのフォローアップ症例報告を反映している。id
process_date
DELETE id,case < recent and that 'will probably be the correct one leaving the proper
ある種のk-meansクラスタリングアプローチを考えていましたか?
リソース、コード例のリンク、開始する戦略は高く評価されていますが、最初の方法論を探しているだけでは、答え全体が魔法のように期待できないことがよくあります。
私はCASE
いくつかに固有の帰無仮説を作成しids
、問題を定義してデータを収集しました。これは、多くの固有の帰無仮説が多くの固有id
のものにリンクしていることを証明していますids
。データはプロプライエタリであるか、もっと共有したいと思います。
**UPDATED EXAMPLE DATA @idris IGNORE ABOVE EXAMPLE**
+---------+---------+----------+----------+----------+----------+----+-----+----------+
| id | case | date | rept_dt | mfr_dt | foll_seq | wt | age | gndr_cod |
+---------+---------+----------+----------+----------+----------+----+-----+----------+
| 4610164 | 3118662 | 20050314 | 20050311 | 20050301 | 2 | 0 | 51 | M |
| 4622120 | 3118662 | 20050322 | 20050321 | 20050314 | 3 | 0 | 0 | M |
| 4622120 | 3118662 | 20050329 | 20050325 | 20050314 | | 0 | 51 | M |
| 4802410 | 3118662 | 20051013 | 20051012 | 20051004 | 5 | 0 | 51 | M |
+---------+---------+----------+----------+----------+----------+----+-----+----------+
一番、
コリン