私はJBossDroolsを学んでおり、hapmapプロジェクトの遺伝学データで遊んでいます:(http://hapmap.ncbi.nlm.nih.gov/genotypes/latest/forward/non-redundant/)。このディレクトリ内の各ファイルは、上部に個人、左側にゲノム上の位置、および各個人/位置で観察された変異を含むテーブルです。
ここでは、Droolsを使用して、ファイル内のいくつかの潜在的なエラー(たとえば、子供には両親からの突然変異がない)を見つけたいと思います。
1)これらのデータをDroolsにロードしたい。これは大量のデータになる可能性があります(たとえば、genotypes_chr2_YRI_r27_nr.b36_fwd.txt.gzは20Mo gzip圧縮されています)これらのデータはメモリに保存されますか?またはDroolsはそれをどこかに保存しますか?または、永続化システムを使用する必要がありますか?
2)モデルについて:
私は次のクラスをStatefulKnowledgeSessionに入れることを考えていました:
class Individual
{
private String name;
//constructor, getters, setters etc...
}
class Position
{
private String name;
private String chromosome;
private int position;
//constructor, getters, setters etc...
}
class ObservedMutation
{
private String individualName;
private String positionName;
private String observed;
//constructor, getters, setters etc...
}
または、ObservedMutationは次のようになります。
class ObservedMutation
{
private Individual individual;
private Position position;
private String observed;
//constructor, getters, setters etc...
}
提案ありがとうございます
ピエール
更新:私の最初のテスト:http://plindenbaum.blogspot.com/2010/07/rules-engine-for-bioinformatics-playing.html