1

私は立ち往生しているので、誰かが私のためにこれに答えてくれることを願っています。

Rapidminer は相関行列でどのような方法論を使用していますか? すべてのデータの組み合わせはいいのですが、最も重要なのは、名義/カテゴリデータセットの場合ですか?

私は Rapidminer を使用して相関行列を構築しており、すべての属性を数値、二項、多項式などとして適切にラベル付けするように注意しています。属性の名義/名義の組み合わせの一部について、行列が負の相関を示していることがわかりました。これを計算するために、通常は選択されると思われる方法 (ファイ、クラマーの V、コンティンジェンシー係数) に基づいているため、作成する必要はありません。これらのテストでは、相関関係が正でなければならないと考えました。データの順序を示唆するため、性別や都市などのカテゴリ間に「負の」相関関係があることは意味がありません。

使用されている別のテスト、またはダミーコーディングなどはありますか? また、ダミーコーディングを使用した場合、得られる値はどの程度信頼できますか?

私を助けることができる人に事前に感謝します。道に迷ったことを認めたくないのですが、ここでは地図が必要です :)

4

1 に答える 1

0

公称値を含むサンプル セットと、公称値を数値に変換した同じサンプル セットの相関行列を計算するプロセスの XML を含めました。このプロセスは、公称値が単純な数値に変換される場合と同じ行列を生成します。つまり、value1 は 0 になり、value2 は 1 になります。

演算子の助けを借りてCorrelation Matrix、各属性値がその属性の平均から差し引かれます。これらの差は、属性のペアで乗算され、すべての例で合計されます。次に、これを例の数 - 1 と属性ペアの標準偏差の積で割ります。スプレッドシートで計算を再作成することができたので、使用される標準偏差は母集団ではなくサンプルに対するものであることがわかります。

プロセスは次のとおりです

<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<process version="7.1.001">
  <context>
    <input/>
    <output/>
    <macros/>
  </context>
  <operator activated="true" class="process" compatibility="7.1.001" expanded="true" name="Process">
    <process expanded="true">
      <operator activated="true" class="generate_nominal_data" compatibility="7.1.001" expanded="true" height="68" name="Generate Nominal Data" width="90" x="45" y="85">
        <parameter key="number_examples" value="20"/>
        <parameter key="number_of_attributes" value="3"/>
        <parameter key="number_of_values" value="3"/>
      </operator>
      <operator activated="true" class="select_attributes" compatibility="7.1.001" expanded="true" height="82" name="Select Attributes" width="90" x="179" y="85">
        <parameter key="attribute_filter_type" value="subset"/>
        <parameter key="attributes" value="label"/>
        <parameter key="invert_selection" value="true"/>
        <parameter key="include_special_attributes" value="true"/>
      </operator>
      <operator activated="true" class="multiply" compatibility="7.1.001" expanded="true" height="103" name="Multiply" width="90" x="313" y="85"/>
      <operator activated="true" class="nominal_to_numerical" compatibility="7.1.001" expanded="true" height="103" name="Nominal to Numerical" width="90" x="447" y="289">
        <parameter key="coding_type" value="unique integers"/>
        <list key="comparison_groups"/>
      </operator>
      <operator activated="true" class="correlation_matrix" compatibility="7.1.001" expanded="true" height="103" name="Correlation Matrix" width="90" x="581" y="85"/>
      <operator activated="true" class="correlation_matrix" compatibility="7.1.001" expanded="true" height="103" name="Correlation Matrix (2)" width="90" x="581" y="289"/>
      <connect from_op="Generate Nominal Data" from_port="output" to_op="Select Attributes" to_port="example set input"/>
      <connect from_op="Select Attributes" from_port="example set output" to_op="Multiply" to_port="input"/>
      <connect from_op="Multiply" from_port="output 1" to_op="Correlation Matrix" to_port="example set"/>
      <connect from_op="Multiply" from_port="output 2" to_op="Nominal to Numerical" to_port="example set input"/>
      <connect from_op="Nominal to Numerical" from_port="example set output" to_op="Correlation Matrix (2)" to_port="example set"/>
      <connect from_op="Correlation Matrix" from_port="example set" to_port="result 1"/>
      <connect from_op="Correlation Matrix" from_port="matrix" to_port="result 2"/>
      <connect from_op="Correlation Matrix (2)" from_port="example set" to_port="result 3"/>
      <connect from_op="Correlation Matrix (2)" from_port="matrix" to_port="result 4"/>
      <portSpacing port="source_input 1" spacing="0"/>
      <portSpacing port="sink_result 1" spacing="0"/>
      <portSpacing port="sink_result 2" spacing="0"/>
      <portSpacing port="sink_result 3" spacing="0"/>
      <portSpacing port="sink_result 4" spacing="0"/>
      <portSpacing port="sink_result 5" spacing="0"/>
    </process>
  </operator>
</process>

それが最初に役立つことを願っています。

于 2016-07-14T22:56:56.873 に答える