問題タブ [data-science]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - おそらくパターン認識を使用して、他の列の部分データを使用してデータセットに新しい列を作成する
RStudio で R を使用する際に特定の問題がありますが、一般的には R だと思います。データの一部を抽出し、それぞれの列の元のデータに基づいて新しい列を埋める必要がある 2 つの列があります。私は過去8時間、自分でそれを理解しようとしてきましたが、行き詰まりました。
1 列のタイトルは「Record」で、例のデータは A12DE48、W8DE769、B97AB99、S29VV02Y、D684SV2229 などです。このデータでは、真ん中の Alpha ユニットが重要なユニットで、AB、AN、BU、DE、IK、LS、SV、EEQ、JFS、および PHT のすべてのリストがあります。ご覧のとおり、それらは真ん中にあり、データセットがモデルを実行するために、これらのアルファベット単位を新しい列「項目タイプ」に抽出したいと考えています。これらはおそらく良い指標です。定義したリストに該当するものだけを抽出して出力する方法はありますか? アルファベットだけに焦点を当てるのではなく、リストで見つかったものだけにするので、ルールをこれらのオプションから抽出するように設定したいので、AB、AN、BU、DE、IK、LS、SV、EEQ、JFS、数字、アルファベット、または特殊文字の場所に関係なく、前後に少なくとも 1 つの値がある場合は PHT
OTHER 列にも同様の状況があります。この列「Item Source」には、A134、B223、C111、C2134、D2、E58、T のようなデータポイントがあります (はい、これは単なる T です) 、しかしひねりは、それらの膨大な数の場合、単一のエントリのように複数のソースが存在し、「C111 D207 A965」が含まれますが、空のものも多数あります。複数のソースを持つものをテキスト「複数のソース」に置き換えながら、ここで列のことを行うにはどうすればよいですか
今回は、まだあまり慣れていない R のみを使用することが許可されているため、特に Java から来ているので、どんな助けにも感謝します
machine-learning - 分類アプローチに多値属性を渡す方法
多値パラメーターである機能「スキル」があります。分類の特徴として使いたい。それを使用してモデルをトレーニングする方法がわかりません。
たとえば、ジョブには特定の必須スキル (Java、Node.js、MVC など) があり、ジョブごとに異なる可能性があります。パラメータの1つとしてスキルを使用する必要があります。
どんな助けでも大歓迎です。ありがとう。
r - R の新しいデータフレームの列名としてのデータフレームの要素
rにDFという名前の次のデータフレームがあります。
DFの各要素が新しいデータフレームの列名であり、DFの列名がDF2の要素である新しいデータフレーム(DF2)を作成したい:
python - 連続変数の単純ベイズのようなデータ サイエンス プログラミング アルゴリズムは?
私は、どの郡でどの大統領が勝利したかを正しく予測する機械学習データ サイエンス アルゴリズムを構築してトレーニングしようとしています。トレーニング データに関する次の情報があります。
総人口 年齢の中央値 % 学士号以上 失業率 1 人当たりの収入 世帯数 平均世帯人数 % 持ち家の占有率 借家の占有率 空き家 住宅価格の中央値 人口の増加 世帯の増加
私はデータサイエンスが初めてです。Naive Bayes は、複数のプロパティで予測しようとするアルゴリズムにとって優れた分類器であることを知っています。ただし、単純ベイズ分類器の最初のステップには頻度表が必要であると読みました。私の問題は、上記のすべてのプロパティが連続的な数値プロパティであり、「はい」または「いいえ」のカテゴリに分類されないことです。それでは、単純ベイズ分類器を使用しませんか?
ak 最近隣アルゴリズムの使用も検討しましたが、それが最も正確で、プロパティを正しく重み付けするようには見えません...トレーニングデータがあるため、教師ありアルゴリズムを探しています。どのアルゴリズムを使用するかについて、誰かが私に推奨事項を教えてもらえますか? さらに、この分野に不慣れなため、将来自分で使用するアルゴリズムをどのように見つければよいでしょうか。