問題タブ [rdkit]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
81 参照

pyspark - RDkit 関数の == を使用した Pyspark 文字列比較でエラーがスローされる

私は以下のように定義された Pyspark UDF を持っています -

data_converted.converted_smile と convert_smile_in を比較すると、エラーがスローされます。convert_smile に 20 個ほどの値を出力しましたが、見栄えがよくなりました。この方法で文字列比較を行うことはできませんか?

Boost.Python.ArgumentError: rdkit.Chem.rdmolfiles.MolToSmiles(NoneType) の Python 引数の型が C++ 署名と一致しませんでした: MolToSmiles(RDKit::ROMol mol、bool イソメリックスマイル = True、ブール kekuleSmiles = False、int rootedAtAtom = -1、 bool canonical=True、bool allBondsExplicit=False、bool allHsExplicit=False、bool doRandom=False)

0 投票する
1 に答える
248 参照

python - rdkit を使用して化合物の正準スマイルの類似性の実装を高速化する

このバイオインフォマティシャン志望者はあなたの助けを必要としています。以下のコードは、rdkit を使用して、複合語の正規スマイルの類似性を検出します。いくつかの調査の後、O(n) でなければならないことがわかりました。944 エントリの小さなファイルでは 20 分かかりましたが、330.000 エントリの最大ファイルでは 30 時間以上実行されていたためです。さて、問題の 1 つは要素を 1 回だけ比較しないことであり、それが速度を低下させる 1 つの要因であることがわかりました。itertools ライブラリを使用して比較を高速化できることをここで読みましたが、一般的に、このコードをどのように改善すればよいのでしょうか? 私が学ぼうとしている間、何か助けていただければ幸いです:)