問題タブ [cheminformatics]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - smile ファイルからすべての分子を取得する
私は .smiles ファイルに取り組んでいます。.smiles ファイルのファイル構造は次のとおりです。http://en.wikipedia.org/wiki/Chemical_file_format#SMILES
smiles ファイルからすべてのアトムを取得したいと考えています。つまり、単一の「C」原子がある場合、4 つの「H」原子がそれらに接続されることを意味します。
私は検索中に、笑顔の形式を解析できるPythonのモジュールがいくつかあることを発見しましたが、それらはサポートされている水素原子を与えません。(例: 'C' 原子のみを与え、その 'C' 原子に接続された他の 4 つの 'H' 原子は与えません)
Pythonを使用して、接続された「H」原子も含むすべての原子を見つけるにはどうすればよいですか。
接続された 'H' 原子を含むすべての原子に変換する必要がある笑顔ファイルの例:
前もって感謝します。
converter - 固定水素層を使用した標準 InChI から InChI への変換
こんばんは、
標準の InChI 文字列を非標準の InChI 文字列に固定水素層で変換しようとしています。
例:
ウラシルの標準 inChI:
InChI=1S/C4H4N2O2/c7-3-1-2-5-4(8)6-3/h1-2H,(H2,5,6,7,8)
望ましい結果:
InChI=1/C4H4N2O2/c7-3-1-2-5-4(8)6-3/h1-2H,(H2,5,6,7,8)/f/h5-6H
ウラシルの InChIkey:ISAKRJDGNUQOIC-UHFFFAOYSA-N
私の質問は、これがさらに情報がなくても理論的に可能かどうかです。そうでない場合、既存のデータベースを使用するなど、この目標を達成する他の方法はありますか?
最終的な目標は、水素層を含む InChI 文字列を mol ファイルに変換して、クロマトグラムのピークをマッピングできるようにすることです。そのため、このトリックを実行できる OpenBabel をインストールしましたが、前述の InChI 間の変換を解決できません。
InChIキーをURLに挿入することで、InChIキー(私が持っている標準InChIから生成できる)から目的の非標準InChI(水素層付き) に変換できるサボテンのWebサイトをすでに見つけました: http: //cactus.nci.nih.gov/chemical/structure/ISAKRJDGNUQOIC-UHFFFAOYSA-N/inchi . ここでの問題は、複数の正しい非標準 InChI 文字列 (固定水素層付き) が返されることです。それらの 1 つは、私が求めているウラシルの標準ですが、正しいものを自動的に選択する方法を理解する方法がわかりません。ご想像のとおり、何百ものコンバージョンに対して自動化された方法でこれを実行したいと考えています。
私はあなたの助けに感謝します。
ロッディ
python - Pythonを使用して複数列の文字列を解析する
と呼ばれる化学情報プログラムのテキスト出力からデータを抽出しようとしていますNWChem
。関心のある出力の部分 (振動モード) を既に抽出しています。抽出した文字列は次のとおりです。
まず、正規表現を使用してデータを行に分割します。
しかし、垂直に表示される振動モードを抽出する方法がわかりません。配列の配列、またはおそらくnumpy配列の各振動モードに簡単にアクセスしたいと思います。このような:
arrays - 単語の配列 (指紋) のビット マッチ アナログ
すべての化合物について事前に計算された Avalon フィンガープリントを使用して、化学データベースで部分構造検索を実行しようとしています。これらのフィンガープリントを RDKit で比較する方法があります。
DataStructs.AllProbeBitsMatch ( fp1, fp2 )
ドキュメントでは、このメソッドを次のように説明しています。
彼らはビットベクトルについて話しますが、このフィンガープリントは「単語として」計算することもできます (整数の配列、RDKit の GetAvalonFPAsWords メソッドを介して、MongoDB に保存し、できれば RDKit なしでデータベースの力のみを使用して検索を実行できます (これは必要です)はるかに高速になります)。
これが私の質問です。ビット ベクトルの AllProbeBitsMatch と同等の配列の操作が必要です。理想的には、この操作は MongoDB で実行する必要があります。おそらく、パフォーマンスを向上させるために集約機能を使用します。
これは、参照用に使用する RDKit および Avalon フィンガープリントの記事です: http://rdkit.blogspot.com/2013/11/fingerprint-based-substructure.html
java - モノアイソトピック質量に一致する pubchem から sdf ファイルを抽出する
特定の正確な質量に一致する化合物の sdf 形式で、pubchem データベースから化学構造を抽出しようとしています。pubchem とやり取りする python または Java プログラミング言語を使用してこれを達成する方法はありますか。
python - シリアル入力から XML から CSV へ
USB/RS232コンバーターに接続されたCO²アナライザーを備えたRaspberry 3を使用しています。
生データは /dev/ttyUSB0 でスムーズに取得され、そのデータを .csv に記録する必要があります (私の作業のこの時点ではそれほど多くはありませんが、認めなければなりません)。
私が見つけた変換に関する唯一のものは、いくつかの連続的なデータストリームからではなく、xml ファイルから csv へのものでした。
解析して .csv に書き込む前に、そのストリームを xml ファイルに入れる必要がありますか?
ここに私の「コード」があります。私の問題が 63 行目から発生していることを確認できました (したがって、バッファの解析で)。
私がハハについて話していた簡単な方法を取る代わりに、この作業を手伝ってくれる勇敢な人たちに感謝します(変換する前にxmlファイルにコピーしてください)!
keras - RNN Variational autoencoder での文字列入出力表現
私は見ています..分子オートエンコーダーを使用すると、化合物の補間と勾配ベースの最適化を行うことができますhttps://arxiv.org/pdf/1610.02415.pdf
この論文は、入力 Smiles 文字列 (分子のテキスト表現) を受け取り、変分エンコーダを使用して 2D 潜在空間にマッピングします。
ヘキサン-3-オール「CCCC(O)CC」のスマイル文字列の例
この論文では、短い文字列をスペースで 120 文字まで埋めています。
この論文では、1D 畳み込みネットワークのスタックを使用して文字列をエンコードし、笑顔文字列の潜在表現にしました。
次に、3 Gated recurrent Units GRU を使用して、潜在空間内の位置を笑顔文字列にマッピングします。
この論文を理解する上で私が抱えている問題は、入力構造と出力構造がどのように見えるかを判断することです。
この論文は、入力と出力の構造について少し曖昧です。1D conv ネットの使用から、入力は次のようなベクトル化された表現であると思われます
出力で紙は言う
RNN デコーダの最後の層は、SMILES 文字列の各位置で可能なすべての文字の確率分布を定義します
したがって、35 の可能なスマイル文字を含む用紙で使用されている 120 の最大スマイル長は、出力が [120x35] 配列であることを意味しますか?
そのロジックを進めることは、入力が代わりに平坦化された[120 * 35]配列であることを示唆しています-オートエンコーダーを念頭に置いてください。
それに関する私の問題は、フラット化された[120 * 35]配列の場合、シーケンス内の次のアトムをカバーするのに十分ではない最大長9を使用する1dConvです
ご協力いただきありがとうございます...