問題タブ [text-parsing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
ms-access - 解析するのに最適なファイル形式は何ですか?
シナリオ:アップロードされたテキストベースのファイルの形式でデータ入力を行うRailsアプリに取り組んでいます。データをインポートする前に、これらのファイルを解析する必要があります。アプリにアップロードするファイルの種類を選択できます。それらのアップロードで使用されるソフトウェア(Microsoft Access)には、ファイルタイプに関するいくつかのエクスポートオプションがあります。
重要ではないかもしれませんが、最も効率的に解析される特定のファイルタイプがあるかどうか疑問に思いました。この質問は言語に依存しないと見なすことができると私は信じています。
(XMLは一般的に解析されますが、このプロジェクトのために実行可能なファイルタイプではありません。)
parsing - ログファイルの解析を支援する(ANTLR3)
ゲームAionのログファイルを解析するための文法を書くための少しのガイダンスが必要です。私はAntlr3を使用することにしました(それは仕事をすることができるツールのようであり、それを使用することを学ぶのは私にとって良いことだと思ったからです)。ただし、ログファイルが正確に構造化されていないため、問題が発生しました。
解析する必要のあるログファイルは次のようになります。
ご覧のとおり、ほとんどの行はタイムスタンプで始まりますが、例外があります。Antlr3で実行したいのは、タイムスタンプで始まる行のみを使用し、他の行はサイレントに破棄するパーサーを作成することです。
これは私がこれまでに書いたものです(私はこれらのものの初心者なので、笑わないでください:D)
したがって、必要なのは、タイムスタンプのない行のエラーを生成せずにこれを解析する方法の例です。
ありがとう!
c# - C# での正規表現
私はこのようなテキストを持っています。
@@MMIVLoader@ProductVer@4.1.2@BCM_7400S_LE@Product@Aug 21 2009@
@@MMIVLib@ObjectVer@4.1.2@BCM_7400S_LE@Product@Aug 21 2009@
@@HuaweFGDLDrv@ObjectVer@01.00.09@7324@PRODUCT@ 2009 年 8 月 20 日
@@ProtectVer@ObjectVer@127.8.1 @BCM_SDE5.03@PRODUCT@2009 年 8 月 4 日 06:56:19@
@@KernelSw@ObjectVer@0.0.1@BCM-7454@PRODUCT@ 2007 年 12 月 19 日 @
@ @ReceiverSw@ObjectVer@E.5.6.001@HWBC01ZS@PRODUCT@May 3 2010@
出力を次のような配列に入れたい
正規表現を使用してC#でこれを行う方法を誰かが提案できますか、またはこれを行うための洗練された方法はありますか
前もって感謝します
c# - Text Parsing - My Parser Skipping コマンド
テキストフォーマットを解析しようとしています。SO と同じように、インライン コードをバッククォート ( `
) でマークしたいと考えています。ルールは、インライン コード要素内でバッククォートを使用する場合は、インライン コードの周りに二重のバッククォートを使用する必要があるというものです。
このような:
`` インライン コードをバッククォートでマーク ( ` ) ``
私のパーサーは、何らかの理由で二重のバッククォートを完全にスキップしているようです。インライン コード解析を行う関数のコードは次のとおりです。
何かを単一のバッククォートで囲むと、<code>
タグで正しくラップされます。
php - フォーマットされた文字列を解析します-引用符で囲まれた部分文字列と中括弧で囲まれたUUIDを分離します
オペレーティングシステムインスタンスのリストを一意の識別子で解析しようとしています。テキスト文字列を解析し、値を2つの変数に渡すソリューションを探しています。解析される文字列は次のとおりです。
c - Cで特定の方法でファイルから入力を取得する方法
データが123 134 2312 32131 2131231 211212であると仮定する方法
それらを異なる数値として取得し、整数配列に格納する必要があります。
java - 文字列からすべての文字とその番号を取得する
Javaで、文字列に表示されるすべての文字のリストと、それらの出現数を取得するにはどうすればよいですか?「私は今本当に忙しい」という文字列があるとしましょう。
i-2、a-2、r-2、m-1など。
text-parsing - コード/アプローチ ゴルフ: 列が多すぎるテキスト ファイル内の行を検索する
10 個のタブ区切り列 (つまり 9 個のタブ) を含むはずのテキスト ファイルがある場合、10 個を超える列 (9 個を超えるタブ) を持つすべての行を検索したいと考えています。各行は CR-LF で終わります。
上記以外のデータ、フィールド幅などについては何も想定していません。
アプローチや作業コードに関するコメントは非常に高く評価されます。問題のある行の行番号も印刷するためのボーナス。
前もって感謝します!
EDIT、コメンターが指摘したように (ありがとう!)、データにタブや CRLF が含まれていないと想定できます。
c# - カスタムタグを解析して、データ解析用の属性を取得します
こんにちは。タグをクリーンアップするか、少なくともテキスト内のカスタムタグ内からデータを取得するためのベストプラクティスやアイデアを探しています。
すべての行を手動で処理するある種の「パーサー」をコーディングできると確信していますが、今日はもっと賢い方法はありませんか?
データの考え:
{電話:555-123456789}
ここでは、「電話」がキーであり、番号がデータです。JSON形式によく似ていますが、人間が作成する方が簡単です。
また
通常の(X)HTMLでもかまいません:
人間は入力を「トリミング」するのが必ずしも良いとは限りません。また、怠惰なWYSIWYGエディターで作成された古いウェブサイトでもないため、最初にどのペアが一緒に属しているかを把握し、「内のデータ」を見つけた後、結果をトリミングする必要があります。
問題は上記の「タイトル」の部分にあり、タイトルテキストを囲む「」がないため、自動的に追加されるか、エラーが人間に表示される可能性があります。
これらのデータを最良の方法で取得する方法について何か考えはありますか?うまくいく方法はいくつかあるようですが、この問題に対する最善のアプローチは何ですか?
java - 文字列から値を解析する
以下のような文字列の値をどのように解析しますか?
数値間のギャップはさまざまであり、最初の値は時間です。次の正規表現は、時間コンポーネントを分離しません。
助言がありますか?