問題タブ [text-parsing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
9 に答える
4288 参照

c# - 区切り文字列の解析?

区切られた文字列の解析を検討しています。次のようなものです

a、b、c

ただし、これは非常に単純な例であり、区切りデータの解析は複雑になる可能性があります。例えば

1,"単純なアルゴリズムですが、失敗します",True

あなたのナイーブな文字列を吹き飛ばします。実装をビットに分割します。区切られたテキストを解析するための比較的防弾のソリューションを提供する、自由に使用/盗む/コピーして貼り付けることができるものはありますか? .NET、プロックス。

更新: TextFieldParserを使用 することにしました。これは、Microsoft.VisualBasic.DLL に隠されている VB.NET の便利な山の一部です。

0 投票する
9 に答える
6176 参照

python - 洗練された構造化テキスト ファイルの解析

ライブ チャットの会話のトランスクリプトを解析する必要があります。このファイルを見て最初に思ったのは、正規表現を問題に投げ込むことでしたが、他の人がどのようなアプローチを使用しているのか疑問に思っていました。

このタイプのタスクは、正規表現に頼るだけでは保守が難しくなる危険性があることを以前に発見したため、タイトルにエレガントを付けました。

トランスクリプトは www.providesupport.com によって生成され、アカウントに電子メールで送信されます。次に、電子メールからプレーン テキストのトランスクリプトの添付ファイルを抽出します。

ファイルを解析する理由は、後で会話のテキストを抽出することと、訪問者とオペレーターの名前を識別して、CRM を介して情報を利用できるようにすることです。

トランスクリプト ファイルの例を次に示します。

0 投票する
26 に答える
98525 参照

c# - C# でコマンドライン パラメーターを含む文字列を string[] に分割する

別の実行可能ファイルに渡すコマンド ライン パラメーターを含む単一の文字列があり、コマンドがコマンド ラインで指定された場合に C# と同じ方法で、個々のパラメーターを含む string[] を抽出する必要があります。string[] は、リフレクションを介して別のアセンブリ エントリ ポイントを実行するときに使用されます。

このための標準機能はありますか?または、パラメーターを正しく分割するための推奨される方法 (正規表現?) はありますか? スペースを含む可能性のある '"' で区切られた文字列を正しく処理する必要があるため、' ' で分割することはできません。

文字列の例:

結果の例:

コマンドライン解析ライブラリは必要ありません。生成する必要がある String[] を取得する方法だけです。

更新: C# によって実際に生成されるものと一致するように、期待される結果を変更する必要がありました (分割文字列の余分な " を削除しました)

0 投票する
2 に答える
200 参照

.net - .NET 2.0 - スペース区切りテキストのトークン化

次のような出力があるとします。

単語間のスペースの数は任意です。それを単語の配列に分割したい。

次のコードを使用しました。

正確には効率的ではありませんが、うまく機能します。

どのようにしますか?

0 投票する
6 に答える
3508 参照

c# - Quickbook IIF 形式ファイルの解析

私は Quickbook の IIF ファイル形式を使用しており、IIF ファイルを読み書きするパーサーを作成する必要があり、ファイルの読み取りでいくつかの問題が発生しています。

ファイルはシンプルで、タブ区切りです。すべての行は、テーブル定義または行のいずれかです。定義は「!」で始まります およびテーブル名であり、行はテーブル名だけで始まります。私が直面している問題は次のとおりです。一部のフィールドでは改行が許可されています。

私が最初にこれに遭遇したとき、行ごとではなくタブごとに解析するだけでよいと思いましたが、そのためには改行をタブに置き換える必要があり、列よりも多くの値で巻き上げられましたが、巻き上げました改行があまりにも多くの列に広がっている値を使用してください。

そのようなファイルをどのように解析しますか?

編集:例

0 投票する
4 に答える
690 参照

datetime - あいまいな日付の解析(言語に依存しない)

特定の言語であいまいな日付文字列を処理するための最良の方法は何でしょうか。ユーザー入力の事前検証がオプションではない場合、MM / dd / YYYYの日付をどのように解析する必要がありますか?

次のあいまいな日付をどのように解析し、どのような理由(統計的、文化的など)で解析しますか?

1900年1月11日[ M/dd/YYYY ]または1900年11月1日[ MM/d / YYYY ]としての「1111900」

0 投票する
5 に答える
623 参照

python - 次の形式のPythonを使用してファイルを解析するための最良の方法(エラープルーフ/フールプルーフ)は何ですか?

0 投票する
3 に答える
137 参照

text - テキストの不規則性

テキストの不規則性を見つけるライブラリやソフトウェアを知っている人はいますか? たとえば、私が持っているとしましょう...

このソフトウェアまたはライブラリは、最初に類似するテキストの部分を切り取ります (圧縮ソフトウェアがテキストの類似した部分を繰り返しエンコードして圧縮するのとよく似ています) が、エラー トレランスのための変数を使用して、テキストの類似した部分を見つけることができます。 、テキスト比較アプリケーションまたは差分/マージツールと非常によく似ており、実際に異なると見なされるものを強調表示できます. このツールを作ることを考えていますが、車輪の再発明はしたくありません。これをリモートで実行できるものがあれば、このプロジェクトに役立つ可能性があるか、少なくとも作成しないことを知りたいです。言うまでもなく、この回答は他の人が同じものを探すのに役立つ可能性があります。需要は供給に対して十分に高いと思います。

0 投票する
3 に答える
3520 参照

python - Python 解析

RSS 2.0 フィードのタイトル タグを、そのフィードのエントリごとに 3 つの異なる変数に解析しようとしています。ElementTree を使用して、RSS を既に解析したので、各タイトル [末尾のを除く)] を以下のコードで印刷できます。

これを含めているのは、ご覧のとおり、 item.title が repr() データ型であるためです。これについてはよくわかりません。

インタラクティブ ウィンドウの特定のrepr(item.title[0:-1]) printed は次のようになります。

item.titleユーザーがバンドを選択し、それぞれを 3 つの変数 (バンド、会場、日付にそれぞれ 1 つ... または配列か、わかりません...)に解析した後、バンドに関連するものだけを選択したいと考えています。選択されました。その後、ジオコーディングのために Google に送信されますが、それは別の話です。

いくつかの例を見てきましregexたが、それらについて読んでいますが、非常に複雑に思えます。それは...ですか?ここにいる誰かが、これをインテリジェントな方法で正確に行う方法について洞察を持っているのではないかと思いました。reモジュールを使用する必要がありますか? 出力が現在 s であることは重要repr()ですか? より良い方法はありますか?私は次のようなループを使用することを考えていました (これは私の pseudoPython であり、私が書いているメモのようなものです):

最後に、次のような .csv (カンマ区切り) ファイルに選択したエントリを含める必要があります。

これが多すぎないことを願っています。私は自分でそれを調べます.答えが得られることを確認するためにここに投稿する必要があると思いました.

問題は、それぞれrepr(item.title[0:-1])feed3 つの個別の値に解析して、.csv ファイルに連結できるようにするにはどうすればよいかということです。