問題タブ [text-parsing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
933 参照

regex - 「家族」の名前を人+正規表現で姓に解析する

次の文字列を指定すると、名前と姓のリストに解析したいと思います。

ピーター・ポール、メアリー&ジョエル・ヴァン・デル・ウィンケル

(およびより単純なバージョン)

正規表現でこれを行うことができるかどうかを調べようとしています。私はここまで持っています

しかし、ここでの問題は、姓を別のキャプチャでキャプチャしたいということです。

私は可能性を超えていると思いますが、念のため...

アップデート

グループからキャプチャを抽出するのは初めてだったので、使用した (C#) コードは次のとおりです。

次のようなケースをカバーするために、受け入れられた回答を少し調整する必要がありました。

ピーター・ポール&ジョセフ・ヴァン・デル・ウィンケル

ピーター・ポール & ジョセフ・ヴァン・デル・ウィンケル

0 投票する
2 に答える
1138 参照

python - 段落のパッセージまたは束からタイトルケースフレーズを見つける方法

パッセージから文の大文字小文字のフレーズを解析するにはどうすればよいですか。

例えばこの一節から

コナン・ドイルは、ホームズの性格は、ドイルがエジンバラ王立病院の事務員として働いていたジョセフ・ベル博士に触発されたと述べた。ホームズのように、ベルは最小の観察から大きな結論を引き出すことで有名でした。[1] マイケル・ハリソンは、エラリー・クイーンズ・ミステリー・マガジンの1971年の記事で、このキャラクターは、1882年にイギリスで新聞の注目を集めたとされる殺人事件の「相談刑事」であるウェンデル・シェラーに触発されたと主張しました。

コナンドイル、ホームズ、ジョセフベル博士、ウェンデルシェルなどを生成する必要があります。

可能であればPythonicソリューションをお勧めします

0 投票する
4 に答える
480 参照

c# - C#で文字列の単語数を取得するSurefireの方法は何ですか

どうすればいいのかわかりません。現在、文字列の単語数を取得するためにスペースを数えていますが、スペースが2つあると、単語数が不正確になります。これを行うためのより良い方法はありますか?

0 投票する
3 に答える
2057 参照

c# - C#-最初のヌルターミネータ以降の文字列のトリミング

ネイティブドライバーの呼び出しから返されたC#文字列 "RIP-1234-STOP \ 0 \ 0 \ 0 \ b \ 0 \ 0 \ 0 ??? | B?Mp?\ 0 \ 0\0"があります。

最初のヌルターミネータ'\0\以降のすべての文字をトリミングするにはどうすればよいですか。この場合、「RIP-1234-STOP」が欲しいだけです。

ありがとう。

0 投票する
4 に答える
5576 参照

c# - C#での単純な文字列の取得(末尾の数字は無視)

正規表現はやり過ぎだと思います。また、コードを書くのに少し時間がかかります(正規表現を知っているので、今から学ぶ必要があると思います)。

文字列を英数字の文字列で区切る最も簡単な方法は何ですか?常にLLLLDDDDDになります。私は文字(l)だけが欲しいのですが、通常は1文字か2文字だけです。

0 投票する
3 に答える
358 参照

python - 実行時までのSimpleParse非決定性文法

私はPythonの基本的なネットワークプロトコルに取り組んでいます。これは、ASCII文字列(読み取り:EOLで終了)とバイナリデータの両方を転送できるはずです。後者を可能にするために、バイナリになるバイト数が含まれるように文法を作成することにしました。

SimpleParseの場合、これまでの文法は次のようになります[1]。

問題は、以下が実行時にSIZE_INTEGERバイトのバイナリデータのチャックになることをSimpleParseに指示する方法がわからないことです。

この原因は、現在の私のニーズを満たすターミナルBINARY_VALUEの定義であるため、変更できません。

ありがとう

編集

ソリューションは、本番のbinary_attributeと一致したときに停止し、ASTノードに手動で(socket.recv()を介して)データを入力するように指示していると思いますが、それを行うにはどうすればよいですか?

編集2

Base64エンコーディングなどはオプションではありません。

[1]私はそれをテストしていないので、それが実際に機能するかどうかはわかりません。アイデアを得るのはあなただけです。

0 投票する
3 に答える
2414 参照

java - JavaCCでParseExceptionをフォーマットする

JavaCCによってスローされたParseExceptionを人間が読める形式でフォーマットするにはどうすればよいのでしょうか。実際、例外のトークン参照には、、、などのフィールドが含まれていますが、解析されたソースへの参照は含まれていませんbeginLinebeginColumnendColumnendLine

ありがとう!:)

0 投票する
2 に答える
142 参照

php - PHPのテキスト関数を置き換える

次のような解析されたテキストをクリーンアップしたい

\n言われた\r\ n \ r \ n \ r\nあなたの目を見て私の愛する人\r\ n \ r\n緑のなだらかな森が見える\r\ n \ r\n遠くの空が見える\r \ n \ r\n彼らは雨に変わります\r\ n \ r \ n \ r\n高くそびえるワシが見えます...もっと\n

だから私は"\n"、 "\ r \ n"、 "\ r \ n \ r \ n"、 "\ r \ n \ r \ n \ r \ n"、 "\r\を取り除きたいn \ r \ n \ r \ n \ r \n"および"\r"。これが、解析されたテキストに表示されるすべての組み合わせです。

PHPでこれを行う方法はありますか?

0 投票する
1 に答える
7041 参照

regex - Oracle PL /SQLの正規表現キャプチャ・グループ

私は自由形式のテキストをより構造化されたものに変えようとしています。利用可能なデータの大部分(許容可能な最小制限をはるかに超える)に一致する複雑なパターンがあり、テキストを文字ごとに解析するのではなく、データの構造化を支援するためにそれを使用したいと思います。私が遭遇したばかりの問題は、Oracleにはキャプチャグループを処理する方法がないように見えることです(どういうわけかそれを見逃した場合を除きますか?)。

たとえば、私の式には、やなどの名前付きキャプチャグループがかなり((?<runit_ID>\d+)-)あり(STAT_N|STTN|STAT|STN) ?(?<STAT>\w+)ます。コードベースは完全にPL/SQLで記述されているため、C#などを使用してキャプチャグループを名前で参照することはできません。PL / SQLでこれをどのように回避しますか?

0 投票する
7 に答える
5180 参照

java - Java 文字列解析 - {k1=v1,k2=v2,...}

おそらく〜100のエントリを含む次の文字列があります:

そして、次の関数を書きたいと思っています:

解析ライブラリを使用せずにこれを行いたいと思います。迅速な何かのアイデアはありますか?