問題タブ [text-processing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c# - メールの内容を読む
誰かが助けてくれることを願っています。私が探しているのは、c#で小さなwinformアプリを作成して、ポップアカウントから電子メールのコンテンツを読み取り、キー値をSQLに自動的にアップロードすることです。メールの形式は、各メールで常に同じです。
名:姓:電話番号:など..
現在、メールはpop 3アカウントに保存されていますが、手作業でSQLに情報を入力する必要性を減らす方法が必要です。
誰かが私がこれをどのように行うかアドバイスすることができますか、またはいくつかのガイドをお勧めできますか?
ありがとう。スティーブ
ruby - 一致する括弧を処理しながら、Ruby を使用してテキストから URL を抽出する
URI.extractはこれを行うと主張していますが、一致する括弧を処理しません:
かっこで囲まれた URL を壊さずにテキストから URL を抽出する最良の方法 (ユーザーが使用したい方法) は何ですか?
unicode - uʍop-ǝpᴉsdnテキストはどのように機能しますか?
これが私が見つけたウェブサイトで、英語のテキストの逆さまのバージョンを作成します。
それはどのように機能しますか?Unicodeには逆さまの文字がありますか?または何?
独自のテキスト反転関数を作成するにはどうすればよいですか?
perl - .txtファイルの破線を修正するスクリプト?
Kindleで本をきちんと読みたいです。
夢を実現するには、txtファイルの破線を修正するスクリプトが必要です。
たとえば、txtファイルに次の行がある場合:
...次に、「down」という単語の前の改行を削除して修正する必要があります。
それで、仲間のプログラマー、(a)これを行う最も簡単な方法と(b)最高の言語は何ですか?
ps解決策には、列1で小文字を検索し、行をつなぎ合わせる前に改行を削除することが含まれます。私が修正しようとしている小説には、この「不正な改行」が120万回発生しています。
python - テキスト ファイルからアイテムを解析する
{[]} タグ内にデータを含むテキスト ファイルがあります。タグ内のデータを使用できるように、そのデータを解析するための推奨される方法は何ですか?
テキスト ファイルの例は次のようになります。
'これは{[本当に]}何の{[方法]}にも役立たないテキストの集まりです。いくつかのアイテムを {[get]} {[from]} する必要があります。
'really'、'way'、'get'、'from' のリストで終わりたいと思います。私は分割を使用してそれを行うことができると思います..しかし、もっと良い方法があるようです。大量の解析ライブラリを見てきましたが、やりたいことに最適なものはありますか?
c# - ORed テキストの処理
ライブラリを使用してOCRed Tiffファイルからテキストを抽出し、データベースにダンプしています。私が抽出しているテキストは、実際には NAME、DOB、COUNTRY などのフィールドを持つフォームです。OCR は実際の値とラベルの違いではないため、すべてのテキストをダンプしているだけです。これで、DB に次の形式のテキストがあります。
名前: MyName 住所: 私の住所
等
次のステップは、DB からMyNameとMyAddrssの値を抽出することです。ドキュメント タイプが異なる場合があるため、一般的なパーサーが機能しない場合があります。
この状況に対処するためにあなたは何を提案しますか? 別のパーサーを作成する必要がありますか? ANTLRは私を助けることができますか? はいの場合、どのように?よろしくお願いします。
私は.NETに取り組んでいます
text-processing - テキスト内で最も頻繁に使用される用語を見つけるためのシンプルなツール
私はテキストを持っており、複数の単語で構成されている場合でも、最も頻繁に使用される用語を抽出したいと思います(つまり、マネージングディレクター、役職、給与、Web開発者)。
Webサービス以上に、ライブラリまたはインストール可能な実行可能ファイルが必要になります。
トレーニングが必要ないくつかの複雑なツール(TopiaのTerm Extraction、MAUIなど)に出くわしました。私の目的には複雑すぎて、使いにくいと感じています。
テキスト内で最も頻繁に使用される用語を抽出するソフトウェアが必要です。
ありがとう。
regex - XSLT 2.0 regex の質問 (異なる一致の開始要素と終了要素)
問題をいくらか単純化しましたが、それでも問題の本質を捉えていることを願っています。
次の単純な XML ファイルがあるとします。
次に、次の XSLT 2.0 を使用できます。
それを次のように変換します。
質問は次のとおりです。
複数の正規表現
上記のように別の正規表現の中にネストするのではなく、2 つの異なる正規表現を一致させるより良い方法はありますか?
- このように簡単に入れ子にできない場合はどうなりますか?
- XSL テンプレートを使用して正規表現の一致を照合および変換することはできます
text()
か?- この場合、正規表現ごとに 1 つずつ、合計 2 つのテンプレートがあります。
- 可能であれば、これは理想的なソリューションです
正規表現一致で要素を開閉する
明らかに、代わりに:
私が最終的に本当に欲しいのは:
それで、あなたはこれをどのようにしますか?ある正規表現一致で要素を開き、別の正規表現一致で要素を閉じることさえ可能かどうかはわかりません (つまり、近い方の一致がない場合はどうなりますか?結果は整形式の XML にはなりません!)。このタスクは非常に典型的なものであり、慣用的な解決策が必要です。
注: セクションはオーバーラップせず、ネストもしないと想定できます。また、それらは常に適切なペアで表示されると想定することもできます。
追加情報
つまり、本質的に私は、Perl で簡潔に次のようになることを達成しようとしています。
代わりに XSLT でこれを行う方法を探しています。
- 正規表現一致のコンテキストに関しては、より堅牢になります
text()
(つまり、ノードのみを変換する必要があります)
- また、さまざまな XML エンティティの一致に関して、より堅牢になります。
programming-languages - コードベースで頻繁に使用される式を特定する
私の会社では、構文的に Excel の数式言語に似たドメイン固有の言語を維持しています。新しいビルトインを言語に追加することを検討しています。これを行う 1 つの方法は、コードベースで繰り返し使用される冗長コマンドを特定することです。たとえば、人々が常に同じ 100 文字のコマンドを記述して、文字列の先頭と末尾から空白を削除するのを見た場合、trim
関数を追加する必要があることを示唆しています。
コードベースで頻繁に使用される部分文字列のリストを確認することから始めるとよいでしょう (ただし、使用される変数名が異なるため、頻繁に使用されるコマンドが数文字異なる場合があります)。
これを行うための十分に確立されたアルゴリズムがあることは知っていますが、最初に、車輪の再発明を回避できるかどうかを確認したいと思います. たとえば、この概念が多くの圧縮アルゴリズムの基礎になっていることは知っていますが、頻繁に使用される部分文字列の辞書を取得できる圧縮モジュールはありますか? 他のアイデアをいただければ幸いです。
python - Pythonを使用して実行中のテキストで単語を分割しますか?
実行中のテキストから単語を抽出するコードを書いています。このテキストには、テキストに含まれる可能性のある\ r、\nなどの区切り文字を含めることができます。
これらの区切り文字をすべて破棄し、完全な単語のみを抽出したいと思います。Pythonでこれを行うにはどうすればよいですか?Pythonでテキストをクランチするために利用できるライブラリはありますか?