問題タブ [text-parsing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
9 に答える
34965 参照

python - 括弧で囲まれたブロックを解析するPython

一致する角かっこに含まれるテキストのチャンクを解析するためのPythonの最良の方法は何でしょうか?

最初に戻る必要があります:

それを入力として入れると、次のようになります。

返されるはずです:

0 投票する
6 に答える
11050 参照

regex - 正規表現を使用して Erlang のパターン マッチングを行う方法は?

テキストの解析を行う Erlang プログラムを作成していると、正規表現を使用してパターン マッチを実行したい状況によく遭遇します。

たとえば、次のようなことができたらいいのにと思います。ここで、 ~ は「作成された」正規表現一致演算子です。

正規表現モジュール (re) については知っていますが、パターン マッチング時やガード中に関数を呼び出すことはできません。

また、大文字と小文字を区別しない方法で文字列の照合を行うことができればと思います。これは便利です。たとえば、HTTP ヘッダーを解析するときに、「Str ~ {Pattern, Options}」が「オプション オプションを使用してパターン パターンに対して Str を一致させる」ことを意味する次のようなことをしたいと思います。

2 つの質問:

  1. 通常、標準の Erlang だけを使用してこれをどのように処理しますか? 簡潔さと読みやすさの点で、これに近いメカニズム/コーディングスタイルはありますか?

  2. Erlang でこれに対処するための作業 (EEP?) はありますか?

0 投票する
3 に答える
156 参照

php - PHP を使用して短い (500 ~ 1000 語) テキストで言及されている場所を特定する

ユーザーが提供したテキストを取得し、テキスト内で言及されている地図上の住所を特定する方法を見つけたいと思います。無料の Web サービスがあれば喜んで使用します。または、リソースをあまり消費しないスクリプトを使用します。

これを行う方法の 1 つは、アドレス指定の膨大なデータベースを使用して、テキスト内の各アドレスを個別に検索することですが、これは効率的ではないようです。提案できるより良いアルゴリズムまたは手法はありますか?

私の基本的なアイデアは、位置情報を取得して、Google マップ上のマーカーに変えることです。場所を自動的に決定するのが難しすぎたり、CPU を集中的に使用したりする場合は、必要に応じて場所フィールドに情報を追加するようにユーザーに要求することもできますが、一部のユーザーは非常に若い学生になるため、これを行いたくありません。

これは、学校がホストするサーバーで使用できるスクリプト言語であるため、PHP で行う必要があります。

このセットアップ全体が Drupal ノードのコンテキスト内で行われることに注意してください。フィルターを使用して個々のノードから必要な位置情報を収集する予定であるため、この解析は一度だけ行われます (新しいテキストがデータベースに入るとき)。 .

0 投票する
3 に答える
1154 参照

c#-2.0 - streamreaderを使用して、この「//」を含む行を読み取りますか?

「//」で始まる行を含むテキストファイルを読み取るこの行を省略して、次の行に移動します。いくつかの個別のパーティションを持つ入力テキストファイル。行ごとのプロセスとこのマークを見つけます。

0 投票する
1 に答える
1873 参照

nlp - NLTKを使用したチャンク化/テキスト解析

私はあなたが文章を書くように、いくつかのテキストを解析してそれを図解しようとしています。私はNLTKを初めて使用し、これを達成するのに役立つ何かをNLTKで見つけようとしています。これまでのところ、私は見nltk.ne_chunkてきnltk.pos_tagました。私はそれらがあまり役に立たないことに気づき、良いオンラインドキュメントを見つけることができません。

私も使用しようとしましたがLancasterStemmer、それが何をするのか、どのように使用するのか、なぜ存在するのかを完全には理解していません。

誰かがこれを手伝ってくれませんか?私は本当に途方に暮れていて、ガイドライトなしでかなりイライラしています。

前もって感謝します

0 投票する
3 に答える
135 参照

machine-learning - さまざまなソースから表形式のデータを検出する方法

私が遊んでいる実験的なプロジェクトでは、テキストデータを見て、表形式のデータが含まれているかどうかを検出できるようにしたいと考えています。もちろん表形式のデータのように見えるケースも多いので、共通点を探すにはどのようなアルゴリズムを研究すればいいのだろうと考えていました。

私が最初に考えたのは、タブで区切られたデータをチェックする長い switch/case ステートメントを書き、次にパイプ記号で区切られたデータの別のケース、さらに別の方法で区切られたデータの別のケースなどを書くことでした。検出するさまざまなもののリストを作成する必要がありますが、これらの機能を検出するには、各タイプを比較的ゆっくりと検索するよりもインテリジェントな方法があるのではないかと考えました。

この質問は特に雄弁に語られているわけではないので、意味があることを願っています!

何か案は?

(これにタグを付ける方法もわかりません-そのため、助けを歓迎します!)

0 投票する
5 に答える
616 参照

perl - 「Perl は構文解析がとても得意だ」と言うとき、人々は何を意味するのでしょうか?

「Perl は構文解析がとても得意だ」と言うとき、人々は何を意味するのでしょうか?

Perl は、Python や Ruby などの他のスクリプト言語よりも優れている、または強力な理由は何ですか?

0 投票する
2 に答える
1911 参照

algorithm - テキストから重要な文を抽出する

頻度パラメータなどを使ってテキストから重要な文を抽出する効果的な方法を知っていますか?それは「ステミング」(同様の文も検索)も実行できますか?

ソフトウェアの実装もあるのかな?

どうもありがとう

0 投票する
1 に答える
2019 参照

c# - テキスト ファイルをカスタム データ クラスに読み込む

整数、倍精度、または文字列のデータ列を含むテキスト ファイルがあります。データの各行を独自のレコード クラスに読み込みたい。列のデータ型は事前にわかっているので、テキスト ファイルの行を次のコードのように解析しています (入力したので、エラーがあっても文句を言わないでください)。すべての列をリストしたわけではないので、switch ステートメントには 74 のケースがあります。これが最善の方法かどうかはわかりません。これを行うためのより良い方法は何ですか? また、可能な限り高速である必要があります。

0 投票する
3 に答える
1206 参照

parsing - Java / C/Objective-Cでの単純なワイルドカードロジックを使用したテキストの解析

以下のような式を使用してプレーンテキストを解析するための高速ライブラリ/クラスを探しています。

テキストは次のとおりです。<b>Name:</b>John<br><i>Age</i>32<br>

パターンは次のとおりです。{*}Name:</b>{%}<br>{*}Age</i>{%}<br>

そしてそれは私に2つの値を見つけるでしょう:John32。目的は、強力なツールを使用せずに単純なHTMLWebページを解析することです。内部で文字列操作や正規表現を使用するべきではありませんが、おそらく文字ごとの解析を行います。