問題タブ [text-parsing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
734 参照

java - 事前にトレーニングされたMaltParser解析モデルを英語で使用する方法

次のページの手順に従って、MaltParserの英語用に事前トレーニングされた解析モデルを使用しようとしていますが、nullポインター例外が繰り返し発生します。 http://maltparser.org/mco/english_parser/engmalt.html

私はこれをWindowsマシンのMaltParserバージョン1.4とJavaバージョン6で試しています。モデル内のいくつかのディレクトリ情報が示唆しているように、モデルはLinuxマシンでトレーニングされたと思います。それが問題を引き起こしているかどうかはわかりません。ネットで助けを求めましたが、これに固有のものは見つかりませんでした。

この問題の解決にご協力ください。よろしくお願いします。

0 投票する
3 に答える
1558 参照

java - Java でのテキスト ファイルの解析

入力ファイルの例:

アーティスト、タイトル、歌詞のフィールドは、キャプタライズとフォーマットを変更せずに、それぞれの文字列に抽出する必要があります。アーティスト フィールドのこのコード

これを印刷することになります:

コードから、出力がこのように印刷される理由がわかりません。ループを通過するたびに、readToken 文字列が更新され、contains() メソッドによって比較される必要があります。明らかに、ここで何かが欠けています。

それで、私は正しい道に近づいていますか、それともまったく別の都市にいますか?

0 投票する
2 に答える
986 参照

perl - データの改ざんに適したPerlモジュールはどれですか?

9年前にPerlでHTMLとフリーテキストの解析を始めたとき、私はPerlで古典的なデータ変更を読みました。Davidが本を更新する予定があるかどうか、またはXML-TwigRegexp-Grammarsなどの新しい解析モジュールが説明されている同様の本やWebページがあるかどうかを誰かが知っていますか?

過去9年間で、いくつかのモジュールは以前と同じように優れていると思います。いくつかは最新ですが、新しい興味深い方法があり、いくつかはより良い代替品があります。たとえば、Parse-RecDescentはフリーテキスト解析の唯一のオプションですか、それとも多くのシナリオでPerl 6の影響を受けるRegexp-Grammarsに置き換わるのでしょうか?

私はPerlを使用したアクティブなHTML、XML、またはフリーテキストデータマイニングを4年間行っていないため、この分野のツールキットは少し古くなっている可能性があります。したがって、この分野の現在のCPANモジュールに精通している人々からの、HTMLおよびDOM操作、リンク抽出/検証、MechanizeなどのWebテスト、XML操作、およびフリーテキスト解析に関するフィードバックは大歓迎です。

私のツールキットへのいくつかの新しい追加:

まだ私のツールキットにあります:

0 投票する
3 に答える
105 参照

c# - 文字列の一部を削除するにはどうすればよいですか?

前の質問から続けて、番号を見つけて変数に格納したら、番号を削除したいと思います。

0 投票する
4 に答える
4160 参照

parsing - 文字列をツリー構造に解析しますか?

この形式の文字列を任意の深さのデータ構造のようなツリーに解析する方法を理解しようとしています。

このためにいくつかの正規表現(# "{([^ {}] *)}"など)を試してみましたが、試したすべてのことで、ツリーが「フラット化」されてリストの大きなリストになっているようです。間違った角度からこれにアプローチしている可能性があります。あるいは、正規表現がその仕事に適したツールではない可能性があります。

ご協力いただきありがとうございます!

0 投票する
2 に答える
1777 参照

php - PHP でユーザー検索語をインテリジェントに解析する

私は自分の PHP Web サイト用の検索サービスを作成している最中で、引用符 (および将来的には他の記号) に基づいて検索用語をインテリジェントに解析する方法について、他の人がどのように考えているのか疑問に思っていました。

言い換えると、検索語のスクリュードライバー ハンマーは ['スクリュードライバー', 'ハンマー'] の配列を生成する可能性がありますが、「フラットヘッド スクリードライバー」ハンマーは ['フラットヘッド スクリュードライバー', 'ハンマー'] を生成する可能性があります。

ずさんなループでこれを達成できることはわかっていますが、PHPにはこれを処理するための組み込み機能があると確信しています。

0 投票する
3 に答える
2614 参照

python - 特別な条件に基づいてテキストファイルの各行の変数スペースを削除する方法-Pythonのワンライナー?

考えられる最も不均一な方法でフォーマットされたデータ (テキスト ファイル) があります。このデータの解析に関する手作業の量を最小限に抑えようとしています。

サンプルデータ :

条件 :

  • 複数のスペースは区切り文字に圧縮する必要があります (パイプの方が良いですか?最終的な目標は、これらのファイルをデータベースに格納することです)。
  • 最初の列を除いて、他の列にはスペースが含まれないため、これらのスペースはすべてパイプに圧縮できます。
  • スペースを含む複数の単語を含めることができるのは、最初の列のみです (Mary K Jones)。残りの列は、ほとんどが数字と一部のアルファベットです。
  • 1 列目と 2 列目は両方とも文字列です。ほとんどの場合、それらの間に複数のスペースがあるため、2 つの列を区別することができます。(単一のスペースがある場合、それは恐ろしい書式設定を考えると喜んで引き受けるリスクです!)。
  • 列の数はさまざまなので、列名を気にする必要はありません。必要なのは、各列のデータを抽出することだけです。

私が理にかなっていることを願っています!このタスクはワンライナーで実行できると感じています。ループ、ループ、ループしたくない:(

ずっと読んで、この文の前にやめないための「Pythonistas」のMuchos gracias!

0 投票する
4 に答える
3245 参照

c# - C シャープでネストされたテキストを解析する

この基本形式を持つ一連の文字列がある場合:

次に、次のようにネストできます。

したがって、すべての項目に 0 または 1 の値エントリを含めることができます。

この形式を解析するための最良の方法は何ですか? string.Split() や string.IndexOf() のようなものを使用するだけですか、それとももっと良い方法がありますか?

0 投票する
2 に答える
2962 参照

perl - Perlでテキストファイルから表形式のデータを抽出/解析するにはどうすればよいですか?

HTML::TableExtractのようなものを探しています。これは、HTML 入力用ではなく、インデントとスペースでフォーマットされた「テーブル」を含むプレーン テキスト入力用です。

データは次のようになります。

0 投票する
1 に答える
149 参照

algorithm - 最も人気のある部分文字列

多数の短い文字列をいくつかの論理部分に解析しようとしています。誰かがすでに解決できた興味深い問題のようですが、論文/解決策が見つかりません(または間違ったキーワードを試している可能性があります)。

弦は2〜5つの部分で構成されています。各単語を、それが属する「部分」/「セクション」を示す文字に置き換えると、次のサンプルになります。

ほとんどの「セクション」の長さはわずか2〜3語で、約1万文字の文字列にまったく同じセクションが約100〜500回出現します。つまり、100個の文字列にAAA == "some text here"があり、他の100個にAAA == "some other text"があります。1つの文字列には、各タイプのセクションが1つしかありません(通常は順番に表示されます)。どのセクションにも制限された値のセットはなく、将来新しい値が表示される可能性があります。

問題は、十分なサンプルがあり、それらを手動でマークしたくない場合、どうすればそのようなセクションを検出できるかということです。これは、完全に自動ではなく、監視/確認できるため、確率リストは問題ありません。

2〜5個の長い単語のn-gramのリストを作成して確率を見つけることを考えていましたが、順序が考慮されていません(これは役立つ可能性があります)。また、一部のテキストが一般的であることも検出されますが、同じ値が頻繁に使用される特定の2つのセクションがある場合、この方法はうまく機能しません。すべての行に同じ値を持つABCDで構成される文字列しかない場合を考えてみましょう。

ngram分析のみを行うと、Aがセクションであり、AB、C、およびDである可能性が高くなります。この場合、結果からABを除外したいのですが、独自の分析を割り当てない方法で「the」のような単語へのセクションを作成し、「the」を含む大きなセクションをすべて削除します。

同様の問題に対する既知の解決策はありますか?