問題タブ [information-extraction]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
nlp - 現在最先端のフレーズ抽出ツールはどれですか?
私は次のオープン ソース ツールを知っていますが、それぞれの優れた点を比較したものは見つかりませんでした。すぐに使用できるフレーズ抽出ツール:
- ケア
- マウイ (http://code.google.com/p/maui-indexer/)
- ドラゴン、xTract (http://dragon.ischool.drexel.edu/xtract.asp)
- リングパイプ (http://alias-i.com/lingpipe/demos/tutorial/interestingPhrases/read-me.html)
- マハウト (https://cwiki.apache.org/MAHOUT/collocations.html)
- 他に何か
誰もそのような比較を見たことがありますか?
nlp - 複雑な(混合された)文から単純な文を抽出するアルゴリズム?
段落から簡単な文を抽出するために使用できるアルゴリズムはありますか?
私の最終的な目標は、作成者の感情を判断するために、結果として得られた単純な文に対して後で別のアルゴリズムを実行することです。
Chae-Deug Parkなどの情報源からこれを調査しましたが、トレーニングデータとして簡単な文章を準備することについては議論されていません。
前もって感謝します
perl - Perl、2 つの異なるハッシュ テーブルを使用して新しいデータ (新しいハッシュ) を生成
私は非常に複雑な問題にぶつかりました (初心者としての私の観点から)、それを解決する方法がわかりません。ワークフローは思いつきますが、スクリプトは思い浮かびません。
次のようなファイル A があります: Teacher (tab) Student1(space)Student2(space)..
同じ名前が 2 つある場合 (John1、John2 など)、名前のすぐ横に数字が表示されることがあります。アドバイザーが 2 人以上いる場合は、生徒が重複することもあります。
ファイル B は、教師のグループをまとめたファイルです。見た目は似ていますが、値はカンマで区切られています。
ファイル B の傾向は、キーには複数の値があり、各値もキーになり、誰が誰とグループ化されているかを簡単に見つけることができます。
私が望む出力は、教師/グループに基づいて、どの学生が同様の教育を受ける可能性が高いかということです。したがって、スクリプトで次のことを実行したいと思います。
- ファイル A をハッシュに格納して閉じる
ファイル B を開き、各教師を調べて、生徒がいるかどうかを確認します (実際のリストは非常に大きいため、そうでない場合もあります..)。したがって、最初の教師であるフィオナを取り上げると、格納されたファイル A ハッシュ テーブルを調べて、フィオナが存在するかどうかを確認します。存在する場合 (この場合はニコールとシェリー)、それぞれを新しいハッシュ テーブルへの新しいキーとしてポップします。
/li>次に、Fiona (Racheal、Jack) とグループ化された教師のグループを見てください。一度に1人ずつ連れていく (Racheal)
/li>- Racheal の生徒のファイル A を見てください。
- ステップ 2 で作成した生徒キーの値 (カンマ区切り) として入力します。
学生 - 学生および教師 - 教師グループを印刷します。
フィオナのグループの次の教師であるジャックには生徒がいなかったため、この結果には含まれていません。たとえば、彼が David だった場合、結果は次のようになります。
/li>
このような複雑で具体的な質問をして申し訳ありません。ひょっとしてこのようなことをしている他の人が答えから恩恵を受けることを願っています。あなたの助けと返信に感謝します。あなたは私の唯一の助けです。
pdf - テーブル検出アルゴリズム
コンテクスト
私はたくさんのPDFファイルを持っています。それらのいくつかはスキャンされます(つまり画像)。それらはテキスト+写真+表で構成されています。
テーブルをCSVファイルに変換したい。
現在の計画:
1)Tesseract OCRを実行して、すべてのドキュメントのテキストを取得します。
2)??? ある種のテーブル検出アルゴリズムを実行します???
3)行/列/セル、およびそれらのテキストを抽出します。
質問:
使用する標準の「テーブル抽出アルゴリズム」はありますか?
ありがとう!
c# - リフレクションを使用してオブジェクトを抽出する
リフレクションを使用している間は、オブジェクトまたは変数を抽出するかどうかに関係なく抽出できますstatic
。例えば
抽出することは可能ですか
p1
両方なので、c1
そのタイプを確認できますp1.clone() からのメソッド呼び出し
これまでのところ、これは要素が0の結果の配列で行ったことです
他のファイルからアセンブリをロードしています
c++ - BNF 文法を使用した情報の抽出
テキストの本文から情報を抽出し、それを照会できるようにしたいと考えています。
このテキスト本体の構造は BNF 文法 (またはバリアント) によって指定され、抽出する情報は実行時に指定されます (クエリの構文は現時点では重要ではありません)。
したがって、要件は本当に単純です。
- 構造化された本文を受け取る
- 文法を使用して解析可能な形式で読み込みます
- クエリを実行してその一部を選択する
例で説明するために、そのような文法があるとします (カスタマイズされた BNF 形式):
そのようなテキストが適合するのは次のとおりです。
次に、ルールに表示されるすべてのタグを一覧表示する必要があるため、たとえば XPath のような構文を使用します。
これはリストを返します。
これは比較的簡単に思えますが、次の 2 つの大きな制約があります。
- BNF 文法は、実行時に (文字列/ベクトルのような構造から) 読み取る必要があります。
- クエリも実行時に読み込まれます
いくつかの精度:
- 文法が頻繁に変更されることは想定されていないため、メモリ内構造を生成するための「コンパイル」ステップは許容されます (そして、おそらく速度を上げるために必要です)。
- スピードが重要です。必要な部分をその場で収集するためのボーナスポイント
- あいまいさを解消するためのコールバックを持つ可能性に対するボーナス ポイント (たとえば、必要な曖昧さ解消情報が DB アクセスを必要とする場合があります)
- マルチパート文法のボーナスポイント (モジュール性と文法要素の再利用を優先)
たとえば、lex/yacc と flex/bison は知っていますが、コンパイルする C / C++ コードのみを作成しているように見えますが、これは私が探しているものではありません。
BNF文法を「オンザフライ」でパーサーに変換し、このパーサーを使用してテキスト本体から構造化されたメモリ内出力を生成できる堅牢なライブラリ(できれば無料でオープンソース)を知っていますか?
編集:私は代替案を受け入れています。現時点では、おそらく正規表現でこの抽出が可能であるという考えがありましたが、関連する文法の複雑さを考えると、これはすぐに醜くなり、正規表現を維持することは非常に恐ろしい作業になる可能性があります. さらに、文法と抽出を分離することで、毎回わずかに異なる正規表現を使用するのではなく、さまざまな抽出のニーズに同じ文法を再利用できることを願っています。
information-extraction - プログラムを (学校の) Web サイトに接続してデータを抽出する方法
これは、利用可能なクラス、コード、教師、時間、場所の完全なリストを取得する、大学向けに作成されたプログラムによってもたらされました。
この情報にアクセスするには、大学の安全な Web サイトにログインして、個々のクラスを検索する必要があります。大学、クラスを検索すると、現在および更新されたクラスの名簿が表示されるプログラム (iPhone アプリなどを見たことがあります) はどのように機能しますか。
プログラムは API なしでこのデータにアクセスする方法、または利用可能なコース データを取得するためのログイン資格情報。
parsing - [生物医学]関係抽出に最適なパーサーはどれですか?
継続性パーサーと依存関係パーサーについて読みました。しかし、どれが最良の選択であるかは混乱しています。
私の仕事は、英語のウィキペディアのテキストから関係を抽出することです(他のソースも後で含まれる場合があります)。私が必要とするのは、興味深い 2 つのエンティティ間のセマンティック パス (最も重要な情報のみを含む) です。例えば、
form text: 「アメリカでは、糖尿病は誰もが知っているように、ありふれた病気です.」
「糖尿病は病気です」という情報が必要です
どのパーサーの実装を提案しますか? スタンフォード?モルトパーサー?または他の?
手がかりをいただければ幸いです。
java - JavaベースのWebスクレイピングツールの構築を開始する方法
Webスクレイピングツールの構築を開始するための最良の(そして最短の)方法は何でしょうか。これは、ほぼすべてのタイプのWebサイトで機能し、それらのWebサイトをデータベースに保存して取得できる柔軟性を備えています。
「グーグル検索」が検索を行う前にすべてのウェブサイトをサーバーにキャッシュする「グーグル検索」に似たものを構築したいと思います。
これは私の研究プロジェクトの構成要素の1つです。
私の仕事を簡単にするオープンソースプロジェクトがすでにあるかどうか教えてください。
私はこれを構築するためにJavaを好みます。