問題タブ [parsey-mcparseface]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
3 に答える
1668 参照

nlp - 法律文書のNLP?

私は数百万の法的文書 (主に欧州連合からのもの) のコーパスを持っています – 法律、論評、裁判所の文書などです。

既知の関係 (時間、これ - 変更 - それなど) をモデル化しました。しかし、単一のドキュメント レベルでは、すばやく理解できるようにするためのより優れたツールがあればいいのにと思います。私はアイデアを受け入れますが、より具体的な質問は次のとおりです。

たとえば、ボイラープレートとは対照的に、ドキュメントの関連/物議を醸す部分を決定するNLPメソッドはありますか? 最近リークされた TTIP の論文は、データ テーブルを含む何千ページにも及ぶものですが、その中の 1 つの文が業界を破壊する可能性があります。

過去にGoogle の新しいParsey McParfaceやその他の NLP ソリューションを試してみましたが、それらは非常にうまく機能しますが、意味を分離するのにどれほど優れているかはわかりません。

0 投票する
1 に答える
722 参照

nlp - Parsey McParseface から Constituency ベースの解析ツリーを取得する方法

Parsey McParsey はデフォルトで依存関係ベースの解析ツリーを返しますが、そこから Constituency ベースの解析ツリーを取得する方法はありますか?

編集:明確にするために、「それから取得する」とは、パーシー自体からという意味です。ConLL出力からツリーを構築することもオプションです。

0 投票する
1 に答える
930 参照

pos-tagger - Parsey McParseface 内で POS タグと依存関係ラベル セットの定義が使用されていますか?

によって出力された POS タグと Depedency ラベルParsey McParsefaceは、それぞれここtag-setのとlabel-setファイルにあります。

Syntaxnetreadme には、モデルが Penn Treebank、OntoNotes、English Web Treebanks でトレーニングされたことが記載されています。

これらのツリーバンクで使用される、対応する POS タグと依存関係ラベルの詳細な説明は、Universal Dependency プロジェクトによって提供されるものと同様ですか?

0 投票する
1 に答える
935 参照

tensorflow - シンタックスネット モデル (Parsey McParseface) をエクスポートして、TensorFlow Serving で提供することはできますか?

私は demo.sh が正常に動作していて、parser_eval.py を見て、ある程度理解しました。ただし、TensorFlow Serving を使用してこのモデルを提供する方法がわかりません。上から見ることができる2つの問題があります。

1) これらのグラフにはエクスポートされたモデルはありません。グラフは、呼び出しごとにグラフ ビルダー (たとえば、structured_graph_builder.py)、コンテキスト プロトコル バッファー、および現時点では完全に理解していないその他のものを使用して構築されます。 (追加の syntaxnet.ops も登録しているようです)。SessionBundleFactoryそれで...それは可能ですか?また、これらのモデルをServingと. そうでない場合は、サービングが C++ コンテキストでのみ実行されるため、グラフ構築ロジック / ステップを C++ で再実装する必要があるようです。

2) demo.sh は、実際には UNIX パイプで文字通りパイプ接続された 2 つのモデルであるため、Servable は (おそらく) 2 つのセッションを構築し、一方から他方へデータをマーシャリングする必要があります。これは正しいアプローチですか?または、両方のモデルを一緒に「パッチ」して含む「大きな」グラフを作成し、代わりにそれをエクスポートすることは可能ですか?

0 投票する
0 に答える
679 参照

python - SyntexNet Parsey McParseface を使用したトレーニング コーパスの作成

私は現在、Tensorflow を学習しようとしていますが、いくつかのコーパスのデータセットを作成する必要があるところまで来ています。LDC の注釈付き Gigaword 英語コーパスに投じるお金がないので、独自のスクレーパーを作成することを考えています。オンラインからいくつかの記事を入手しましたが、ここで LDC Gigaword サンプルと同様の方法でフォーマットしたいと思います: https://catalog.ldc.upenn.edu/desc/addenda/LDC2012T21.jpg

Parsey Mcparseface モデルを使用して、入力に POS タグを付け、複数の xml ファイルを出力しようとしています。私は現在、pythonを使用してconll2tree.pyファイルとdemo.shファイルを変更して、単一のファイルから入力を読み取れるようにすることで、必要な出力に近づきました。使用したコマンドラインは、この投稿の下部に示されています。

私が理解しようとしているのは、モデルがディレクトリ内のすべてのファイルを処理する方法です。私の現在のスクレーパーは JavaScript で書かれており、タイトル、本文、画像などの json オブジェクトを含む個別の .json ファイルを出力します。文の境界検出を使用して各文をコンマで区切りましたが、解析への入力が必要になるようです各文が異なる行にある入力になります。これを Python スクリプトで変更しますが、各ファイルを反復処理し、コンテンツを読み込んで処理し、次のファイルに移動できるように、以下のパラメーターを構成する方法についてはまだわかりません。入力パラメータにワイルドカードを設定する方法はありますか? または、Python スクリプトでコマンドライン経由で各ファイルを個別に送信する必要がありますか? パーシーモデルまたはSyntexNetがそれらをバッチで処理できる方法があるかどうかを推測します。

私が持っていたもう1つの質問は、上の画像の「見出し」に示されているような形式をParsey Mcparsefaceに出力させる方法があるかどうかです。

(.(NP.(NNP.INTERNATIONAL).(NNP.HEADLINE).(NNP.NEWS)))

そうでない場合、この形式は何と呼ばれているので、コードを介して自分でこれを行う方法を詳しく調べることができますか? 私をうんざりさせている部分は、NPのプレフィックス番号です(名詞句を想定)。

文のトークンを介して示されている画像のような形式に POS タグを抽出することができましたが、Tensorflow を深く理解するにつれて、それらが表示されている形式にするのが良いと思います。単語同士の関係をより多く示すため、headline タグと textfield タグも同様です。

また、次のエントリを content.pbtxt ファイルに追加しました。

0 投票する
1 に答える
234 参照

syntaxnet - Parsey mcparseface : 構文木と共に文中の単語の位置を取得する方法

一部のテキストを解析するために parsey mcparseface と syntaxnet を使用しています。構文木とともに単語の位置データを抽出したいと考えています。

現在、出力は次のとおりです。

私はそれが必要な方法

または類似。(これは、同じ単語が多数出現する場合に特に役立ちます。)

ありがとうございました

0 投票する
4 に答える
4364 参照

python - Syntaxnet / Parsey McParseface python API

syntaxnet をインストールし、提供されたデモ スクリプトを使用してパーサーを実行できます。理想的には、Python から直接実行したいと思います。私が見つけた唯一のコードはこれでした:

これは完全な災害です-非効率的で複雑すぎます(pythonからpythonを呼び出すには、pythonで行う必要があります)。

シェル スクリプトや標準 I/O などを介さずに、Python API を直接呼び出すにはどうすればよいですか?

編集 -なぜこれは syntaxnet/demo.sh を開いて読むのと同じくらい簡単ではないのですか?

このシェル スクリプトは、2 つの Python スクリプト (parser_eval と conll2tree) を呼び出します。これらは Python スクリプトとして記述されており、Python モジュールにインポートすると複数のエラーが発生します。よく見ると、スクリプトのようなレイヤーとネイティブ コードが追加されています。Python コンテキストですべてを実行するには、これらの上位レイヤーをリファクタリングする必要があります。誰もそのような変更を加えて syntaxnet をフォークしていませんか、そうするつもりですか?