これは特定の言語に関する質問ではなく、アルゴリズムに関する質問です。したがって、任意の言語での回答を喜んで受け取ります。疑似コードであっても、単なるアイデアであっても構いません。
ここに私の問題があります: PDF の記事から来て、.txt に残酷にコピー/貼り付けされた論文の大規模なデータセットで作業する必要があります。私が持っているのは、この嫌悪の結果であり、約 16,000 の論文で、3.5 GB またはテキストです (私が使用しているコーパスは、ACL Antology Network、http://clair.si.umich.edu/clair/aan/DatasetContents. html )。
「がらくた」は、数式、画像、表などから発生します。実行中のテキストの途中でポップするだけなので、正規表現を使用してそれをきれいにすることはできず、機械学習を使用する方法も考えられません. 私はすでに 1 週間を費やしましたが、すぐに修正を行うことにしました。テキストのこの領域の大部分が削除されている限り、完全にクリーンアップすることはもう気にしません。偽陰性や偽陽性は気にしません。
テキストのいくつかの例: 数式にはジャンク文字が含まれていますが、表とキャプションには含まれていないことに注意してください (ただし、それでも文が非常に長くなり、解析不能になります)。太字はジャンク。
簡単なもの:
実験は、最初に最も拡張されたスキームの特殊化を禁止し、次に最も拡張された 2 つのスキーマの特殊化を禁止しながら繰り返されました。カバレッジとスピードアップの尺度は重要です 1 文に割り当てられた f 構造を維持することに関心がある限り、このカバレッジの概念は必要以上に厳密です。実際には、同じ f 構造が複数の解析によって割り当てられる可能性があるため、場合によっては、特殊な文法が正しい f 構造を割り当てたとしても、その文は対象外と見なされます。 2'VPv' および 'VPverb[main]' は、主動詞が先頭にある VP をカバーします。「NPadj」は、形容詞が付加された NP をカバーします。205 元のルール: l/Pperfp --+ ADVP* SE (t ADJUNCT) ($ ADV_TYPE) = t,padv ~/r { @M_Head_Perfp I@M_Head_Passp } @( Anaph_Ctrl $) { AD VP+ SE ('~ ADJUNCT) ($ ADV_TYPE) = vpadv は次のように置き換えられます: ADVP,[.E (~ ADJUNCT) (.l. ADV_TYPE) = vpadv l/'Pperfp --+ @PPadjunct @PPcase_obl {@M.Head_Pevfp [@M.. Head_Passp} @( Anaph_Ctrl ~ ) V { @M_Head_Perfp I@M_Head_Passp } @( Anaph_Ctrl ~) 図 1: 実際のフランス語文法からの規則の刈り込み。 "*" および "+" 記号は、正規表現と同じように通常の解釈を行います。括弧で囲まれたサブ式はオプションです。代替部分式は中括弧で囲み、「[」記号で区切ります。識別子が続く「@」はマクロ展開演算子であり、最終的にはさらに機能的な説明に置き換えられます。 Corpus --.. ,, 0.1[ Disambiguated Treebank treebank 人間の専門家 文法の専門化 専門化された文法 図 2: 文法の専門化に関する実験の設定。この形式の文法刈り込みで達成できることの指標。 ただし、カバーされていないセンテンスの失敗時間は、センテンス時間よりもかなり低い可能性があるため、誤解を招く可能性があります。
難しいもの:
表 4 は、英語とルーマニア語の両方の相互参照の精度の結果をまとめたものです。結果は、英語の相互参照がルーマニア語の相互参照よりも明確であることを示していますが、SNIZZLE は両方の言語で相互参照の解決を改善します。英語の相互参照が、対応するルーマニア語の対応するヒューリスティックよりも優先度の高いヒューリスティックによって解決された場合、64% のケースがありました。この結果は、英語のルーマニア語 SWIZZLEの精度が向上する理由を説明しています 。 76% English Romanian SWIZZLE on English SWIZZLE on Romanian Nominal 69% 63% 66% 61% Pronominal Total 89% 78% 83% 72% 87% 77% 80% 70% 表 5: 共参照想起英語の参照。表 5 は、リコールの結果も示しています。他の方法に対するデータ駆動型の相互参照解決の利点は、より優れたリコール パフォーマンスに基づいています。これは、この方法がより多くの種類の共参照パターンをキャプチャするという事実によって説明されます。他の共参照解決システムは、特定の形式のシステムに対してより優れたパフォーマンスを発揮しますが、それらのリコール結果は、システム アプローチによって凌駕されます。多言語の相互参照は、単一言語のデータ駆動型の相互参照システムの再現率よりも精度を向上させます。さらに、表 5 は、英語の相互参照がルーマニア語の相互参照よりも再現率が高いことを示しています。ただし、不正確な相互参照リンクが削除されるため、SNIZZLE の両方の言語で再現率が低下します。通常の場合と同様に、データを削除すると再現率が低下します。すべての結果は、MUC 評価用に開発された自動スコアラー プログラムを使用して取得されました。
表に奇妙な文字が含まれておらず、文の途中にあることに注意してください。実行中のテキストに関して、テーブルがどこにあるのかわかりません。この場合のように、文の前、文の後、または文の中で発生する可能性があります。また、テーブルのたわごとは終止符で終わらないことに注意してください (論文のほとんどのキャプションはそうではありません...) ので、句読点に頼ってそれを見つけることはできません。もちろん、境界が不正確であっても問題ありませんが、これらのテーブルで何かを行う必要があります。それらのいくつかには数字ではなく単語が含まれており、それらの場合には十分な情報がありません。それは人間だけに明らかです:S