9

これは特定の言語に関する質問ではなく、アルゴリズムに関する質問です。したがって、任意の言語での回答を喜んで受け取ります。疑似コードであっても、単なるアイデアであっても構いません。

ここに私の問題があります: PDF の記事から来て、.txt に残酷にコピー/貼り付けされた論文の大規模なデータセットで作業する必要があります。私が持っているのは、この嫌悪の結果であり、約 16,000 の論文で、3.5 GB またはテキストです (私が使用しているコーパスは、ACL Antology Network、http://clair.si.umich.edu/clair/aan/DatasetContents. html )。

「がらくた」は、数式、画像、表などから発生します。実行中のテキストの途中でポップするだけなので、正規表現を使用してそれをきれいにすることはできず、機械学習を使用する方法も考えられません. 私はすでに 1 週​​間を費やしましたが、すぐに修正を行うことにしました。テキストのこの領域の大部分が削除されている限り、完全にクリーンアップすることはもう気にしません。偽陰性や偽陽性は気にしません。

テキストのいくつかの例: 数式にはジャンク文字が含まれていますが、表とキャプションには含まれていないことに注意してください (ただし、それでも文が非常に長くなり、解析不能になります)。太字はジャンク。

簡単なもの:

実験は、最初に最も拡張されたスキームの特殊化を禁止し、次に最も拡張された 2 つのスキーマの特殊化を禁止しながら繰り返されました。カバレッジとスピードアップの尺度は重要です 1 文に割り当てられた f 構造を維持することに関心がある限り、このカバレッジの概念は必要以上に厳密です。実際には、同じ f 構造が複数の解析によって割り当てられる可能性があるため、場合によっては、特殊な文法が正しい f 構造を割り当てたとしても、その文は対象外と見なされます。 2'VPv' および 'VPverb[main]' は、主動詞が先頭にある VP をカバーします。「NPadj」は、形容詞が付加された NP をカバーします。205 元のルール: l/Pperfp --+ ADVP* SE (t ADJUNCT) ($ ADV_TYPE) = t,padv ~/r { @M_Head_Perfp I@M_Head_Passp } @( Anaph_Ctrl $) { AD VP+ SE ('~ ADJUNCT) ($ ADV_TYPE) = vpadv は次のように置き換えられます: ADVP,[.E (~ ADJUNCT) (.l. ADV_TYPE) = vpadv l/'Pperfp --+ @PPadjunct @PPcase_obl {@M.Head_Pevfp [@M.. Head_Passp} @( Anaph_Ctrl ~ ) V { @M_Head_Perfp I@M_Head_Passp } @( Anaph_Ctrl ~) 図 1: 実際のフランス語文法からの規則の刈り込み。 "*" および "+" 記号は、正規表現と同じように通常の解釈を行います。括弧で囲まれたサブ式はオプションです。代替部分式は中括弧で囲み、「[」記号で区切ります。識別子が続く「@」はマクロ展開演算子であり、最終的にはさらに機能的な説明に置き換えられます。 Corpus --.. ,, 0.1[ Disambiguated Treebank treebank 人間の専門家 文法の専門化 専門化された文法 図 2: 文法の専門化に関する実験の設定。この形式の文法刈り込みで達成できることの指標。 ただし、カバーされていないセンテンスの失敗時間は、センテンス時間よりもかなり低い可能性があるため、誤解を招く可能性があります。

難しいもの:

表 4 は、英語とルーマニア語の両方の相互参照の精度の結果をまとめたものです。結果は、英語の相互参照がルーマニア語の相互参照よりも明確であることを示していますが、SNIZZLE は両方の言語で相互参照の解決を改善します。英語の相互参照が、対応するルーマニア語の対応するヒューリスティックよりも優先度の高いヒューリスティックによって解決された場合、64% のケースがありました。この結果は、英語のルーマニア語 SWIZZLEの精度が向上する理由を説明しています 。 76% English Romanian SWIZZLE on English SWIZZLE on Romanian Nominal 69% 63% 66% 61% Pronominal Total 89% 78% 83% 72% 87% 77% 80% 70% 表 5: 共参照想起英語の参照。表 5 は、リコールの結果も示しています。他の方法に対するデータ駆動型の相互参照解決の利点は、より優れたリコール パフォーマンスに基づいています。これは、この方法がより多くの種類の共参照パターンをキャプチャするという事実によって説明されます。他の共参照解決システムは、特定の形式のシステムに対してより優れたパフォーマンスを発揮しますが、それらのリコール結果は、システム アプローチによって凌駕されます。多言語の相互参照は、単一言語のデータ駆動型の相互参照システムの再現率よりも精度を向上させます。さらに、表 5 は、英語の相互参照がルーマニア語の相互参照よりも再現率が高いことを示しています。ただし、不正確な相互参照リンクが削除されるため、SNIZZLE の両方の言語で再現率が低下します。通常の場合と同様に、データを削除すると再現率が低下します。すべての結果は、MUC 評価用に開発された自動スコアラー プログラムを使用して取得されました。

表に奇妙な文字が含まれておらず、文の途中にあることに注意してください。実行中のテキストに関して、テーブルがどこにあるのかわかりません。この場合のように、文の前、文の後、または文の中で発生する可能性があります。また、テーブルのたわごとは終止符で終わらないことに注意してください (論文のほとんどのキャプションはそうではありません...) ので、句読点に頼ってそれを見つけることはできません。もちろん、境界が不正確であっても問題ありませんが、これらのテーブルで何かを行う必要があります。それらのいくつかには数字ではなく単語が含まれており、それらの場合には十分な情報がありません。それは人間だけに明らかです:S

4

1 に答える 1

2

(くだらないコピペは嫌いです。)

役立つと思われるアイデアはほとんどありません (私はその点または別の点でそれらのすべてを自分で使用しました)

  1. (非常に力ずく):トークナイザーと辞書(データ構造ではなく実際の辞書)を使用して、単語を解析し、辞書の単語ではない単語をすべて削除します。テキストに多くの会社名/製品名が含まれていると問題が発生する可能性がありますが、これも正しいインデックスを使用して解決できます (Web 上にいくつかあります。適切なものをいくつか使用しているため、共有できません。ごめん)

  2. クリーンなドキュメントのセット (2K としましょう) を指定して、それらの tf/idf インデックスを作成し、これを辞書として使用します。インデックスに表示されない (または非常に低い値で表示される) 他のドキュメントのすべての用語tf/idf) - 削除します。これにより、かなりきれいなドキュメントが得られるはずです。

  3. Amazon の機械的なターク メカニズムを使用します。文書を読んでいる人が意味をなさない段落に印を付ける必要があるタスクを設定します。機械的な turk プラットフォームではかなり簡単なはずです (16.5K はそれほど多くありません) - これにはおそらく数百ドルの費用がかかりますが、おそらくテキストのきれいなクリーンアップが得られるでしょう (したがって、それが企業のお金に関するものである場合は、それはあなたの抜け道になる可能性があります-彼らは間違いの代償を払う必要があります:))。

  4. ドキュメントが同じドメイン (同じトピック、全体として) からのものであり、問​​題がまったく同じ (同じテーブル ヘッダー、ほぼ同じ式) であることを考慮すると、すべてのドキュメントを文に分割し、ML を使用して文をクラスタ化してみてください。表のヘッダー/数式が比較的類似している場合、それらは残りの文からうまくクラスター化されているはずです。その後、文書を文ごとにきれいにすることができます (文書を取得し、文ごとに分割します。 「奇妙な」クラスターの一部、削除します)

于 2012-05-14T15:47:34.057 に答える