0

現代では、あらゆるものについてたくさんの情報があります。時々、情報は巨大でデジタル化されていません。ユーザーにリアルタイムで要点の情報を提供するために、多くの同様のマニュアルから特定の情報を見つけるために、どのような論理的構成を開発しますか。ユーザーはすべてのドキュメントを読む必要はありません。最初にドキュメントを同様の構造に変換しますか?助言がありますか?
編集:
これはある種のテキスト検索の問題であることを私は知っています。 質問が少し焦点を絞るように例を示しましょう:
MANUAL1 :(カリフォルニアの場合)

Table of content 
...

Precautions:
1.) The operator must use synthetic gloves to handle chemicals
...

MANUAL2 :(ミネソッタ用)

Table of content
...
Precautions:
1.) Use polymer gloves while being in any contact with hazardous chemicals
...

これで、プログラムのユーザーは「有害な化学物質の取り扱い」についてクエリを実行するだけで、プログラムは上記の2つのオプションを次のように提供する必要があります。

  1. CA)オペレーターは、化学物質を取り扱うために合成手袋を使用する必要があります
  2. MN)危険な化学物質と接触している間は、ポリマー手袋を使用してください

どうもありがとうございます。

4

1 に答える 1

1

暗黙のうちに、取り組むべき「再構築」のレベルが少なくとも 5 つあります。

  1. カリフォルニアからのマニュアルのコレクションを整理するにはどうすればよいですか? (文書コーパス)
  2. プレーン テキスト ファイルからテキストを抽出するにはどうすればよいですか? HTML? PDF?ワード文書?(文書の物理フォーマット)
  3. 章、セクション、見出し、小見出し、キャプション、表を認識する方法は? (文書レベルのセマンティクス)
  4. プレーンテキストを解析して意味を抽出するにはどうすればよいですか? (文レベルの意味論)
  5. 同義語と全体の関係をどのように扱うのですか? (オントロジー)

あなたの質問は、「何かと接触している」ことが「取り扱い」と関係があることを認識している場合、ある種の文レベルのセマンティクスと存在論的分析を意味します。

大量のデータから意味を抽出する方法と、オントロジーへのいくつかの斬新なアプローチについてのアイデアについては、IBM の Watson プロジェクトを参照してください。

これらの質問に対するアプローチは、どの程度具体的または一般化する必要がありますか? それは、コーパスがどの程度制限されているかに部分的に依存します。「化学物質」の Google 検索で表示されるドキュメント、またはカリフォルニア EPA から公開されているドキュメントだけを扱っていますか?

于 2012-04-27T14:47:38.260 に答える