ここでの私の質問はdocument d1 on the web and a document d2
、d1 と d2 が意味的に関連していることをどのように伝えるかということです。d1がおそらくd2に接続されているというヒントを私に与えるかもしれない、ある程度の自然言語処理を行うことができるいくつかのAPIがありますか? 私はそれをひどくそして緊急に必要としています.助けてください!!
3 に答える
特別なマイクロフォーマットを使用できます。詳細はhttp://microformats.org/をご覧ください
簡単な例:
<a href="http://creativecommons.org/licenses/by/2.0/" rel="license">cc by 2.0</a>
Rel-License は、いくつかあるマイクロフォーマットの 1 つです。ハイパーリンクに rel="license" を追加することにより、ページはそのハイパーリンクの宛先が現在のページのライセンスであることを示します。
意味的に関連するドキュメントの場合、SKOS のような特別な語彙を使用して、それらをオントロジーで関連付けることができます。または、silex が述べたように、マイクロフォーマットをドキュメントで直接使用することもできます。
自然言語処理には、情報を抽出できる GATE のようなさまざまなツールが存在します。しかし、これは簡単な作業ではありません。
やりたいことを絞り込むことができるのではないでしょうか?関連するドキュメントを定義しますか? それとも、どのドキュメントが関連している可能性があるかをソフトウェアに見つけてもらいたいですか?
両方のドキュメントに共通する可能性のあるエンティティを抽出するには、「名前付きエンティティの抽出」、つまり自然言語処理を調べる必要があります。これらは一般的に人、場所、イベント、時間、組織です。
このタイプのテクノロジーの実際のアプリケーションについては、OpenCalaishttp://www.opencalais.com/をご覧ください。