sparql - iSPARQL を使用して、類似度を使用して値を比較するには

Question

質問があります。

DBPediaの述語「RDFS:label」との比較を行うために、与えられた文字列「Londn」と類似している（Levなどの類似関数を与えられた）値を取得するクエリを書きたいと思います。たとえば、出力で「ロンドン」の値を取得したいと思います。iSPARQL (「不正確な SPARQL」) は文献ではあまり広く使用されていませんが、使用可能なアプローチは iSPARQL を使用することである可能性があることを読みました。

iSPARQL を使用できますか、または同じ操作を実行するための SPARQL アプローチはありますか?

score 5 · Accepted Answer

ショートバージョン — 純粋な SPARQL でこれのいくつかを行うことができます

このようなクエリを使用して、名前が "Londn" のような都市を検索し、類似度 (1 つの尺度) で並べ替えることができます。残りの回答では、これがどのように機能するかを説明しています。

select ?city ?percent where {
  ?city a dbpedia-owl:City ;
        rdfs:label ?label .
  filter langMatches( lang(?label), 'en' )

  bind( replace( concat( 'x', str(?label) ), "^x[^Londn]*([L]?)[^ondn]*([o]?)[^ndn]*([n]?)[^dn]*([d]?)[^n]*([n]?).*$", '$1$2$3$4$5' ) as ?match )
  bind( xsd:float(strlen(?match))/strlen(str(?label)) as ?percent )
}
order by desc(?percent)
limit 100

SPARQL の結果

city                                  percent
----------------------------------------------
http://dbpedia.org/resource/London    0.833333
http://dbpedia.org/resource/Bonn      0.75
http://dbpedia.org/resource/Loudi     0.6
http://dbpedia.org/resource/Ladnu     0.6
http://dbpedia.org/resource/Lonar     0.6
http://dbpedia.org/resource/Longnan   0.571429
http://dbpedia.org/resource/Longyan   0.571429
http://dbpedia.org/resource/Luoding   0.571429
http://dbpedia.org/resource/Lodhran   0.571429
http://dbpedia.org/resource/Lom%C3%A9 0.5
http://dbpedia.org/resource/Andong    0.5

文字列類似性指標の計算

注: この回答のこの部分のコードは、Apache Jena で機能します。これが Virtuoso で (正しく) 失敗するエッジケースが実際にあります。最後の更新では、この問題に対処しています。

文字列の一致距離を計算するために SPARQL に組み込まれているものは何もありませんが、SPARQL の正規表現置換メカニズムを使用してその一部を実行できます。いくつかの文字列でシーケンス "cat" を一致させたいとします。次に、次のようなクエリを使用して、特定の文字列がシーケンス "cat" にどれだけ存在するかを把握できます。

select ?string ?match where {
  values ?string { "cart" "concatenate" "hat" "pot" "hop" }
  bind( replace( ?string, "^[^cat]*([c]?)[^at]*([a]?)[^t]*([t]?).*$", "$1$2$3" ) as ?match )
}

-------------------------
| string        | match |
=========================
| "cart"        | "cat" |
| "concatenate" | "cat" |
| "hat"         | "at"  |
| "pot"         | "t"   |
| "hop"         | ""    |
-------------------------

文字列と一致の長さを調べることで、さまざまな類似性メトリックを計算できるはずです。あなたが言及した「Londn」入力を使用するより複雑な例として。パーセント列は、入力に一致した文字列のパーセントです。

select ?input
       ?string
       (strlen(?match)/strlen(?string) as ?percent)
where {
  values ?string { "London" "Londn" "London Fog" "Lando" "Land Ho!"
                   "concatenate" "catnap" "hat" "cat" "chat" "chart" "port" "part" }

  values (?input ?pattern ?replacement) {
    ("cat"   "^[^cat]*([c]?)[^at]*([a]?)[^t]*([t]?).*$"                              "$1$2$3")
    ("Londn" "^[^Londn]*([L]?)[^ondn]*([o]?)[^ndn]*([n]?)[^dn]*([d]?)[^n]*([n]?).*$" "$1$2$3$4$5")
  }

  bind( replace( ?string, ?pattern, ?replacement) as ?match )
}
order by ?pattern desc(?percent)

--------------------------------------------------------
| input   | string        | percent                    |
========================================================
| "Londn" | "Londn"       | 1.0                        |
| "Londn" | "London"      | 0.833333333333333333333333 |
| "Londn" | "Lando"       | 0.6                        |
| "Londn" | "London Fog"  | 0.5                        |
| "Londn" | "Land Ho!"    | 0.375                      |
| "Londn" | "concatenate" | 0.272727272727272727272727 |
| "Londn" | "port"        | 0.25                       |
| "Londn" | "catnap"      | 0.166666666666666666666666 |
| "Londn" | "cat"         | 0.0                        |
| "Londn" | "chart"       | 0.0                        |
| "Londn" | "chat"        | 0.0                        |
| "Londn" | "hat"         | 0.0                        |
| "Londn" | "part"        | 0.0                        |
| "cat"   | "cat"         | 1.0                        |
| "cat"   | "chat"        | 0.75                       |
| "cat"   | "hat"         | 0.666666666666666666666666 |
| "cat"   | "chart"       | 0.6                        |
| "cat"   | "part"        | 0.5                        |
| "cat"   | "catnap"      | 0.5                        |
| "cat"   | "concatenate" | 0.272727272727272727272727 |
| "cat"   | "port"        | 0.25                       |
| "cat"   | "Lando"       | 0.2                        |
| "cat"   | "Land Ho!"    | 0.125                      |
| "cat"   | "Londn"       | 0.0                        |
| "cat"   | "London"      | 0.0                        |
| "cat"   | "London Fog"  | 0.0                        |
--------------------------------------------------------

アップデート

上記のコードは Apache Jena では機能しますが、Virtuoso では失敗します。これは、パターンが空の文字列に一致する可能性があるためです。たとえば、DBpedia のエンドポイント (Virtuoso を使用) で次のクエリを実行すると、次のエラーが発生します。

select (replace( "foo", ".*", "x" ) as ?bar) where {}

Virtuoso 22023 エラー正規表現ベースの XPATH/XQuery/SPARQL replace() 関数は、空の文字列でも見つかるパターンを検索できません

これには驚きましたが、 replaceの仕様では XPath fn:replaceに基づいていると書かれています。fn:replace のドキュメントには次のように書かれています。

パターンが長さ 0 の文字列と一致する場合、つまり、式 fn:matches("", $pattern, $flags) が true を返す場合、エラー [ err:FORX0003 ] が発生します。ただし、キャプチャされた部分文字列の長さが 0 の場合は、エラーにはなりません。

ただし、パターンと文字列の両方の先頭に文字を追加することで、この問題を回避できます。

select ?input
       ?string
       (strlen(?match)/strlen(?string) as ?percent)
where {
  values ?string { "London" "Londn" "London Fog" "Lando" "Land Ho!"
                   "concatenate" "catnap" "hat" "cat" "chat" "chart" "port" "part" }

  values (?input ?pattern ?replacement) {
    ("cat"   "^x[^cat]*([c]?)[^at]*([a]?)[^t]*([t]?).*$"                              "$1$2$3")
    ("Londn" "^x[^Londn]*([L]?)[^ondn]*([o]?)[^ndn]*([n]?)[^dn]*([d]?)[^n]*([n]?).*$" "$1$2$3$4$5")
  }

  bind( replace( concat('x',?string), ?pattern, ?replacement) as ?match )
}
order by ?pattern desc(?percent)

--------------------------------------------------------
| input   | string        | percent                    |
========================================================
| "Londn" | "Londn"       | 1.0                        |
| "Londn" | "London"      | 0.833333333333333333333333 |
| "Londn" | "Lando"       | 0.6                        |
| "Londn" | "London Fog"  | 0.5                        |
| "Londn" | "Land Ho!"    | 0.375                      |
| "Londn" | "concatenate" | 0.272727272727272727272727 |
| "Londn" | "port"        | 0.25                       |
| "Londn" | "catnap"      | 0.166666666666666666666666 |
| "Londn" | "cat"         | 0.0                        |
| "Londn" | "chart"       | 0.0                        |
| "Londn" | "chat"        | 0.0                        |
| "Londn" | "hat"         | 0.0                        |
| "Londn" | "part"        | 0.0                        |
| "cat"   | "cat"         | 1.0                        |
| "cat"   | "chat"        | 0.75                       |
| "cat"   | "hat"         | 0.666666666666666666666666 |
| "cat"   | "chart"       | 0.6                        |
| "cat"   | "part"        | 0.5                        |
| "cat"   | "catnap"      | 0.5                        |
| "cat"   | "concatenate" | 0.272727272727272727272727 |
| "cat"   | "port"        | 0.25                       |
| "cat"   | "Lando"       | 0.2                        |
| "cat"   | "Land Ho!"    | 0.125                      |
| "cat"   | "Londn"       | 0.0                        |
| "cat"   | "London"      | 0.0                        |
| "cat"   | "London Fog"  | 0.0                        |
--------------------------------------------------------

sparql - iSPARQL を使用して、類似度を使用して値を比較するには

1 に答える 1

ショートバージョン — 純粋な SPARQL でこれのいくつかを行うことができます

文字列類似性指標の計算

アップデート

Related

Reference