一般に、NLP 手法を使用して、EXPRESS のような既に (かなり形式的に) 構造化されたデータを「調査」することは、せいぜい過剰であり、最悪の場合、時間/メンテナンスの陥没穴になることをお勧めします。一般に、NLP の強み (人間の言語のあいまいさの解決、相互参照の解決、テキストの要約、テキストの含意など) は、このような明確なエンコーディングが既にある場合はまったく不要です。どちらかといえば、このスキーマを直接ロジック クエリなどのために Prolog アプリケーションに直接変換することを想像できます (これは NLP とはまったく異なる方向性です)。
あなたが参照している可能性のある参考文献を見つけるために、いくつかの検索を行いました。私が見つけた唯一の項目は、Semantic Natural Language Processing Techniques を使用して半自動で Building Information Models を拡張する でした:
...著者は、客観的かつ半自動化された方法で、CC関連の情報を組み込むためにIFCスキーマを拡張するための新しい方法を提案しています。この方法では、セマンティック自然言語処理技術と機械学習技術を利用して、CC [コンプライアンス チェック] (建築基準法など) に関連するドキュメントから概念を抽出し、抽出した概念を IFC クラス階層の概念と照合します。
したがって、少なくともこの例では、作成者は NLP を使用して IFC スキーマを「調査」しているのではなく、それを使用して、人間が読めるテキストから抽出した追加情報で既存のスキーマを補強しています。これははるかに理にかなっています。「NLP 尋問」というフレーズを含む実際の URL または参照を投稿したい場合は、より具体的にコメントできるはずです。
編集:
あなたが参照したプロジェクト助成金の要約には、詳細はあまり含まれていませんが、次の文があります。
... パラメトリック 3D モデルに埋め込まれた情報は、適切なソフトウェアを使用した施設または職場の管理を目的としています。ただし、この情報は、IoT センサーやコグニティブ コンピューティングと組み合わせると、Ambient Assisted Living (AAL) 環境で医療専門家が利用できる可能性もあります。このプロジェクトでは、ヘルスケア施設の構築済みの BIM モデルを自然言語処理を介して調査し、AAL をサポートする方法を検討します。...
この目的で NLP フレームワークを使用する可能性がある理由については、次のように推測することしかできません。
BIM モデルには Industry Foundation Classes (IFC) と aecXML が含まれていますが、他にも多数の形式があり、その多くは独自のものです。CAD に統合されているものもあれば、スタンドアロンのものもあります。多くのプロプライエタリ ライセンス (これらのエンタープライズ製品の一部は非常に高価です) にお金を払ったり、さまざまなファイル形式の仕様 (プロプライエタリのケースでは公開されていない可能性があります) に対する適切な構造化クエリ動作を開発するために時間を費やしたりするのではなく、作成者は、探しているコンテンツを抽出するために、より自動化された一般的なソリューションを選択しました (ほぼすべての場合、テキストまたはテキスト タグである必要があると思います)。これは、検索エンジンが Web サイトを「スクレイピング」して、キーワードやフレーズ、それらの同義語などを探すのとほとんど同じです。利点は、適切なカバレッジを得るために、考えられるすべての BIM ファイル フォーマットに対して明示的にコーディングする必要がなく、多額の費用を支払う必要がないことです。欠点は、トレーニング、検証、監督など、NLP に伴う新しい問題や考慮事項が生じることです。また、NLP は、既知のスキーマに対する真の構造化クエリから得られるのと同じレベルの精度を持つことはありません。