問題タブ [apache-stanbol]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
solr - batchSize を使用して Solr でデータのインポートを調整する方法
mysql データベースから大量のデータをインポートし、ドキュメントをインデックス化する必要があります (約 1000 ドキュメント)。インデックス作成プロセス中に、拡張要求を外部の Apache Stanbol サーバーに送信して、フィールドの特別な処理を行う必要があります。以下のように、更新チェーンで StanbolContentProcessor を使用するように solrconfig.xml で dataimport-handler を構成しました。
サンプルの data-config.xml は次のとおりです。
約 1000 のドキュメントを含む大規模なインポートを実行すると、上記の Solr Stanbolnterceptor による負荷が高いためと思われるスタンボル サーバーがダウンします。Stanbol が管理可能な数のリクエストを同時に処理できるように、dataimport をバッチで調整したいと考えています。
これは、data-config の dataSource 要素の batchSize パラメータを使用して達成できますか?
Solr でのデータインポートの負荷を抑えるためのアイデアを教えてください。
これは、/dataimport 中に Stanbol リクエストを処理するカスタム UpdateProcessor クラスです。
content-management-system - Apache Stanbol のスケーラビリティと実際のアプリケーション
NLP、セマンティック データのストレージ、コンテンツ管理などの要件を備えたプロジェクトを開始しています。Apache Stanbol が適しているように思えますが、準備ができているかどうか正確にはわからないため、事前に適切な評価をしようとしています。私を心配することはほとんどないので、それを使い始めます:
Stanbol は少し若く未熟なようです (最新バージョン 0.12)。商用プロジェクト/アプリケーション/セットアップで使用した人はいますか (この情報をオンラインで見つけることができませんでした)。それらのプロジェクトの規模はどのくらいですか?
Stanbol の水平方向のスケーラビリティはどの程度ですか? そのクラウド/クラスタリング機能は何ですか? 私の知る限り、ストレージは Apache Jena に依存しており、Jena ストレージは水平方向にスケーラブルではないため、Stanbol も水平方向にスケーリングできません。これについては間違っているかもしれませんが、これは私の現在の理解です。間違っている場合は修正してください。Jena を別のものと交換して、RDF ストレージ プロバイダーとして使用することもできますが、私はそれを認識していません。
Stanbol の学習リソースは少し不足しているようです。Stanbol の内部をもっと理解できる場所/本/何でも知っている人はいますか? (Stanbol の公式 Web サイトと IKS Web サイト以外で) 良い代替手段はありますか?NLP に関して優れた代替手段 (GATE、UIMA など) があることは知っていますが、それらには CMS 機能がありません。
ありがとう。
hadoop - Stanbol と Hadoop の統合
スタンボル初心者です。Hadoop で実行できますか? この例は見つかりません。
できると思いますが、それに飛び込む前に確認したいと思います。
ありがとう!