問題タブ [diffbot]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
regex - トークン化してから任意のトークンを取得するための正規表現
私は正規表現にあまり詳しくなく、私を超えた問題に遭遇しました。文字列をトークン化し、最後から数えて任意のトークン以外のすべてを取得する式を考え出すのに助けが必要です。
P037-077
たとえば、次の文字列からすべてを取得したいのですが
http://www.wayfair.com/George-Kovacs-by-Minka-Bling-Bling-1-Light-Wall-Sconce-P037-077-GKV1032.html
これを行う 1 つの方法は、区切り文字を「-」にしてトークンを逆方向に数え始め (文字列の必要な部分の左側にいくつのトークンがあるかという保証はありません)、2 番目と 3 番目のトークンを取得してから取得することです。それ以外のすべて。
-([^-]*-[^-]*)-[^-]*$
This returnsである式の 90% をP037-077
取得しましたが、その補数を取得する必要があります。
うまく説明できたかどうかわかりません。不明な点がありましたら再度ご説明いたします。
これは任意の言語でトークン化することで簡単に実行できることはわかっていますが、残念ながら、私が使用しているツールは正規表現のみを入力として受け取るため、それを行う自由はありません。Java 構文を使用します。
java - Web ページからテキスト (記事など) を抽出する最良の方法
そこで、さまざまな記事から特定の情報を収集して組み合わせることができるプログラムを作成しようとしています。私が問題を抱えているステップは、Web ページから記事を抽出することです。
Web ページからテキストを抽出するための Java ライブラリやメソッドについて何か提案をいただけないでしょうか?
http://www.diffbot.com/products/automatic/article/という製品も見つけましたが 、これが正しい方法だと思いますか? もしそうなら、誰かが私に Java の実装を教えてくれませんか。
どうもありがとう
明確化 - 私は、記事である可能性のあるテキストのブロックが html dom ツリーのどこにあるかを検出するためのアルゴリズム/ライブラリ/方法をもっと探しています。Safariのリーダー機能みたいな。psこれがpythonのようなものではるかに簡単にできると思うなら、私のプログラムはJavaで実行する必要がありますが、最終的にはサーバー上で(Javaフレームワークを使用して)実行する必要がありますが、Pythonスクリプトを使用してみることができます-これは、Python が最適であるとアドバイスした場合にのみ行ってください。
javascript - Diffbot: "分析 API で統計引数をどこに渡すことができますか?"
ページの種類を検出するために Diffbot 分析 API を使用していますが、このような結果が必要です
しかし、現在私はこのようになっています
リクエストで「統計」引数を渡す必要があります。しかし、要求があれば、この引数を渡すことができます。ありがとう、
web-crawler - Diifbot Product Api バージョン 3 は画像を返しますが、PRODUCT API CRAWL ジョブは返しません。製品 API クロール ジョブで画像を取得するにはどうすればよいですか?
Diifbot 製品 API バージョン 3 が images を返しています。しかし、製品 API クロール ジョブを作成しているときに、画像が返されません。製品 API クロール ジョブで画像を取得するにはどうすればよいですか?
java - Diffbot URL エンコード
diffbot url エンコードの問題が発生しました。URL があり、このように diffbot api を呼び出すときに URL を渡します。
しかし、URLエンコーディングに関するエラーメッセージが表示されました.これは私が受け取ったエラーメッセージです
{"errorCode":500,"error":"URL エンコード"}
だから私は自分のコードシステムをこのように変更します。
しかし、うまくいかず、Diffbot
そのように印刷されます
{"errorCode":500,"error":"エラー"}.
diffbotAPI
が使用しているエンコード形式は何ですか?