問題タブ [summarization]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
425 参照

python - Python sklearn.feature_extraction.text.TfidfTransformer

Python を使用したテキスト処理は初めてです。次のコードでは、TfidfTransformer を使用して、特定のドキュメント (1 つのドキュメントのみ) の正規化された行列を計算します。私の質問は、背景やコーパスが指定されていない場合、idf 値はどのように計算されるのですか? idf を計算するには、ドキュメントのコレクションが必要であることを理解しています。

0 投票する
1 に答える
135 参照

java - ボイラープレートを使用して HTML から記事のメイン コンテンツを取得する方法は?

ボイラーパイプコードを使用して HTML から記事のメイン コンテンツを取得しようとしています。

hereから最新のjarをダウンロードしました。

次のコードを使用しようとしています。

しかし、これはすべての URL に対して空の文字列を返します。誰でもこれについて私を助けることができますか?

0 投票する
0 に答える
568 参照

java - Web ページの記事の主な内容を要約するにはどうすればよいですか?

HTML ページの記事要約を作成しようとしています。これまでのところ、ボイラーパイプと classifier4J を使用ました。

しかし、ほとんどの場合、文の構成が適切に行われていないため、コードは目的の結果を生成しません。

http://smmry.com/のようなきちんとしたものを実装しようとしています。

これを行うJavaライブラリを知っている人はいますか?

0 投票する
2 に答える
51 参照

r - 文字として格納されたデータを読み取る

以下のような数字を持つデータフレーム内の列があります

私の目的は、列のデータを読み取り、Temperatureこのように最小温度と最大温度を格納する 2 つの追加の列を作成することです。

シンプルなmin(df$Temperature[1])機能を試してみましたが、うまくいきませんでした。このデータの扱い方がわからないので、アドバイスや提案をいただければ幸いです。

0 投票する
1 に答える
362 参照

mongodb - MongoDB は、構造を破壊せずに複雑なオブジェクトを集約します

次のような内容のコレクションがあります。

最初のレベルには、日付、時間、および level2 要素のコレクションがあります。時間ごとに要素があります。

2 番目のレベルには、名前と level3 要素のコレクションがあります。名前は現在の配列に固有のものですが、別の時間のオブジェクトで複製できることに注意してください。

最後のレベルでは、名前といくつかの数字があります。名前は現在の配列に固有のものですが、別の level2 要素のオブジェクトで複製できることに注意してください。

複雑なオブジェクトの構造を壊すことなく、統計番号がキー: date + level2.name + level3.name で要約されるように、日付ごとにデータを集計する必要があります。ここに投稿したサンプル コンテンツでは、入力に対して次の結果を取得したいと考えています: {date: "01-01-2001"}:

構造を壊さずに Node.js コードで再構築するにはどうすればよいですか?

0 投票する
0 に答える
75 参照

python-3.x - SVD: ドキュメントの要約と類似性に関して、結果の行列は何を意味するのか

現在、SVD を使用してドキュメントを要約し、ドキュメント間の類似点を見つけようとしています。私の質問は、結果の行列が実際に何を意味するのか、また、たとえば 1 つのドキュメントの要約を取得したり、すべてのドキュメントの要約を取得したりするために、それらをどのように使用できるかということです。

タームごとに 1 つのリストを含む 2D リストの形式で、タームとドキュメントのマトリックスを既に作成しました。各リストには、タームが各ドキュメントに出現する回数が含まれています。

線形代数に関する私の知識は限られているため、数学的な説明を多用しないでください。さらに、私はすでにたくさんのグーグル検索を行い、多くのオンラインページを見て理解しようとしましたが、現時点では、私が望むことを達成する方法について簡単な説明が必要だと感じています.

0 投票する
2 に答える
591 参照

r - data.table の非等結合による相対ウィンドウ実行合計

データセット customerId、transactionDate、productId、purchaseQty を data.table にロードしました。行ごとに、合計を計算し、過去 45 日間の purchaseQty の平均を計算したい

次のような出力を探しています。

そのため、sumWindowPurchases には、現在のトランザクション日から 45 日間の顧客/製品の purchaseQty の合計が含まれます。それが機能したら、平均を投げて、必要な他の計算は簡単になるはずです

SQL のルーツに戻り、自己結合について考えました。

それを data.dable 構文を使用して R に変換しようとして、次のようなことをしたいと思っていました。

私は2つの部分からなる質問があると思います。これを行うための「Rの方法」は何ですか。data.table の自己結合は正しいアプローチですか、それとも Reduce 関数を使用する方がよいでしょうか?

45 日間のローリング ウィンドウを取得するには、自己参加が唯一の方法だと思います。そのため、パート 2 は、data.table 構文を使用して、列のソース テーブルを明示的に参照する必要があります。これは、自己結合であり、列名が同じであるためです。

私はフランクがリンクした答えを研究して、この表現を思いつきました

次の出力が生成されます。

これは、最終ステップに到達するために必要なものに非常に近いです。この出力の購入数量を顧客/製品/transactionDate.1 ごとにグループ化して合計できれば、何か役に立つでしょう。ただし、その構文を理解することはできません。transactionDate.1 の名前がどこから来ているのか理解できません。

0 投票する
1 に答える
622 参照

python - 長いシーケンス seq2seq モデルで注目?

私はこの pytorch チュートリアルに従い、この原則を要約に適用しようとしています。ここで、エンコード シーケンスは約 1000 ワードで、デコーダーは 200 ワードをターゲットにします。

これはどのように申請すればよいseq2seqですか?1000 語のシーケンス全体を一度に実行するのは非常にコストがかかり、ほとんど実行不可能であることはわかっています。したがって、seq を 20 個の seq に分割し、並列に実行することが答えになる可能性があります。しかし、それを実装する方法がわかりません。そこにも注目したい。

0 投票する
2 に答える
417 参照

python - 自動集計 : 抽出ベース

抽出ベースの自動要約のアルゴリズムは何ですか? たくさんグーグルで検索しましたが、それに関連するものは何も見つかりませんでした。アルゴをPythonに実装したい

0 投票する
2 に答える
120 参照

r - 重複した値から重複している範囲を削除し、関連付けられた値を保持する方法は?

x 値が重複しているデータ フレームがあります。これらの値は範囲に関連付けられています。重複している値 (重複した x 値) と範囲が重複している値 (両方の行が下位列と上位列で重複している) は削除する必要がありますが、それらが参照する値 (val 列) を保持したいと考えています。

ご覧のとおり、1 行目と 2 行目が重なっています。ここの例を見てください。dplyr コードを書き込もうとしましたが、期待した結果が得られません。例との違いは、2 つのデータセットを「マージ」していないことです。したがって、重複した値を含むデータセット内でさまざまな範囲をテストする方法がわかりません。データセット内の重複した値をグループ化し、個別にテストすることを考えていました。しかし、dplyr 機能に統合されていないため、機能していないと思います。

最終的にはこういうのが欲しい

ご覧のとおり、重複している範囲については、2 つの範囲の最小値と最大値を維持しています。さらに、列「val」の値を「記憶」したいと思います。だからこそ、オーバーラップしている範囲で1,2で終わらせたい。

また、ここで引用している例では、重複した値ごとに 2 つの範囲しかありませんでした。私の場合、2 つ以上の値が重複している可能性があります。重複した値をテストし、それらの範囲をテストして、それらが重複しているかどうかを確認したいと考えています。

例えば、

与えます:

私はまた、spread運がなければ整頓された関数を使用しようとしました:

基本的に、これを使用したい場合は、低い列と上の列の両方をキーとして配置する必要がありますが、それはできません。また、重複する各値のオーバーラップ数によって、異なる列を作成するときにデータグラムのサイズが変化します。だから、この先どうすればいいのかわからない…