問題タブ [information-retrieval]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
windows - Web データをクロールするための一般的なツールはありますか?
情報抽出に関する作業を行っており、Web ページからデータをクロールするためのツールが必要です。Windows で一般的なツールはありますか?
facebook - facebook/twitter/myspace のステータスや統計用のその他のデータを取得しようとしています
統計を取得するために、これらのソーシャル ネットワークを介して世界中の何百万人もの人々からデータを収集する方法を誰かが知っているかどうか疑問に思っていました. 私が行おうとしているプロジェクトにはこれが必要であり、データプライバシー法に違反しないように、そのような情報 (ステータス、コメント、それらに関する情報など) を投稿している実際の人物を知る必要はありません。
今日、何人の人がオバマについてコメントしたか、彼らの性別 (女性か男性か) などを知る必要があります。
それは何らかの方法で可能ですか?
どうもありがとう
text-processing - タームクラスタリングライブラリ?
クラスタリングという用語を使用するオープンソースの無料ライブラリを知っている人はいますか?
ありがとう、ヤニフ
algorithm - 特定のセットのサブセットであるセットを検索する
識別子のセットが添付された4つの異なる値A、B、C、Dがあるとします。
A = {1,2,3,4,5}
B = {8,9,4}
C = {3,4,5}
D = {12,8}
そして、識別子のセットS {1,30,3,4,5,12,8}が与えられた場合、CとDを返すようにします。つまり、Sがスーパーセットであるセットのグループからすべてのセットを取得します。
このタスクを効率的に実行するためのアルゴリズムはありますか(できればメモリの複雑さが低い場合。データを保存するために外部デバイスを使用することはできません)?簡単な解決策は、スーパーセットSの各メンバーに対して、そのメンバーを含むセットのリスト(基本的に転置インデックス)を取得し、返されたセットごとに、すべてのメンバーがスーパーセットにあることを確認することです。残念ながら、スーパーセットには平均して各セットに少なくとも1つのメンバーが含まれるため、このアプローチではパフォーマンスが大幅に低下し、許容できない結果になります。
私はこれをJavaで行おうとしています。セットは整数で構成され、それらが識別する値はオブジェクトです。セットのコレクションは静的ではなく、実行中に変更される可能性があります。ただし、セット数には多少の制限があります。セットサイズに制限はありません。しかし、平均して1から20の間です。
search - フォークソノミーで検索してください。同義語の問題にどう取り組むか?
del.icio.us のような Web サイトで検索がどのように行われるかについて、誰かが光を当てることができますか?
おいしいのクエリとして「js」(1)、「javascript」(2)、または「java script」(3) を入力すると、Java Script に関するリソースが示されます。ただし、クエリによって返される結果セットは異なります (del.icio.us システムは、"js" クエリと "javascript" クエリに対して異なるブックマーク セットを返します)。
そのため、システムは (1) と (2) が互いに同義であることを実際には認識していないようです。代わりに、関連付けられたタグまたはタイトルのいずれかにクエリ文字列を含むブックマークに対してクエリを照合しようとします。あれは正しいですか?
(1)、(2)、(3) はすべて実際には同義語であり、選択したクエリに関係なく、ユーザーはすべての Java Script 関連リソースを表示する必要があることをシステムにどのように「教育」しますか?
それをするのは良い考えですか?
ありがとう、グレッグ
python - 関連する質問を自動入力する方法
[タイトル]フィールドからタブで移動したときに、StackOverflowと同様に、関連する[things/questions]をアプリで取得したいと思います。
私はそれを行うための唯一の方法を考えることができます、それは私が十分に速いかもしれないと思います
- すべての[things]のタイトルのコーパスでタイトルを検索し、最初のx個の一致を返します。サイト検索に使用されている検索を使用できます。
これを行う他の方法は何ですか。これはタブアウトで送信されるため、十分に高速であるため、大規模なサーバー側の処理は実行できません。
私はこれを行う方法を探していますが、mysqlとDJangoを使用しているので、あなたの答えがそれを使用しているのであれば、なおさらです。
[良いタグが思いつかないので、お気軽に編集してください]
c# - データをどのように保存すればよいですか?
私はそのような2つの構造体を持っています:
キーボードのキーを押してマウスボタンをクリックするたびに、このデータを保存したいのですが、どの方法でデータを保存/処理するのが最も効率的かわかりません。データを処理するためのより良い方法はありますか?2つの構造体を使用する方が両方を1つにマージするよりも優れているかどうかはわかりませんか?
編集:私はキーボードとマウスの統計アプリケーションを実行しています。このアプリケーションは、キーの押下とマウスのクリックの量、および押されたボタン、コンピューターの場所とタイミングを保存し、ボタンを押すたびにこのデータを保存したいと考えています。が押されました。毎回ディスクに書き込む必要はありませんが、ディスクに保存するまで、少なくともメモリに保存してください。
編集: 2つの構造体を分離しておくと、保存するときにデッドデータがあまり作成されないので、分離しておくと簡単に検索/並べ替えることができると思いました。考え?
database - シリアライズ不可スケジュールとは?トランザクション データベース内
トランザクションDBでシリアル化できないものを誰かに説明してもらえますか? 例を教えてください。r1(x) r2(x)w1(y) c2 c1 これはシリアル化不可ですか?