問題タブ [chunking]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
ajax - HTML5 File API と AJAX Upload Chunking の質問
個々の進行状況などを含むドラッグアンドドロップの複数ファイルアップロードを作成しました。1つのことを除いて、非常にうまく機能します。大きなファイルをアップロードすると、アップロードが完了するまでブラウザがロックされることがあります。これは、ファイルがブラウザのメモリに保存されており、ブラウザが利用できるすべてのリソースを占有しているためだと思います。私が疑問に思っているのは、ファイルを 1 つずつ読み取り、読み取り時に Ajax 要求を介してチャンクをストリーミングすることは可能ですか? これは FileReader で可能かもしれないと思いますが、私はそれを使っていません。
スマートフォンなのでコードを提供できず申し訳ありませんが、必要に応じて機会があれば投稿します。
python - nltk を使用して、タグ付きの文でタグの 2 つ以上の繰り返しをチャンクする方法はありますか?
Python で nltk モジュールを使用して、2 つから 5 つの名詞が連続して発生するインスタンスをまとめようとしています。
これは私が使用しているコードです:
このビットがトリックを行うべきであることは理にかなっています:Keyword: {< N>{2,5}}
上記のビットを完全に類推して使用する Python を使用した自然言語処理という本で例を見つけました。NOUNS: {< N.*>{4,}}
著者は、そのコードのビットは 4 つ以上の名詞をチャンクする必要があると説明しています。
ただし、上記のコードを実行するとエラーが発生します。
注:私はまた、{< N.*>{2,5}}
(前述の本の著者が行ったという理由だけでドットスターを使用して)上記を使用してみましたが、運がありませんでした。
タグの 2 つ以上の繰り返しをチャンクする方法についての助けをいただければ幸いです。
http - IIS 7.0 の CGI 実行可能 EXE で NPH モードを使用する - これは「リアルタイム」にできますか?
IIS 7.0 サーバーで実行する CGI アプリケーションのプロトタイプを作成しています。最終的に、そのアプリケーションは、実際のデータを生成するのに時間がかかる可能性のあるクエリに応答して生成された多数の HTTP チャンク応答を送信します。
その側面 (つまり、実際のデータの生成) を掘り下げる前に、cgi アプリが実際に非解析ヘッダー モードで実行されているかどうかをテストしたいと思いました (つまり、cgi アプリ自体がすべてのヘッダーを生成し、IIS はすべての出力をヘッダーに返すだけです)。 http ブラウザー/エージェントを要求しています。
だから私は次を返す簡単なアプリを書きました(タイムスタンプに注意してください-タイムスタンプ付きの各行の間に1秒の一時停止があり、テキストが示すように、これは実行に10秒強かかります-実際にcgiアプリを実行できますコマンド ラインを実行し、このタイミングを観察します。
サーバーにexeをインストールしてInternet Explorerで開くと、予想されるテキストが表示されます(別の時間帯と別のタイムゾーンで実行したため、時間が異なります):
ただし、10 秒が経過するまで何も表示されません。(注 - クロムでも同じ結果)
確認するために、テキスト エディターで http 要求を作成し、サーバーへのポート 80 の telnet に貼り付けました。上記のように、応答全体の前に 10 秒のギャップを観察しました。
exeにプレフィックス「nph-」が付いているかどうかに関係なく、同じ結果が得られます-「nph-hello.exe」、「nphhello.exe」、および「hello.exe」を使用して、telnetで同じテストを実行しました。以下を使用します。
(注:識別アドレスは、この投稿用に調整されています)
(exe 命名プレフィックスの関連性については、http://support.microsoft.com/default.aspx?scid=kb;EN-US;q176113 の「回避策として...」で始まる「解決策」の下のメモをお読みください)
私は、この情報が古くなっているか、この機能を有効にするために他の何かを有効にする必要があると思わせる、exe 名の接頭辞に関連する telnet の識別可能な出力の違いを観察していないようです。 cgi アプリが開始される前 - これは、アプリ自体が行うことではなく、プレフィックスが使用される理由を説明しています - つまり、IIS は応答を待つかどうかを知る必要があります)
表面的には、目的の結果を達成しています-データは要求元のhttpエージェントへの道を見つけます-リアルタイムで発生することを望んでいるので、リクエストが行われると進行状況の更新が表示されます.
だから私の質問:
1) NPH をオンにするために必要な設定はありますか (またはプレフィックスは正しいですか?)
2) CGI アプリが本当に NPH モードであるかどうかを確認するために行うことができるテストはありますか?
3) stddout (つまり、応答データ) をリクエスト側のエージェントにリアルタイムでパイプすることを意図していますか?それとも、IIS は最初になんらかの方法でバッファリングして解析する必要がありますか?
php - 配列の各単語から始まる新しい配列のチャンク配列
元の配列の各単語から始まる新しい配列で配列をチャンクするにはどうすればよいですか? したがって、各配列の最初の単語は、前の配列の 2 番目の単語である必要があります。
例えば
array_chunk を使用すると、(we, have)、(a, good)、(day, and) などの新しい配列が得られます。
java - Google App Engine (Java) の場合、FetchOptions でチャンク サイズを設定して使用するにはどうすればよいですか?
クエリを実行していて、現在 1400 件の結果が返されているため、ログ ファイルに次の警告が表示されます。
com.google.appengine.api.datastore.QueryResultsSourceImpl logChunkSizeWarning: このクエリには FetchOptions で設定されたチャンク サイズがなく、1000 を超える結果が返されました。このサイズの結果セットがこのクエリで一般的である場合は、チャンク サイズを設定してパフォーマンスを向上させることを検討してください。
これを実際に実装する方法についての例はどこにも見つかりません。Pythonについてここに質問がありますが、Javaを使用していてPythonを理解していないため、翻訳に苦労しています。
また、このクエリ (以下) の実行には 17226cpu_ms かかりますが、これは長すぎるように感じます。5000 件の連絡先があり、クライアント側でそれらを検索する必要があるとしたらどうなるか想像できません (googlemail の連絡先のように! )
私が持っているコードは次のとおりです。
ここで次の2つのエントリを見つけました。
ただし、これらのオプションを実装または使用する方法については、実際には詳しく説明していません。私はそれがサーバー側のプロセスであると推測しており、一度に1つのチャンクを取得するためにある種のループをセットアップすることを意図していると推測していますが、実際にそれを行うにはどうすればよいですか?
- ループ内でクエリを呼び出しますか?
- ループする回数を知るにはどうすればよいですか?
- チャンク サイズよりも少ない数のエントリが返された最初のチャンクをチェックするだけですか?
実際の例に従わずに、このようなものを見つけようとするつもりはありませんか? ここにいる他の人たちは、やり方を「知っている」ように思えます..!
申し訳ありませんが、私が正しい方法で質問をしていない場合、または私がこれについてぼんやりした初心者である場合は、これを理解するために他にどこに頼ればよいかわかりません!
csv - Python 3.2でcsv(dict)readerオブジェクトをチャンクする方法は?
multiprocessing モジュールの Pool を使用して、大きな csv ファイルの読み取りを高速化しようとしています。このために、(py2kからの)例を採用しましたが、csv.dictreaderオブジェクトには長さがないようです。それを繰り返すことしかできないということですか?まだチャンクする方法はありますか?
これらの質問は関連しているように見えましたが、実際には私の質問には答えませんでした: Number of lines in csv.DictReader , How to chunk a list in Python 3?
私のコードはこれをやろうとしました:
text - Pythonで反復可能なオブジェクトに長さがないのはなぜですか?
私は前の質問を常に改善していると思います。基本的に、multiprocess.Poolにピースを送信するには、大きなテキスト(csv)ファイルをチャンク化する必要があります。そのためには、行を繰り返すことができる反復可能なオブジェクトが必要だと思います。( Pythonで大きなテキストファイルをマルチプロセッシングする方法を参照してください? )
テキストファイルを開いた後のファイルオブジェクト自体(または_io.TextIOWrapperタイプ)は1行ずつ反復可能であるため、チャンクコード(以下、以前は欠落していたことをお詫びします)でチャンクできる可能性があることに気付きました。その長さ?しかし、それが反復可能である場合、なぜその長さを(バイトではなく行で)単純に呼び出すことができないのですか?
ありがとう!
python - NLTK チャンキングと結果ツリーのウォーク
タグ付けされたトークンから名詞群と動詞群を抽出するために NLTK RegexpParser を使用しています。
結果のツリーをたどって、NP または V グループであるチャンクのみを見つけるにはどうすればよいですか?
(S (NP キャリア/NN) の/IN 組織-/JJ および/CC 細胞培養/JJ の/IN (NP the/DT 準備/NN) の/IN (NP インプラント/NNS) および/CC (NP インプラント) /NN) (V含有/VBG) (NPザ/DTキャリア/NN) ./.)
haskell - Lazy ByteString を厳密な ByteString に変換する
lazyByteString
を受け取る関数があり、 strictByteStrings
のリストを返す必要があります (遅延は出力のリスト型に転送する必要があります)。
さまざまな理由でこれを行いたいのですが、いくつかの字句解析関数では strict が必要であり、上記の s の出力で出力された strictが非常に小さいByteString
ことを保証できます。ByteString
csVal
それらをチャンクByteString
せずに「厳密化」するにはどうすればよいですか?
Update0
Lazy を取り、そのすべてのデータを含むByteString
1 つの strict を作成したいと思います。ByteString
python - ツイストPython:最大パケットサイズ?ソケットをフラッシュしますか?
サーバー側にはTwistedをベースに、クライアント側にはAndroidフォンなどのクライアントサーバーソリューションを実装しています。Andoirdエミュレーターは1500b(またはそれ以下?)より大きいTCPパケットを受け取らないため、サーバー側でパケットをチャンクできるようにする必要があります。「transport.write」ごとにソケットをフラッシュしないと、Twistedは送信データをバッファリングするため、手動または自動のフラッシュ/maxpacketsize関数がないとチャンクは役に立ちません。Twistedでこれを行うにはどうすればよいですか?私は「reactor.doSelect(1)」関数に精通していますが、EPollリアクターを使用しているため(スケーラビリティとパフォーマンス上の理由から)、doSelectを使用できません。Twisted内の特定の接続のmaxPacketValueを変更することは可能ですか?
誰かが私に光を見せてくれることを願っています...