haskell - コンジット: 複数のストリームコンシューマ

Question

コーパス内の NGram の頻度をカウントするプログラムを作成します。トークンのストリームを消費し、1 つのオーダーの NGrams を生成する関数が既にあります。

ngram :: Monad m => Int -> Conduit t m [t]
trigrams = ngram 3
countFreq :: (Ord t, Monad m) => Consumer [t] m (Map [t] Int)

現時点では、1 つのストリームコンシューマーをストリームソースに接続できます。

tokens --- trigrams --- countFreq

複数のストリームコンシューマーを同じストリームソースに接続するにはどうすればよいですか? 私はこのようなものが欲しいです:

           .--- unigrams --- countFreq
           |--- bigrams  --- countFreq
tokens ----|--- trigrams --- countFreq
           '--- ...      --- countFreq

プラスは、各コンシューマーを並行して実行することです

編集： Petrのおかげで、この解決策を思いつきました

spawnMultiple orders = do
    chan <- atomically newBroadcastTMChan

    results <- forM orders $ \_ -> newEmptyMVar
    threads <- forM (zip results orders) $
                        forkIO . uncurry (sink chan)

    forkIO . runResourceT $ sourceFile "test.txt"
                         $$ javascriptTokenizer
                         =$ sinkTMChan chan

    forM results readMVar

    where
        sink chan result n = do
            chan' <- atomically $ dupTMChan chan
            freqs <- runResourceT $ sourceTMChan chan'
                                 $$ ngram n
                                 =$ frequencies
            putMVar result freqs

score 6 · Accepted Answer

すべてのシンクがすべての値を受け取ることを望んでいると仮定しています。

私はお勧めします：

newBroadcastTMChan新しいチャネルControl.Concurrent.STM.TMChan(stm-chans)を作成するために使用します。
sinkTBMChanこのチャネルを使用して、メインプロデューサーのfrom Data.Conduit.TMChan(stm-conduit) を使用してシンクを構築します。
クライアントごとdupTMChanに、読み取り用の独自のコピーを作成するために使用します。を使用してこのコピーを読み取る新しいスレッドを開始しますsourceTBMChan。
スレッドから結果を収集します。
クライアントがデータを生成されるのと同じ速さで読み取れるようにしてください。そうしないと、ヒープオーバーフローが発生する可能性があります。

（私はそれを試していないので、それがどのように機能するか教えてください。）

更新:結果を収集する方法の 1 つは、MVarfor each consumer スレッドを作成することです。それらのそれぞれは、それがputMVar終了した後にその結果になります。そして、メインスレッドはtakeMVarこれらすべてのMVars を処理するため、すべてのスレッドが終了するのを待ちます。たとえば、varsがのリストである場合MVar、メインスレッドはmapM takeMVar varsすべての結果を収集するために発行します。

haskell - コンジット: 複数のストリーム コンシューマ

1 に答える 1

Related

Reference

haskell - コンジット: 複数のストリームコンシューマ