4

非常に大きなファイルを複数の小さなファイルに変換する小さなプログラムを書いています。各ファイルには100行が含まれます。

私は行の反復を反復しています:

  while (lines.hasNext) {
      val line = lines.next()
  }

カウンターを導入したいのですが、一定の値に達したらカウンターをリセットして先に進みます。Javaでは、次のようなことをします:

int counter = 0;
      while (lines.hasNext) {
          val line = lines.next()
if(counter == 100){
 counter = 0;
}
++counter
      }

scala または代替方法に類似したものはありますか?

4

4 に答える 4

9

伝統的に使用するscalaで.zipWithIndex

scala> List("foo","bar")
res0: List[java.lang.String] = List(foo, bar)

scala> for((x,i) <- res0.zipWithIndex) println(i + " : " +x)
0 : foo
1 : bar

(これは、イテレーターにある限り、行でも機能します。たとえば、hashasNextnext()メソッド、またはその他の scala コレクション)

ただし、カウンターのリセットなどの複雑なロジックが必要な場合は、Java と同じ方法で記述できます。

var counter = 0
while (lines.hasNext) {
  val line = lines.next()
  if(counter % 100 == 0) {
    // now write to another file
  }
}

カウンターをリセットしたい理由を教えていただけますか?

@ pr1001が提案したように、グループ化された方法を使用することをお勧めします

lines.grouped(100).foreach(l => l.foreach(/* write line to file*/))
于 2012-08-21T22:22:54.633 に答える
3

元のリストにデータのグループが繰り返されているという事実をリセット カウンターが表している場合は、次のgrouped方法を使用することをお勧めします。

scala> val l = List("one", "two", "three", "four")
l: List[java.lang.String] = List(one, two, three, four)

scala> l.grouped(2).toList
res0: List[List[java.lang.String]] = List(List(one, two), List(three, four))

更新:ファイルから読み取っているため、ファイルをかなり効率的に反復処理できるはずです。

val bigFile = io.Source.fromFile("/tmp/verybigfile")
val groupedLines = bigFile.getLines.grouped(2).zipWithIndex
groupedLines.foreach(group => {
  val (lines, index) = group
  val p = new java.io.PrintWriter("/tmp/" + index)
  lines.foreach(p.println)
  p.close()
})

もちろん、これは理解のために書くこともできます...

行の各グループを独自のファイルに書き出す前groupedLinesに、並列コレクションに変換することで、パフォーマンスを向上させることもできます。.par

于 2012-08-21T22:32:17.673 に答える
1

これはうまくいくでしょう:

lines grouped 100 flatMap (_.zipWithIndex) foreach {
  case (line, count) => //whatever
}
于 2012-08-22T00:13:25.730 に答える
0

zipWithIndexいくつかの変換と一緒に使用できます。

scala> List(10, 20, 30, 40, 50).zipWithIndex.map(p => (p._1, p._2 % 3))
res0: List[(Int, Int)] = List((10,0), (20,1), (30,2), (40,0), (50,1))
于 2012-08-21T22:26:56.147 に答える