parsing - scala パーサーコンビネーターを使用したインデントベースの言語の解析

Question

Scala のパーサーコンビネーターを使用して、インデントが重要な言語を解析する便利な方法はありますか? (例: Python)

score 5 · Accepted Answer

これが有効なプログラムである非常に単純な言語があると仮定しましょう

block
  inside
  the
  block

これをに解析してList[String]、ブロック内の各行を 1 つにしStringます。

最初に、最小インデントレベルを取得し、そのインデントレベルの行のパーサーを返すメソッドを定義します。

def line(minIndent:Int):Parser[String] = 
  repN(minIndent + 1,"\\s".r) ~ ".*".r ^^ {case s ~ r => s.mkString + r}

次に、行間に適切なセパレーターを使用して行パーサーを繰り返すことにより、最小のインデントレベルでブロックを定義します。

def lines(minIndent:Int):Parser[List[String]] =
  rep1sep(line(minIndent), "[\n\r]|(\n\r)".r)

これで、この小さな言語のパーサーを次のように定義できます。

val block:Parser[List[String]] =
  (("\\s*".r <~ "block\\n".r) ^^ { _.size }) >> lines

最初に現在のインデントレベルを決定し、それを最小値として行パーサーに渡します。テストしてみましょう:

val s =
"""block
    inside
    the
    block
outside
the
block"""

println(block(new CharSequenceReader(s)))

そして、私たちは得る

[4.10] parsed: List(    inside,     the,     block)

これらすべてをコンパイルするには、これらのインポートが必要です

import scala.util.parsing.combinator.RegexParsers
import scala.util.parsing.input.CharSequenceReader

RegexParsersそして、そのように拡張するオブジェクトにすべてを入れる必要があります

object MyParsers extends RegexParsers {
  override def skipWhitespace = false
  ....

score 1 · Accepted Answer

私の知る限り、いいえ、Scala パーサーコンビネーターは、そのままではこの種のことをサポートしていません。意味のある方法で空白を解析することで確かにそれを行うことができますが、インデントスタックを追跡するために何らかの形式のステートマシンが必要になるため、いくつかの問題が発生します。

前処理ステップを実行することをお勧めします。インデントされたブロックを分離するためにマーカーを追加する小さなプリプロセッサを次に示します。

object Preprocessor {

    val BlockStartToken = "{"
    val BlockEndToken = "}"

    val TabSize = 4 //how many spaces does a tab take

    def preProcess(text: String): String = {
        val lines = text.split('\n').toList.filterNot(_.forall(isWhiteChar))
        val processedLines = BlockStartToken :: insertTokens(lines, List(0))
        processedLines.mkString("\n")
    }

    def insertTokens(lines: List[String], stack: List[Int]): List[String] = lines match {
        case List() => List.fill(stack.length) { BlockEndToken } //closing all opened blocks
        case line :: rest => {
            (computeIndentation(line), stack) match {
                case (indentation, top :: stackRest) if indentation > top => {
                    BlockStartToken :: line :: insertTokens(rest,  indentation :: stack)
                }
                case (indentation, top :: stackRest) if indentation == top =>
                    line :: insertTokens(rest, stack)
                case (indentation, top :: stackRest) if indentation < top => {
                    BlockEndToken :: insertTokens(lines, stackRest)
                }
                case _ => throw new IllegalStateException("Invalid algorithm")
            }
        }
    }


    private def computeIndentation(line: String): Int = {
        val whiteSpace = line takeWhile isWhiteChar
        (whiteSpace map {
            case ' ' => 1
            case '\t' => TabSize
        }).sum
    }

    private def isWhiteChar(ch: Char) = ch == ' ' || ch == '\t'
}

このテキストを実行すると、次のようになります。

val text =
    """
      |line1
      |line2
      |    line3
      |    line4
      |    line5
      |        line6
      |        line7
      |  line8
      |  line9
      |line10
      |   line11
      |   line12
      |   line13
    """.stripMargin
println(Preprocessor.preProcess(text))

... 次の結果

{
line1
line2
{
    line3
    line4
    line5
{
        line6
        line7
}
}
{
  line8
  line9
}
line10
{
   line11
   line12
   line13
}
}

あとがきは、コンビネータライブラリを使用して、より簡単な方法で解析を行うことができます。

お役に立てれば

parsing - scala パーサー コンビネーターを使用したインデント ベースの言語の解析

2 に答える 2

Related

Reference

parsing - scala パーサーコンビネーターを使用したインデントベースの言語の解析