私はテキストパーサーのアーキテクチャを設計しています。例文:Content here, content here.
全文は...文です、それは明らかです。The
、quick
などは言葉です。,
と .
は句読点です。しかし、一般的に単語と句読点はすべて一緒に何ですか?それらは単なるシンボルですか?単一の文が何で構成されているかを最も合理的な抽象的な方法で命名する方法がわかりません(文字/母音などで構成されていると書くことができるため)。
助けてくれてありがとう:)
私はテキストパーサーのアーキテクチャを設計しています。例文:Content here, content here.
全文は...文です、それは明らかです。The
、quick
などは言葉です。,
と .
は句読点です。しかし、一般的に単語と句読点はすべて一緒に何ですか?それらは単なるシンボルですか?単一の文が何で構成されているかを最も合理的な抽象的な方法で命名する方法がわかりません(文字/母音などで構成されていると書くことができるため)。
助けてくれてありがとう:)
あなたがしているのは、技術的に字句解析(「字句解析」)です。これは、一連の入力記号を受け取り、一連のトークンまたは語彙素を生成します。したがって、単語、句読点、空白はすべてトークンです。
(E)BNF用語では、語彙素またはトークンは「終端記号」と同義です。一連の解析ルールをツリーと考えると、終端記号はツリーの葉です。
それで、あなたの入力のアトムは何ですか?単語ですか、それとも文章ですか?単語(および空白)の場合、文は構文解析ルールに似ています。実際、「文」という用語自体が誤解を招く可能性があります。入力シーケンス全体を文として参照することは珍しくありません。
空白以外の文字のシーケンスの半一般的な用語は「textrun」です。
構文解析について話すときによく使用される、2つのサブカテゴリ「単語」と「句読点」で構成される一般的な用語は「トークン」です。
表示している入力テキストの字句解析のどの段階に応じて、これらは「語彙素」または「トークン」のいずれかになります。