“tokenize”の関連問題_Stack Overflow日本語サイト

0 投票する

3 に答える

316 参照

c++ - 逆オフセットトークナイザー

トークン化する文字列があります。その形式はHHmmssff、H、m、sがf数字です。

4 つの 2 桁の数字にトークン化されるはずですが、短縮形も受け入れる必要があるsffため、と解釈され00000sffます。を使用したかったboost::tokenizerのoffset_separatorですが、正のオフセットでのみ機能するようで、逆方向に機能させたいと思います。

わかりました、1 つのアイデアは文字列の左から 0 をパディングすることですが、おそらくコミュニティは非常にスマートな何かを思いつきます。;)

編集： 追加の要件が登場しました。

よりスマートなソリューションの基本的な必要性はf、ssff、、などのすべてのケースを処理することでしたが、その省略形のmssffように、より完全な時間表記も受け入れることでした。HH:mm:ss:ffs:ffs:s:00

文字列が I で終わる場合は、:明らかに 2 つのゼロを埋め込むこともできます。次に、数字だけを残してすべてのセパレータを取り除き、結果の文字列を精力的に解析します。

しかし、オフセットトークナイザーを文字列の末尾 (オフセット -2、-4、-6、-8) からさかのぼって、数値をレキシカルに s にキャストする方法があれば、少し簡単になるようintです。

c++boost tokenize

macbirdie

2008-11-13T13:06:15.447

0 投票する

8 に答える

337 参照

c# - ユーザーのクエリの解析

これが私が達成しようとしていることです。ユーザーがクエリを入力できるGoogleのようなテキストボックスを1つ提供したいと思います。そして、私は彼らに次のような半自然言語を表現できるようにしたいと思います

構文を適切に構造化し、この特定のドメインに限定する必要がある場合は問題ありません...これらはこれを使用するエキスパートユーザーです。

最終的には、解析結果をある種の式ツリーとして利用できるようにしたいと思います。ただし、どのデータ構造が優れているかについて他のアイデアがある場合。

これはC＃です:-)

c#parsing tokenize

Joel Martinez

2008-12-09T04:40:03.320

0 投票する

4 に答える

39087 参照

parsing - 「トークナイザー」、「パーサー」、「レクサー」とは何か、またそれらがどのように相互に関連して使用されるのかについての明確な定義をお探しですか?

「トークナイザー」、「パーサー」、および「レクサー」とは何か、およびそれらが互いにどのように関連しているかについての明確な定義を探しています（たとえば、パーサーはトークナイザーを使用しますか、またはその逆ですか）？データの宣言と定義を抽出するために c/h ソースファイルを通過するプログラムを作成する必要があります。

例を探していて、いくつかの情報を見つけることができますが、文法規則、解析ツリー、抽象構文ツリー、およびそれらが相互にどのように関連しているかなどの基本的な概念を理解するのに本当に苦労しています. 最終的には、これらの概念を実際のプログラムに格納する必要がありますが、1) どのように見えるか、2) 共通の実装はありますか。

これらのトピックや Lex や Yacc などのプログラムについて Wikipedia を調べてきましたが、コンパイラクラス (EE メジャー) を経験したことがないので、何が起こっているのかを完全に理解するのは難しいと感じています。

parsing lexer tokenize

lordhog

2008-12-19T09:14:50.720

0 投票する

6 に答える

1424 参照

php - キーワード比較スキームの実装 (逆検索)

キーワードのデータベースは常に増え続けています。受信テキスト入力 (記事、フィードなど) を解析し、テキストに含まれるデータベースのキーワードを見つける必要があります。キーワードのデータベースは、テキストよりもはるかに大きいです。

データベースは絶えず成長しているため (ユーザーは監視対象のキーワードをどんどん追加しています)、入力されたテキストを単語に分割し、それらをデータベースと比較するのが最善の方法であると考えています。私の主なジレンマは、この比較スキームを実装することです (このプロジェクトでは PHP と MySQL を使用します)。

最も単純な実装は、キーワードテーブルに対して単純な SELECT クエリを作成し、見つかったすべてのキーワードをリストする巨大な IN 句を作成することです。

もう 1 つの方法は、メモリ内にハッシュテーブルを作成し (memcache などを使用)、同じ方法でそれをチェックすることです。

この種の検索の経験があり、これをより適切に実装する方法について提案がある人はいますか? 私はまだこれらのアプローチを試していません。現時点ではアイデアを集めているところです。

php mysql search keyword tokenize

Eran Galperin

2009-01-02T20:12:42.960

0 投票する

1 に答える

3542 参照

arrays - J2ME での txt ファイルからのデータの解析

基本的に、J2ME で屋内ナビゲーションシステムを作成しています。場所の詳細を.txtファイルに入れました

場所の名前とその座標。

それぞれの開始ノードと終了ノード、および重み (ノードの長さ) を持つエッジ。

ユーザーがマップを機能させるために複数のファイルをダウンロードする必要がないように、両方の詳細を同じファイルに入れました (時間がかかり、複雑に見える可能性があります)。だから私がしたことは、最初に場所の名前と座標を入力して、異なる詳細を分離することです.

今私が抱えている問題は、コマンドを設定して (入力ストリームを手動でトークン化しながら) さまざまな詳細を個別の配列に解析して、次のトークンがアンダースコアであるかどうかを確認することです。

そうであれば、(疑似コード用語で) ストリームの次の行に移動し、新しい配列を作成して、次の詳細セットで埋めます。

入力を手動でトークン化しますが、同様のことを行いますが、それでも1つの配列に解析するいくつかの説明/コードを見つけました。何をすべきかについてのアイデアはありますか？ありがとう

テキストファイルの説明
テキストの形式は次のとおりです...

<--1stSection-->
/**
* セクション 1 の形式は次のとおりです
* xCoordinate;yCoordinate;LocationName
*/

12;13;ニューヨーク市
40;12;ワシントン DC
...など

<--2ndSection-->
/**
* 実際には隣接リストですが、間接的に「エッジ」の詳細を提供します。
* この形式
* StartNode/MainReferencePoint;Endnode1;distance2endNode1;Endnode2;distance2endNode2;...etc
*/

フィラデルフィア;ワシントン DC;7;ニューヨーク市;2
ニューヨーク市;フロリダ;24;イリノイ;71
...など

arrays parsing text java-me tokenize

CSFYPMAIL

2009-01-05T20:33:22.090

0 投票する

3 に答える

15994 参照

c++ - Boost Tokenizer escaped_list_separator を異なるパラメーターで使用する

こんにちは、ブーストライブラリのトークナイザークラスを使用してトークナイザーを機能させようとしています。ブーストのドキュメントでこのチュートリアルを見つけました：

http://www.boost.org/doc/libs/1 _36 _0/libs/tokenizer/escaped _list _separator.htm

問題は、エスケープされた _list _separator("","",""); の引数を取得できないことです。

しかし、boost/tokenizer.hpp ファイルを変更すると動作します。しかし、それはそうではなく、理想的な解決策は、エスケープされた _list _separator に異なる引数を取得するために不足しているものがあるかどうか疑問に思っていました。

エスケープ用に " と ' を使用してスペースで分割し、引用符で囲まれた文字列内にエスケープ文字を入れないようにしたい。

これは、ゲーム内コンソールシステムの引数解析システムに使用されます。

Visual Studio 2005 からのエラーはエラー C2974 です: 'boost::tokenizer' : 'TokenizerFunc' の無効なテンプレート引数、予期される型

編集: この質問は ferrucio によって分析され、peter によって説明されました。

c++string boost tokenize

Annerajb

2009-02-12T14:44:53.517

0 投票する

1 に答える

613 参照

xpath - XPath を使用して変数を検索する場合、その変数の一部のみを取得します

私はXPathが初めてです。ページから 3 桁の数字をすべて取得するコードを書いています。それらは一定ではなく、105、515、および 320 の間で変化します。これらの数値を 2 つの別々の部分にトークン化できるようにする必要があります...

1 つの X-Path 式で 1 桁目を取得し、2 番目の X-Path 式で 2 番目の 2 桁を取得できるようにしたいと考えています

調査を行ったところ、「ゼロ値」でトークン化できないことがわかりましたが、これを行う方法はありますか?

ありがとう

xpath tokenize

Kurt Kroeber

2009-02-13T01:54:05.577

0 投票する

7 に答える

2552 参照

php - 文字列スライス、php

文字列をスライスする方法はありますか?この変数があるとしましょう

緯度と経度の値を個別の変数に取りたい方法でスライスしたいのですが、subtokは目的を果たしていません

php string tokenize

2009-02-25T21:14:09.080

問題タブ [tokenize]

Reference