問題タブ [tokenize]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c++ - 逆オフセットトークナイザー
トークン化する文字列があります。その形式はHHmmssff
、H
、m
、s
がf
数字です。
4 つの 2 桁の数字にトークン化されるはずですが、短縮形も受け入れる必要があるsff
ため、 と解釈され00000sff
ます。を使用したかったboost::tokenizer
のoffset_separator
ですが、正のオフセットでのみ機能するようで、逆方向に機能させたいと思います。
わかりました、1 つのアイデアは文字列の左から 0 をパディングすることですが、おそらくコミュニティは非常にスマートな何かを思いつきます。;)
編集: 追加の要件が登場しました。
よりスマートなソリューションの基本的な必要性はf
、ssff
、 、などのすべてのケースを処理することでしたが、その省略形のmssff
ように、より完全な時間表記も受け入れることでした。HH:mm:ss:ff
s:ff
s:
s:00
文字列が I で終わる場合は、:
明らかに 2 つのゼロを埋め込むこともできます。次に、数字だけを残してすべてのセパレータを取り除き、結果の文字列を精力的に解析します。
しかし、オフセット トークナイザーを文字列の末尾 (オフセット -2、-4、-6、-8) からさかのぼって、数値をレキシカルに s にキャストする方法があれば、少し簡単になるようint
です。
c# - ユーザーのクエリの解析
これが私が達成しようとしていることです。ユーザーがクエリを入力できるGoogleのようなテキストボックスを1つ提供したいと思います。そして、私は彼らに次のような半自然言語を表現できるようにしたいと思います
構文を適切に構造化し、この特定のドメインに限定する必要がある場合は問題ありません...これらはこれを使用するエキスパートユーザーです。
最終的には、解析結果をある種の式ツリーとして利用できるようにしたいと思います。ただし、どのデータ構造が優れているかについて他のアイデアがある場合。
これはC#です:-)
parsing - 「トークナイザー」、「パーサー」、「レクサー」とは何か、またそれらがどのように相互に関連して使用されるのかについての明確な定義をお探しですか?
「トークナイザー」、「パーサー」、および「レクサー」とは何か、およびそれらが互いにどのように関連しているかについての明確な定義を探しています(たとえば、パーサーはトークナイザーを使用しますか、またはその逆ですか)?データの宣言と定義を抽出するために c/h ソース ファイルを通過するプログラムを作成する必要があります。
例を探していて、いくつかの情報を見つけることができますが、文法規則、解析ツリー、抽象構文ツリー、およびそれらが相互にどのように関連しているかなどの基本的な概念を理解するのに本当に苦労しています. 最終的には、これらの概念を実際のプログラムに格納する必要がありますが、1) どのように見えるか、2) 共通の実装はありますか。
これらのトピックや Lex や Yacc などのプログラムについて Wikipedia を調べてきましたが、コンパイラ クラス (EE メジャー) を経験したことがないので、何が起こっているのかを完全に理解するのは難しいと感じています。
php - キーワード比較スキームの実装 (逆検索)
キーワードのデータベースは常に増え続けています。受信テキスト入力 (記事、フィードなど) を解析し、テキストに含まれるデータベースのキーワードを見つける必要があります。キーワードのデータベースは、テキストよりもはるかに大きいです。
データベースは絶えず成長しているため (ユーザーは監視対象のキーワードをどんどん追加しています)、入力されたテキストを単語に分割し、それらをデータベースと比較するのが最善の方法であると考えています。私の主なジレンマは、この比較スキームを実装することです (このプロジェクトでは PHP と MySQL を使用します)。
最も単純な実装は、キーワード テーブルに対して単純な SELECT クエリを作成し、見つかったすべてのキーワードをリストする巨大な IN 句を作成することです。
もう 1 つの方法は、メモリ内にハッシュ テーブルを作成し (memcache などを使用)、同じ方法でそれをチェックすることです。
この種の検索の経験があり、これをより適切に実装する方法について提案がある人はいますか? 私はまだこれらのアプローチを試していません。現時点ではアイデアを集めているところです。
arrays - J2ME での txt ファイルからのデータの解析
基本的に、J2ME で屋内ナビゲーション システムを作成しています。場所の詳細を.txtファイルに入れました
ユーザーがマップを機能させるために複数のファイルをダウンロードする必要がないように、両方の詳細を同じファイルに入れました (時間がかかり、複雑に見える可能性があります)。だから私がしたことは、最初に場所の名前と座標を入力して、異なる詳細を分離することです.
今私が抱えている問題は、コマンドを設定して (入力ストリームを手動でトークン化しながら) さまざまな詳細を個別の配列に解析して、次のトークンがアンダースコアであるかどうかを確認することです。
入力を手動でトークン化しますが、同様のことを行いますが、それでも1つの配列に解析するいくつかの説明/コードを見つけました。何をすべきかについてのアイデアはありますか?ありがとう
テキスト ファイルの説明
テキストの形式は次のとおりです...
<--1stSection-->
/**
* セクション 1 の形式は次のとおりです
* xCoordinate;yCoordinate;LocationName
*/
12;13;ニューヨーク市
40;12;ワシントン DC
...など
<--2ndSection-->
/**
* 実際には隣接リストですが、間接的に「エッジ」の詳細を提供します。
* この形式
* StartNode/MainReferencePoint;Endnode1;distance2endNode1;Endnode2;distance2endNode2;...etc
*/
フィラデルフィア;ワシントン DC;7;ニューヨーク市;2
ニューヨーク市;フロリダ;24;イリノイ;71
...など
c++ - Boost Tokenizer escaped_list_separator を異なるパラメーターで使用する
こんにちは、ブースト ライブラリのトークナイザー クラスを使用してトークナイザーを機能させようとしています。ブーストのドキュメントでこのチュートリアルを見つけました:
http://www.boost.org/doc/libs/1 _36 _0/libs/tokenizer/escaped _list _separator.htm
問題は、エスケープされた _list _separator("","",""); の引数を取得できないことです。
しかし、boost/tokenizer.hpp ファイルを変更すると動作します。しかし、それはそうではなく、理想的な解決策は、エスケープされた _list _separator に異なる引数を取得するために不足しているものがあるかどうか疑問に思っていました。
エスケープ用に " と ' を使用してスペースで分割し、引用符で囲まれた文字列内にエスケープ文字を入れないようにしたい。
これは、ゲーム内コンソール システムの引数解析システムに使用されます。
Visual Studio 2005 からのエラーはエラー C2974 です: 'boost::tokenizer' : 'TokenizerFunc' の無効なテンプレート引数、予期される型編集: この質問は ferrucio によって分析され、peter によって説明されました。
xpath - XPath を使用して変数を検索する場合、その変数の一部のみを取得します
私はXPathが初めてです。ページから 3 桁の数字をすべて取得するコードを書いています。それらは一定ではなく、105、515、および 320 の間で変化します。これらの数値を 2 つの別々の部分にトークン化できるようにする必要があります...
1 つの X-Path 式で 1 桁目を取得し、2 番目の X-Path 式で 2 番目の 2 桁を取得できるようにしたいと考えています
調査を行ったところ、「ゼロ値」でトークン化できないことがわかりましたが、これを行う方法はありますか?
ありがとう
php - 文字列スライス、php
文字列をスライスする方法はありますか?この変数があるとしましょう
緯度と経度の値を個別の変数に取りたい方法でスライスしたいのですが、subtokは目的を果たしていません