問題タブ [sentence]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c++ - C++ の文に基づく配列
重複の可能性:
C++ での文字列の分割
スペースで区切られた一連の単語を配列に読み込むにはどうすればよいですか?
次の文があるとします。
「カエルが好き」
そして、この配列:
作りたい
例として。(私が今書いた文をハードコーディングするように誰も言わないでください。これは例です。)
c++ - C++はstrtokのユーザー入力を取得できません
私はC++でこのコードの問題に遭遇し続けます:
私は実際にプログラムユーザーにcharphrase[100]に入れるフレーズを生成してもらいたいのですが、翻訳を台無しにせずに入力を開始するための適切な構文を理解することはできません。
これは、フレーズをピッグラテン語に変換するプログラムです。
sql - SQLVARCHAR2の日付を別の日付形式に変更する
次の形式のデータベースに日付(VARCHAR2として保存)があります。
そして私はSQL文を作成して以下を取得したいと思います:
私の目的は、それを認識可能な日付として手動でExcelに追加することです(データをデータベースからエクスポートしてExcelにインポートできることは知っていますが、手動で実行したいと思います)。
私のSQL文はどうあるべきですか?
私はそれを試みました:
しかし、私は以下を取得することしかできません:
ありがとう
nlp - テキストを特定の長さ、完全な文にトリミングする方法は?
不明なテキストを特定の長さにトリミングするためのソリューションを探しています。完全な文のみを保持します。
だから、このようなテキスト
に変換する必要があります
文字数制限は 50、40 (および --find-next-sentence-ending では 20)。
私は多くのSOの質問を読みました-答えのほとんどはバリエーションでした
しかし、上記の文などでは明らかに失敗します。スタンフォード テキスト パーサーまたは OpenNLP の使用を提案する人もいます。それらは本当にクールですが、通常のアプリケーションでは使用できません。テキストをトリミングするためだけに、Ruby/PHP サーバーに Java をインストールすることはありません。したがって、言語にとらわれず、表示される典型的なケースを処理できる、80/20 のソリューションを探しています。
これよりも問題のある文は考えられませんでした(次の文の先頭に日付、非ドットの文末、非ASCII文字が含まれ、「制限」文の途中に非終了のドットが含まれています)。
また、フォークして遊ぶための GIST (https://gist.github.com/4051035) も作成しました。フォークすると、ユーザーはこの問題のさまざまな解決策にクリックスルーできることが保証されるので、それを使用してください ;)この質問をコミュニティ ウィキにしますが、質問に対しては機能しないようです - 回答に対してのみです。したがって、コメントに提案/関連するSOの質問を追加してください。ありがとう。
pdf - 分割された文を再結合する方法は?
テキストに変換された PDF を処理しています。問題?不安定な PDF フォーマットや PDF からテキストへの変換が原因で、文が分割されることがあります。
そこで、バラバラになった文を「再構築」するのに役立つツールを探しています。多くの場合、ページのヘッダーまたはフッターが原因です。数字やチャートなどの他の要素も同様に作用する可能性がありますが、それらは今のところ私の主な関心事ではありません.
この問題には、いくつかの方法で対処できます。
NLP 文の検出を行う前にヘッダーとフッターを削除すると、確かに役立ちます。これを行うツールを知りません。ツールや方法を知っていますか?(ページ番号を削除する一般的な考え方は、理論的には「簡単」です。ページごとに約 1 回発生する連続して増加する番号を見つけます。)
文が文法的に正しい可能性を判断できる NLP パーサーを使用すると役立ちます。そうすれば、別々に取られた 2 つの文の文法上の正確さと、それらの融合の正確さを比較することができます。(スタンフォード パーサーは、私が理解しているように、文法の正確さを評価するものではありません。) 役立つツールを知っていますか?
問題に対処するための提案、回答、またはその他の方法があればお知らせください。
php - 均一な文構造のパターン マッチング
文から特定の単語を選択するために正規表現を使用したい均一な構造の文があります。たとえば、文の構造は次のようになります。
引用符で囲まれた単語はハードコードされ、引用符のない単語は可変です。たとえば、その文構造に基づいて、次の文が適用されます。
これと一致し、[train] と [stop] を解析できるようにする正規表現パターンを考え出すのに助けが必要です。私の正規表現 kunfu は弱いので、助けが必要です。
classification - Weka 動的文分類
WEKAでこれを行うことができるかどうか(およびその方法)についてヒントを教えてください。
たくさんの文があり、分類しなければならない新しい文を受け取ります。
既存のカテゴリは、既存の文に基づいて作成されます。まず、これらのカテゴリを作成する方法は?
次に、新しい文が来たら、それを以前に作成されたカテゴリ (新しいものではない) のいずれかに分類するにはどうすればよいでしょうか。
php - PHPで文間の空白を編集するにはどうすればよいですか?
私は現在使用しています
PHPで文章を編集するには、ここに問題がありますが、例は次のとおりです。
これは私のテキスト例です。この文の後、ドットの後にスペースはありません。別の文です。
私は何をすべきか?その場合、PHPに空白を追加してもらいたいのですが、すでに空白が含まれている文や「...」で終わっている文の後には追加しません。
もう 1 つの望ましくない動作は、数字に関するものです。例えば :
宝くじで1,000,000が当たるなんてすごい!
編集後になってほしくない1. 000. 000
。
も同じですC.J.
。それはとどまらなければなりC.J.
ませんC. J.
つまり、次の場合に空白が必要です。
- 「。」数字が後に続かない(他の記号でもかまいません)
- 「...」のように複数のドットがある場合は無視します
- ドットの前に 1 文字または 2 文字の単語がある場合は無視します。
c++ - C ++で句読点を含む文を保存する
ここに来るのは初めてで、C++ の初心者です。テキストファイルから読み込んでいるときに、句読点で文を分割する方法を知りたいです。
すなわち
結果は、私のベクターでは次のようになります (ベクターの各コンテンツを表示するために endl を配置したと仮定します):
- 元気かい?
- Javaは素晴らしいです。
- 素晴らしい C++ は素晴らしいです。
これまでの私のコードは次のとおりです。
ここに私の結果があります:
- あなた?
- すごい。
- 驚くばかり!
前の単語を取得できず、それを修正できなかった理由を説明できますか?