問題タブ [text-analysis]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c - 一重引用符または二重引用符の数え方
私の問題は、c の文字列内の一重引用符または二重引用符の数を数えられるようにすることです。例
ユーザーが文字列を入力し、gets() 関数を使用すると、文字列をさらに分析するためにこのカウンターが必要になります。
たとえば、文字列で「|」をカウントする必要がある場合は簡単でした。
私の機能は次のように単純でした:
しかし、引用符を分析する必要があるので、if(条件) に何を入れればよいかわかりません
python - 単語数のPython降順
このコードを使用して、テキスト ファイル内の単語の出現頻度をカウントしています。
出力を周波数番号の降順で印刷するにはどうすればよいですか?
c# - NMecab でローマ字を出力するには?
Mecab (NMecab と呼ばれる) の .NET ポートを使用して、日本語のひらがな、カタカナ、および漢字をローマ字に解析しようとしています。
これが私のコードです:
次の日本語テキストを使用して呼び出す場合Parse(input)
:「ども」
「ども助詞,接続助詞, , , ,ども,ドモ,ドモEOS」という出力が得られます。
「ども」のローマ字を探しています。
この SO answer で説明されているようにMecab を直接使用しようとしましたが、同じ出力が得られます。
nlp - テキストをスピンするためのテキスト分析のルール
テキストスピニングアプリケーションがどのように機能するかを考えていました。テキストを取り、テーマを変更する同様の意味のテキストを与えるいくつかのアプリケーションのように(同義語、受動態などを使用することにより)。
最初にそれを見て、類義語で単語を変更するだけで済むと思いました。しかし、それだけでは十分ではないことに後から気付きました。
テキストスピニングのテキスト分析ルールを定義するのを手伝ってくれる人はいますか?
- テキストから名詞、形容詞を収集し、その同義語に置き換えます。
同様のチュートリアルへの参照も役立ちます。
elasticsearch - Elasticsearch - ネスト - 最初の文字がありません
Elasticsearch に対して Nest クライアントを使用しています。n-gram インデックス アナライザーを使用しています。奇妙な動作に気付きました。最初から単語を検索すると、結果が得られません。ただし、2文字目以降を検索すると、完全に機能します。これらはごく普通の英字です。
たとえば、「itty」、「itt」、「tty」などを検索すると、「kitty」を含む単語が検索されますが、「ki」、「kit」などは検索されません。ほとんど n-gram のようなものです。最初の文字をスキップするだけです。
これが Nest によって引き起こされているのか、それとも n-gram の通常の動作なのかはわかりません。私のインデックス設定は、次の投稿にあるものと似ています: Elasticsearch using NEST: How to configure Analyzers to find partial words? 私の最大グラムが10しかないことを除いて。
アップデート
コードを少し単純化して、同じ動作を確認しました。
Nest を使用して定義されたマッピング構成は次のとおりです。
そして、これは最初の文字が欠落している検索です: