問題タブ [nlp]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
algorithm - ウェブページの住所を認識するアルゴリズム
HTML ページの構造化データを認識するための最適なアルゴリズムは何ですか?
たとえば、Google は電子メール内の自宅/会社の住所を認識し、この住所への地図を提供します。
php - PHPでの自然言語単位の変換?
文字列から重量/高さのデータを抽出できるライブラリ (できれば PHP) を探しています。
ユーザーに、「体重 80 キロ、身長 1.8 メートル」、さらには「220 ポンド」や「6 フィート 1」などを入力して、数量と単位を抽出できる関数に渡すようにします。
そのようなものがあるかどうか知っている人はいますか?
c - テキストファイル内の単語の出現回数をカウントする
単語がテキストファイルに出現する回数を追跡するにはどうすればよいですか? これをすべての単語に対して実行したいと思います。
たとえば、入力が次のような場合:
「その男は少年に挨拶した。」
「man said hi to boy」のそれぞれのオカレンスは 1 です。
「the」の出現回数は 2 です。
単語と出現のペアで辞書を保持することを考えていましたが、これを C で実装する方法がわかりません。解決策に関する同様または関連する問題へのリンクは素晴らしいでしょう。
編集: 自分のハッシュ テーブルをロールアウトするのを避けるために、glib の使用方法を学ぶことにしました。途中で、同様の問題を説明する優れたチュートリアルを見つけました。http://bo.majewski.name/bluear/gnu/GLib/ch03s03.html
さまざまなアプローチの数、特に Ruby 実装のシンプルさと優雅さに驚かされます。
string - 文字列を分析して著者の性別を推測するオープンソース ソフトウェアはありますか?
クローズド ソースの Web アプリケーション以外は見つかりません。アクティブなプロジェクトはありますか? 私が開発し、関与しているものにソフトウェアを使用することに興味があります。
text - 「AUTOMATIC TEXT SUMMARIZER(言語ベース)」について
私は最終年度のプロジェクトとして「自動テキスト要約(言語的アプローチ)」を行っています。私は十分な研究論文を収集し、それらを調べました。それでも、「どうやってそれを行うか」ということについてはあまり明確ではありません。基本的に「AUTOMATIC TEXT SUMMARIZER (statistical based)」を見つけ、私のプロジェクトに比べてはるかに簡単であることがわかりました。私のプロジェクト ガイドでは、これ (統計ベース) を選択せず、言語ベースを選択するように指示されました。
この種のプロジェクトに取り組んだことがある、または聞いたことがある人なら誰でも、ドキュメントを要約することは、(いくつかの特定のアルゴリズムを含むいくつかのアプローチによって) 各文にスコアを付け、次にしきい値スコアよりも高いスコアを持つ文を選択することに他ならないことを知っているでしょう。このプロジェクトで最も難しい部分は、スコアリングに適切なアルゴリズムを選択し、後でそれを実装することです。
私は中程度のプログラミング スキルを持っており、JAVA でコードを書きたいと考えています (そこには多くの API があり、オーバーヘッドが少なくなるからです)。今、私は自分のプロジェクトで、どのようなアプローチとアルゴリズムを使用すべきかを知りたいと思っています。また、それらを実装する方法。
nlp - 単語の音節の検出
単語の音節を検出するかなり効率的な方法を見つける必要があります。例えば、
目に見えない -> in-vi-sib-le
使用できる音節規則がいくつかあります。
V CV VC CVC CCV CCCV CVCC
※Vは母音、Cは子音です。例えば、
発音 (5 Pro-nun-ci-ation; CV-CVC-CV-V-CVC)
私はいくつかの方法を試しましたが、その中には正規表現 (音節を数えたい場合にのみ役立ちます) またはハードコードされたルール定義 (非常に非効率的であることが証明された力ずくのアプローチ) を使用し、最後に有限状態オートマトン (これは有用なものにはなりません)。
私のアプリケーションの目的は、特定の言語のすべての音節の辞書を作成することです。このディクショナリは、後でスペル チェック アプリケーション (ベイジアン分類子を使用) およびテキストから音声への合成に使用されます。
以前のアプローチ以外に、この問題を解決する別の方法についてのヒントを教えていただければ幸いです。
私は Java で仕事をしていますが、C/C++、C#、Python、Perl のヒントなら何でも役に立ちます。
artificial-intelligence - 分類アルゴリズムのパフォーマンスの測定
手に分類の問題があり、機械学習アルゴリズムで対処したいと思います(ベイズ、またはマルコフ、おそらく問題は使用する分類器に依存しません)。トレーニングインスタンスの数を考えると、データの過剰適合の問題を考慮に入れて、実装された分類器のパフォーマンスを測定する方法を探しています。
つまり、N [1..100]のトレーニングサンプルが与えられた場合、すべてのサンプルでトレーニングアルゴリズムを実行し、これとまったく同じサンプルを使用してフィットネスを測定すると、データの過剰適合の問題に陥る可能性があります。分類器はそれを認識します。トレーニングインスタンスの正確な答えは、多くの予測力を持たずに、フィットネス結果を役に立たなくします。
明らかな解決策は、手作業でタグ付けされたサンプルをトレーニングとテストサンプルに分離することです。トレーニング用に統計的に有意なサンプルを選択する方法について学びたいと思います。
ホワイトペーパー、本のポインタ、PDFは大歓迎です!
seo - 大規模なコンテンツ コーパス内でコンテキスト リンクを自動的に作成するためのツールまたは方法は?
基本的なシナリオは次のとおりです。たとえば、100,000 件の新聞のような記事のコーパスがあります。最低限、それらはすべて明確に定義されたタイトルと、ある程度の本文コンテンツを持ちます。
私がやりたいのは、他の記事にリンクすべき記事のテキストの続きを見つけることです。
したがって、記事 Foo に「8 年生の生徒は John-Paul Sartre の作品を読むよう奨励されています」のような一連のテキストがあり、記事 Bar に「John-Paul Sartre の重要な作品」というタイトル (およびそれについて) がある場合、I' Foo のテキスト内に Foo から Bar への HTML リンクを自動的に作成したいと考えています。
nlp - 自然な英単語
いくつかの種類の言語処理操作について見つけることができる最も網羅的な英単語リストが必要ですが、インターネット上で十分な品質を備えたものを見つけることができませんでした。
英語には、外国語や専門用語を含めて 1,000,000 の単語があります。
少し分類されたインターネットからダウンロードできるソース (または 500k ワード近く) を提案していただけますか? 言語処理アプリケーションにどの入力を使用しますか?
.net - 日付の自然言語パーサー (.NET)?
ユーザーが自然言語 (「次の金曜日」、「毎週」など) を使用して日付 (定期的な日付を含む) を入力できるようにしたいと考えています。http://todoist.com/Help/timeInsertの例とよく似ています
私はこの投稿を見つけましたが、それは少し古く、私が完全に満足していない解決策を 1 つしか提供していませんでした。私はこの質問を復活させて見たいと思いました.この種の日付解析を行う.NETライブラリは他にありますか?