問題タブ [nlp]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Javaで日本語の文字列をトリミングする際の問題
私は次の文字列(日本語)「ツ名」を持っています。最初の文字は「like」空白ですが、Unicodeでの番号は12288なので、「ツ名」.trim()を実行すると同じ文字列が得られます(trimはt作業)。私がC++でトリムを行う場合、それは問題なく動作します。誰かがJavaでこの問題を解決する方法を知っていますか?Unicode用の特別なトリム方法はありますか?
java - 文の境界を見つける Java ライブラリ
文の境界の検索を処理する Java ライブラリを知っている人はいますか? 私は、言語が使用できるすべての文末記号を知っているスマートな StringTokenizer 実装になると考えています。
BreakIterator での私の経験は次のとおりです。
ここで例を使用すると、次の日本語があります。
アスキーでは、次のようになります。
私が変更したサンプルの部分は次のとおりです。
境界インデックスを見ると、次のように表示されます。
しかし、これらのインデックスは文末に対応していません。
programming-languages - 自然言語に最も近いプログラミング言語は?
この質問のアイデアは、その人が話していることを理解していない、他の人が私を理解していないなど、さまざまな状況から得たものです。
したがって、「賢い」解決策は、コンピューター言語を話すことです。:)
プログラミング言語が (英語の) 自然言語にどこまで近づくことができるかに興味があります。私が近いと言うとき、私は言葉や文を使うだけでなく、自然言語が「できる」ことを「できる」ことを意味し、「できる」とは、それが(非常に限られた方法で)使用できることを意味します自然言語の代わりとして。
私はこれが不可能であることを知っています(そうですか?)が、これは面白いと思います。
algorithm - 無意味なテキストを意味のあるテキストから分離するアルゴリズム
いくつかのプログラムにフィードバック機能を提供しました。残念ながら、ある種のスパム保護を含めるのを忘れていました。これにより、ユーザーは自分のサーバーに何でも送信できるようになりました。すべてのフィードバックは巨大なデータベースに保存されます。
最初は定期的にそれらのフィードバックをチェックしました。使用可能なものを除外し、ゴミを削除しました。問題は、1 日あたり 900 件のフィードバックを受け取ることです。本当に役立つのは 4 ~ 5 個だけです。他のメッセージはほとんど 2 種類の意味不明なものです。
- ナンセンス: jfvgasdjkfahs kdlfjhasdf (キーボードで頭をぶつけている人々)
- わからない言語
私がこれまでにやったこと:
「asdf」、「qwer」などを含むフィードバックを削除するフィルターをインストールしました... -> 1 日あたり 700 件のみ
不適切な言葉を含むものをすべて削除する単語フィルターをインストールしました -> 1 日あたり 600 件 (聞かないでください - しかし、そこには奇妙な人がたくさんいます)
- 自分の言語で使用されていない文字を含むメッセージを除外します -> 1 日あたり 400 件
しかし、1日400回は多すぎます。ですから、以前にそのような問題に対処したことがあり、無意味なメッセージを除外するアルゴリズムを知っている人がいるかどうか疑問に思っています。
どんな助けでも本当に感謝します!
python - NLTK の実際の使用例
自然言語ツールキット(NLTK)をいじっています。
そのドキュメント ( BookおよびHOWTO ) は非常に分厚く、例は少し高度な場合があります。
NLTK の使用/アプリケーションの良いが基本的な例はありますか? Stream HackerブログのNTLK 記事のようなものを考えています。
nlp - NLPは文章/段落を面白いと分類します
特定の文/段落を面白いと分類する方法はありますか。これについてさらにどこに進むべきかについての指針はほとんどありません。
java - Javaスペルチェッカーライブラリを探しています
少なくとも次の言語の辞書を備えたオープンソースのJavaスペルチェックライブラリを探しています:フランス語、ドイツ語、スペイン語、チェコ語。なにか提案を?
algorithm - 「関連用語」提案機能の構築または検索
いくつかの単語を入力すると、関連する用語、フレーズ、または概念の多様なセットを返すユーティリティが必要です。注意点は、最初に用語の大きなグラフが必要になることです。そうしないと、この機能はあまり役に立ちません。
たとえば、「野球」を送信すると返されます
Google Setsは、この種の機能を見つけることができる最良の例ですが、パブリック API がないため使用できません (そして、TOS に反対するつもりはありません)。また、単語を 1 つ入力しても、非常に多様な結果が得られるわけではありません。私は、接線で外れる解決策を探しています。
私が実験した最も近い方法は、WikiPedia の APIを使用してカテゴリとバックリンクを検索することですが、これらの結果を「関連性」または「人気」で直接並べ替える方法はありません。それがなければ、提案リストは膨大であちこちにあり、すぐには役に立たず、絞り込むのが非常に困難です.
A Thesaurus を使用することも最小限で済みますが、それでは固有名詞や接線に関連する用語 (上記の結果のいずれか) が除外されます。
オープン サービスがあれば喜んで再利用しますが、十分なものは見つかりませんでした。
私は、これを社内で十分に人口の多い開始セットで実装するか、これを提供する無料サービスを再利用する方法を探しています。
解決策はありますか? お早めにどうぞ!
更新: 信じられないほど緻密で有益な回答をありがとう。6 か月から 12 か月以内に、皆さんが提案したことを理解できるといいのですが、勝利の答えを選びます =)
math - 情報抽出を開始するには?
情報抽出を開始して非常に優れたものになるためのトレーニングパスをお勧めします. 私は趣味のプロジェクトの 1 つを行うためにそれについて読み始めましたが、すぐに数学 (代数、統計、確率論) が得意である必要があることに気付きました。さまざまな数学のトピックに関する入門書をいくつか読みました (そしてとても楽しいです)。いくつかのガイダンスを探しています。助けてください。
更新:コメントの1つに答えるだけです。私はテキスト情報抽出にもっと興味があります。
python - PythonでのTwitterの感情分析
Textual Sentiment Analysis(http://en.wikipedia.org/wiki/Sentiment_analysis )のオープンソース実装、できればPythonでの実装を探しています。私が使用できるそのようなオープンソースの実装に精通している人はいますか?
Twitterで「youtube」などの検索用語を検索し、「幸せな」ツイートと「悲しい」ツイートをカウントするアプリケーションを作成しています。私はGoogleのappengineを使用しているので、Pythonで使用しています。Twitterから返された検索結果を分類できるようにしたいのですが、Pythonで分類したいと思います。私はこれまでそのような感情分析装置を見つけることができませんでした。特にPythonでは見つかりませんでした。私が使用できるそのようなオープンソースの実装に精通していますか?できれば、これはすでにpythonに含まれていますが、そうでない場合は、Pythonに変換できることを願っています。
注意してください、私が分析しているテキストは非常に短く、ツイートです。したがって、理想的には、この分類器はそのような短いテキスト用に最適化されています。
ところで、ツイッターは検索で「:)」と「:(」の演算子をサポートしています。これはまさにこれを目的としていますが、残念ながら、それらによって提供される分類はそれほど優れていないので、これを自分で試してみるかもしれないと思いました。
ありがとう!
ところで、初期のデモはここにあり、私がこれまでに持っているコードはここにあり、興味のある開発者と一緒にオープンソース化したいと思っています。