問題タブ [text-mining]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
nlp - 自然言語/テキスト マイニングと Reddit/ソーシャル ニュース サイト
reddit、digg、news.google.com などのサイトに関連する自然言語データは豊富にあると思います。
テキスト マイニングについて少し調べてみましたが、これらのツールを使用して reddit などを解析する方法がわかりません。
どのようなアプリケーションを思い付くことができますか?
c# - C# 感情分析
特定のテキストの全体的な感情を計算するために実装できる (できればオープン ソースの) C# ライブラリを知っている人はいますか?
html-parsing - Webページから意味のある完全なコンテンツを抽出する
クローラーを使用してWebコンテンツをマイニングして分析を行っています。多くの場合、Webページには、実際のコンテンツからユーザーの注意をそらす記事の本文の周りに雑然としたもの(広告、不要な画像、無関係なリンクなど)が含まれています。
ウェブページのニュース記事/ブログ投稿/フォーラムコメント/記事の実際の位置を定義する基準がないという事実を考えると、私が理解しているように、賢明なコンテンツを抽出することは難しい問題です。
私はこのようないくつかのオープンソースソリューションを見つけることができました:https ://metacpan.org/pod/HTML :: ContentExtractor
しかし、誰かがこれに対処し、妥当な成功率を得ているかどうか私は興味があります。それはかなり一般的な問題のようであり、多くの専門家がそこにいると信じたいと思います。私はJAVAベースのソリューションを好みますが、それは難しいルールではありません。いくつか入力してください。深く感謝します。
nlp - Crawling The Internet
I want to crawl for specific things. Specifically events that are taking place like concerts, movies, art gallery openings, etc, etc. Anything that one might spend time going to.
How do I implement a crawler?
I have heard of Grub (grub.org -> Wikia) and Heritix (http://crawler.archive.org/)
Are there others?
What opinions does everyone have?
-Jason
algorithm - 最適なクラスタリング アルゴリズムは? (簡単に説明します)
次の問題を想像してください。
- 「articles」というテーブルに約 20,000 のテキストを含むデータベースがあります。
- 関連記事をまとめて表示するために、クラスタリングアルゴリズムを使って関連記事をつなぎたい
- アルゴリズムはフラット クラスタリングを行う必要があります (階層的ではありません)。
- 関連記事は「関連」テーブルに挿入する必要があります
- クラスタリング アルゴリズムは、テキストに基づいて、2 つ以上の記事が関連しているかどうかを判断する必要があります。
- PHPでコーディングしたいが、疑似コードや他のプログラミング言語を使ったサンプルでもOK
2 つの入力記事が関連している場合は「true」を返し、そうでない場合は「false」を返す関数 check() を使用して最初のドラフトをコーディングしました。残りのコード (データベースからの記事の選択、比較対象の記事の選択、関連記事の挿入) も完了しています。たぶん、残りも改善できます。しかし、私にとって重要なポイントは関数 check() です。したがって、いくつかの改善またはまったく異なるアプローチを投稿できれば幸いです.
アプローチ 1
アプローチ 2 [check() のみ]
また、クラスタリングには多くのアルゴリズムがあることを知っていますが、すべてのサイトには数学的な説明しかなく、理解するのが少し難しいことも知っています. したがって、(疑似)コードでのコーディング例は素晴らしいでしょう。
あなたが私を助けてくれることを願っています。前もって感謝します!
java - JAVA で使用する NLP ツールキットは?
私は、NCBI (National Center for Biotechnology Information) に接続し、そこで記事を検索する Web サイトで構成されるプロジェクトに取り組んでいます。問題は、すべての結果に対してテキスト マイニングを行う必要があるということです。テキストマイニングには JAVA 言語を使用し、Web サイトの開発には ICEFACES を使用した AJAX を使用しています。What do I have : 検索から返された記事のリスト。各記事には ID と要約があります。アイデアは、各要約テキストからキーワードを取得することです。そして、すべてのアブストラクトのすべてのキーワードを比較し、最も繰り返されているキーワードを見つけます。次に、検索に関連する単語をウェブサイトに表示します。何か案は ?私はウェブでたくさん検索しましたが、Named Entity Recognition、Part Of Speech のタグ付け、遺伝子とタンパク質に関する NER の GENIA シソーラスがあることを知っています。すでにステミングを試しました... ストップ ワード リストなど... この問題を解決するための最善の方法を知りたいだけです。どうもありがとう。
tagging - ドキュメントの自動タグ付け関連
ドキュメントにキーワードをタグ付けする必要があるプロジェクトに取り組み始めましたが、手動でタグ付けするのは非常に難しく、時間がかかります (特に数千のドキュメントがある場合)。そのため、プロセスを自動化することを計画しています (結果が完全ではないことはわかっていますが、少なくともいくつかの提案されたタグが表示されます)。最新のFirefoxバージョンでは、このようなシステムが実装されています(ページをブックマークすると、いくつかのタグが提案されます).
yahooの用語抽出サービスも良い例です
したがって、誰かがこの問題を回避するのを手伝ってくれるなら、本当に助けていただければ幸いです. または、誰かが Firefox のタグ付けシステムについて知っていれば、少し助けになるでしょう。
data-mining - 関数名が規則に従っているかどうかを予測する方法
10,000 個の関数名のリポジトリがあり、C/C#/C++ で作成できるコードのコーパスでそれらの使用頻度があるとします。(彼らは通常規定されている異なる慣習を持っています)
一部のサンプルは次のとおりです。
関数名が与えられた場合、名前が Human Generated Name の規則に従っているかどうかをどのように予測できますか?
ノート:
- 明らかに、すべての候補名は有効な名前になります
- 生成された名前には任意の文字を含めることができ、不適切なものとして扱われます
- レターケースは文字化けする可能性があります
いくつかの候補:
技術とソフトウェアに関する指針は大歓迎です
parsing - ずさんな/風変わりな/「ほぼ構造化された」データを解析するための背景資料?
テキストの「ほぼ構造化された」形式で存在するデータを解析する必要があるプログラムを維持しています。つまり、それを生成するさまざまなプログラムはわずかに異なる形式を使用し、印刷されてエラーが発生して OCR が返された可能性があります (ええ、私は知っています)。モードなど。私は物事が適切に動作する場合の解析の理論と実践にある程度精通しており、優れた解析フレームワークなどがあるため、イライラしますが、データの信頼性が低いため、非常にいくつかのことを書くようになりましたずさんなアドホック コード。現時点では問題ありませんが、より多くのバリエーションとより複雑なデータを処理するために拡張するにつれて、物事が手に負えなくなるのではないかと心配しています. だから私の質問は:
関連することを実行する既存の商用製品がかなりの数あるため (Web ブラウザーの「癖モード」、コンパイラーのエラー解釈、さらには自然言語処理やデータ マイニングなど)、賢い人たちが考えを巡らせていることは確かです。これ、および理論を開発しようとしたので、可能な限り原則に基づいた方法で非原則的なデータを解析することに関する背景を読むための最良の情報源は何ですか?
私はこれがいくらかオープンエンドであることを理解していますが、私の問題は、尋ねるべき正しい質問が何であるかを知るために、より多くの背景が必要だと思うことです.
.net - ドキュメントの(自然)言語を決定する方法は?
私は英語とドイツ語の2つの言語のドキュメントのセットを持っています。これらのドキュメントに関する使用可能なメタ情報はありません。プログラムはコンテンツのみを見ることができます。これに基づいて、プログラムはドキュメントが2つの言語のどちらで書かれているかを決定する必要があります。
数時間で実装できるこの問題の「標準」アルゴリズムはありますか?または、これを実行できる無料の.NETライブラリまたはツールキットですか?LingPipeについて知っていますが、
- Java
- 「セミコマーシャル」での使用は無料ではありません
この問題は驚くほど難しいようです。Google AJAX Language API (最初にこのサイトを検索して見つけた)をチェックしましたが、それは途方もなくひどいものでした。私が指摘したドイツ語の6つのWebページについては、1つの推測だけが正しかった。他の推測は、スウェーデン語、英語、デンマーク語、フランス語でした...
私が思いついた簡単なアプローチは、ストップワードのリストを使用することです。私のアプリは、Lucene.Netで分析するために、ドイツ語のドキュメントにこのようなリストをすでに使用しています。私のアプリがいずれかの言語からのストップワードの出現についてドキュメントをスキャンすると、出現回数が多い方が勝ちます。確かに非常に素朴なアプローチですが、それで十分かもしれません。残念ながら、興味深いトピックですが、自然言語処理の専門家になる時間がありません。