問題タブ [text-mining]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
data-analysis - URL のインデックスを作成します。どの機能を含める必要がありますか?
URLのインデックスの作成に取り組んでいます。目的は、ドメイン URL (例: www.nytimes.com) としてキーを持つデータ構造を構築して保存することであり、値はその URL に関連付けられた一連の機能になります。この一連の機能についての提案をお待ちしています。たとえば、www.nytimes.com を次のように保存します。
[www.nytimes.com: [lang:en, alexa_rank:96, content_type:news, spam_probability: 0.0001 など..]
なぜ私はこれを構築しているのですか?最終的な目標は、このインデックスを使用して興味深いことを行うことです。たとえば、このインデックスでクラスタリングを行い、興味深いグループを見つけるなどです。全体の期間にわたって多数の URL によって生成された大量のテキストを持っています。多くの時間:)データは問題ではありません。
どんな種類の提案も大歓迎です。
vb.net - vb.net の N-gram 関数 -> 文字の代わりに単語のグラムを作成
私は最近、n-gram と、テキスト本文内のフレーズの頻度を n-gram と比較する素晴らしい可能性について知りました。現在、テキスト本文を取得し、最も頻繁に使用されるフレーズのリストを返す vb.net アプリを作成しようとしています (n >= 2)。
テキスト本文から n-gram を生成する方法の C# の例を見つけたので、コードを VB に変換することから始めました。問題は、このコードでは単語ごとに 1 グラムではなく、文字ごとに 1 グラムが作成されることです。単語に使用したい区切り文字は、VbCrLf (改行)、vbTab (タブ)、および次の文字です: !@#$%^&*()_+-={}|\:\"'?¿ /.,<>'¡º×÷';«»[]
この目的のために次の関数を書き直す方法を知っている人はいますか?
c# - さまざまな非構造化テキストファイルから情報を取得する-テキストマイニング?
この問題を解決するには助けが必要です。
特定のドメインのドキュメントが大量にあります。これらのドキュメントはさまざまなソースからのものであるため、構造も大きく異なる可能性があります。反対側には、ドキュメントの抜粋からいくつかの図を入力する必要がある、いくつかの指定されたフィールドを含むテーブルがあります。
例えば:
x社の2010年の取引量は2,000万ドルでした。今年は、y社の交換額が1,000,000ドルでした。
結果は次のようになります
そのような問題を解決する方法の詳細情報を見つけることができるいくつかのリンクまたはトピックを教えてください。
これに対するすぐに使える解決策がないことは知っていますが、どこから探し始めればよいのでしょうか。
前もって感謝します。
database - 大規模データベースでのテキストマイニング(データマイニング)
履歴書(CV)の大規模なデータベースと、すべてのユーザースキルをグループ化した特定のテーブルスキルがあります。
そのテーブル内には、スキルをフルテキストで説明するフィールドskill_textがあります。
標準化されたスキルを備えた新しいテーブルを構築するために、そのテーブルから重要な用語/フレーズを抽出するためのアルゴリズム/ソフトウェア/メソッドを探しています。
DBから抽出されたスキルの例を次に示します。
- セクター別および競争力のある分析
- 事業開発(国際的な設定を含む)
- 特定の構造および道路設計ソフトウェア-Microstation、Macao、AutoCAD(基本的な知識)
- クリエイティブな作品(Photoshop、In-Design、Illustrator)
- キャンペーンの進捗状況を確認して報告します
- イベントや展示会の企画と参加
- 開発:Aptana Studio、PHP、HTML、CSS、JavaScript、SQL、AJAX
- 規律:1対1のマーケティング、Eマーケティング(SEO&SEA、ディスプレイ、電子メール、アフィリエイトプログラム)ミックスマーケティング、バイラルマーケティング、ソーシャルネットワークマーケティング。
出力は次のようになります。
- セクター別および競争力のある分析
- 事業開発
- 特定の構造および道路設計ソフトウェア-
- マカオ
- AutoCAD
- Photoshop
- インデザイン
- イラストレーター
- イベントの開催
- 発達
- Aptana Studio
- PHP
- HTML
- CSS
- JavaScript
- SQL
- AJAX
- ミックスマーケティング
- バイラルマーケティング
- ソーシャルネットワークマーケティング
- メール
- SEO
- 1対1のマーケティング
ご覧のとおり、スキルだけが他の表現テキストではありません。
私はこれがテキストマイニング技術を使用して可能であることを知っていますが、それを行う方法は?データベースは本当に大きいです..テキストの頻度を計算して、それが本当のスキルなのか無意味なテキストなのかを判断できるので、それは良いことです...大きな問題は..「blablabla」がスキルであると判断する方法です。
編集:テキストトークンや正規表現などの標準的なものを使用するように言わないでください..ユーザーは非常に任意の方法でスキルを入力するためです!!
ありがとう
artificial-intelligence - 与えられたテキストのアイデアや概念を特定する方法
現在、特定のトピック/アイデアがテキストの本文で言及されていることを検出できると非常に便利なプロジェクトに取り組んでいます。たとえば、テキストに次のものが含まれているとします。
ジョーンズ氏についてもう少し教えていただければ助かります。彼の外見の説明、または写真があればそれも役に立ちますか?
その人がジョーンズ氏の写真を要求したことを検出できれば素晴らしいことです。私は非常に素朴なアプローチを取り、「写真」または「写真」という単語を探すだけで済みますが、次のように書いた場合、これは明らかに良くありません。
ジョーンズさんの写真を送らないでください。
どこから始めればよいか知っている人はいますか?それは可能ですか?
私は nltk のようなものを調べましたが、誰かが同様のことをしている例をまだ見つけておらず、この種の分析が何と呼ばれているのかまだ完全にはわかりません. 私を地面から離すことができるどんな助けも素晴らしいでしょう.
ありがとう!
java - Lucene での単語レベルの注釈レイヤーのインデックス作成と検索
一部のタグ、浅いパーサーからのチャンク、名前エンティティ、およびさまざまな 自然言語処理(NLP) ツールからのその他など、基になるテキストに対する複数のレイヤーの注釈を含むデータ セットがあります。のような文の場合The man went to the store
、注釈は次のようになります。
Lucene を使用して、このような注釈を付けて一連のドキュメントをインデックス化し、さまざまなレイヤーで検索を実行したいと考えています。単純なクエリの例として、ワシントンがpersonとしてタグ付けされているすべてのドキュメントを取得することが挙げられます。私は表記法に完全にコミットしているわけではありませんが、構文的にエンド ユーザーは次のようにクエリを入力する場合があります。
クエリ:Word=Washington,NER=Person
また、さまざまなレイヤーにまたがる注釈の順序を含む、より複雑なクエリを実行したいと思います。たとえば、 personというタグが付けられた単語の後にlocationarrived at
というタグが付けられた単語が続くすべてのドキュメントを検索します。このようなクエリは次のようになります。
クエリ:"NER=Person Word=arrived Word=at NER=Location"
Lucene でこれにアプローチする良い方法は何ですか? 構造化されたトークンを含むドキュメント フィールドをインデックス化して検索する方法はありますか?
ペイロード
1 つの提案は、Luceneペイロードの使用を試みることでした。しかし、ペイロードはドキュメントのランキングを調整するためにのみ使用でき、返されるドキュメントを選択するためには使用されないと思いました。
いくつかのユースケースでは、パターンを含むドキュメントの数が本当に必要なため、後者は重要です。
また、クエリに一致する用語のペイロードのみが検査されます。これは、ペイロードが最初の例のクエリ のランキングにしか役立たないことを意味しますWord=Washington,NER=Person
。これにより、用語Washingonton
がPerson
. ただし、2 番目のサンプル クエリでは "NER=Person Word=arrived Word=at NER=Location"
、不特定の用語のタグをチェックする必要があるため、一致しない用語があります。
sql - PostgreSQL のテキストからの n-gram
PostgreSQL のテキスト列から n-gram を作成しようとしています。現在、テキスト列のデータ(文)を配列に(空白で)分割しています。
enter code here
tableName から regexp_split_to_array(sentenceData,E'\s+') を選択
この配列を取得したら、どうすればよいですか。
- n-gram を検索するループを作成し、それぞれを別のテーブルの行に書き込む
unnest を使用すると、すべての配列のすべての要素を別々の行で取得できます。おそらく、単一の列から n-gram を取得する方法を考えることができますが、文の境界を失うので、保持する必要があります。
上記のシナリオをエミュレートする PostgreSQL のサンプル SQL コード
r - 単語の近接性を追跡する
私は、ドキュメントのコレクション内で辞書ベースのテキスト検索を行う小さなプロジェクトに取り組んでいます。私の辞書には肯定的な合図の単語(別名良い単語)がありますが、ドキュメントコレクションで単語を見つけただけでは、肯定的な結果が保証されません。たとえば、これらの肯定的な単語の近くに否定的な単語が存在する可能性があるためです(重要ではありません)。 。文書番号、正の単語、および負の単語への近接度が含まれるようにマトリックスを作成したいと思います。
誰かがそれを行う方法を提案できますか?私のプロジェクトは非常に初期の段階なので、私のテキストの基本的な例を示しています。
これは、カンデサルタンシレキセチル、グリブリド、ニフェジピン、ジゴキシン、ワルファリン、ヒドロクロロチアジドが私の肯定的な言葉であり、重要ではないという私の否定的な言葉である私の例の文書です。ポジティブな単語とネバティブな単語の間で近接(単語ベース)マッピングを行いたい。
誰かがいくつかの役立つポインタを与えることができますか?
r - ドキュメント分類の決定木
こんにちは私は、ドキュメント分類に決定木を使用することが可能であるかどうかを知りたいと思いました。そうであれば、データ表現はどのようにすべきですか?デシジョンツリーにRパッケージパーティを使用していることを知っています。
java - 大規模機械学習
大きなデータセット (100 億から 1000 億のレコード) でさまざまな機械学習手法を実行する必要がありますブースティング、回帰木 -- 多くの異なる問題とそれらを解決する方法)
最良の実装は何でしょうか? 私は ML の経験はありますが、巨大なデータセットに対してそれを行う方法についてはあまり経験がありません MapReduce インフラストラクチャを利用した拡張可能でカスタマイズ可能な機械学習ライブラリはありますか C++ を強く好みますが、Java と Python は問題ありませんそれを余裕)?