問題タブ [data-dictionary]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - テキストのセグメンテーション: 辞書ベースの単語分割
バックグラウンド
データベースの列名を対応する英語のテキストに分割して、データ ディクショナリをシードします。英語辞書は、企業文書、wiki、および電子メールのコーパスから作成されます。辞書 ( lexicon.csv
) は単語と確率を含む CSV ファイルです。したがって、誰かが「セラピスト」という単語を(電子メールまたはウィキページで)書く頻度が高いほど、「セラピスト名」が他の何かではなく「セラピスト名」に分割される可能性が高くなります. (レキシコンには、おそらくレイピストという単語さえ含まれないでしょう。)
ソースコード
- TextSegmenter.java @ http://pastebin.com/taXyE03L
- SortableValueMap.java @ http://pastebin.com/v3hRXYan
データファイル
- lexicon.csv - http://pastebin.com/0crECtXY
- columns.txt - http://pastebin.com/EtN9Qesr
問題 (2011 年 1 月 3 日更新)
次の問題が発生した場合:
次の解決策が考えられます。
レキシコンには、相対的な確率 (単語の頻度に基づく) を持つ単語が含まれています: dependent 0.8
、end 0.86
、relationship 0.9
、depend 0.3
、およびent 0.001
。
dep end ent relationship
なぜなら、辞書にないためdep
(つまり、75% の単語使用)のソリューションを削除し、他の 2 つのソリューションは辞書内の単語の 100% をカバーします。残りの解のうち、 の確率dependent relationship
は0.72ですが、 0.00027depend ent relationship
です。したがって、正解として選択できます。dependent relationship
関連している
- 「文」内の単語をスペースで区切る方法は?
- トップ コーダー - テキスト セグメンテーション プレゼンテーション 1/2
- トップ コーダー - テキスト セグメンテーション プレゼンテーション 2/2
- 動的計画法アルゴリズムを使用した線形テキスト セグメンテーション
- 動的計画法: セグメンテーション
- 動的計画法: 計算ツール
質問
与えられた:
レキシコンの範囲と確率に基づいて最も可能性の高いソリューションを生成するルーチンをどのように実装しますか? 例えば:
ありがとうございました!
mysql - MySQLデータベースの「データディクショナリ」を作成するユーティリティ
MySQLデータベースのデータディクショナリを作成するためのユーティリティが存在するかどうか疑問に思います。
データベースに関するメタデータをフェッチし、ユーザーが理解できるように論理形式で表示するphpスクリプトを作成することを検討していますが、これを簡単に実行できるビルド済みのユーティリティがある場合は避けたいと思います。私のため。
c# - 数値のペアの並べ替えセット - Java のハッシュマップに相当する .NET はありますか?
私は数日間、しつこい問題を抱えています。これが私がやろうとしていることです:
さまざまな数値セットを複数の方法で操作するプログラムを作成していますが、これまでのところ、ループを使用してそのような計算の 1 つを制御し、ループするたびに int 値 x と int 値 y を出力するようにしています。
現在、x は連続しており、カウンターから派生しています。y は単なる変数です。
繰り返しますが、データ行を読み取る単純なループがあります
ここで、各行に対してこの 2 つの値を取得し、最後に値 y に基づいて並べ替えを行いたいと思います。もともとは、Javaで行っていたようにハッシュマップを使用して値でソートするだけでしたが、c#でデータディクショナリとして行うのは難しいと感じています(一時テーブルも使用したくありません)のみキーでソートできます(私の場合はx)
では、どのようなアプローチをとればよいでしょうか。- ループの出力ペア値をデータテーブルの入力として使用しますか? - かなり複雑に見える 2 次元配列を使用しますが、最終的には x と y の間のペア関係を維持する唯一の方法ですか?
または、Javaハッシュマップを値でソートするのと同等のことを行う他の方法はありますか?
mysql - MYSQL データ ファイルは gz に圧縮されます
私は drupal ウェブサイトを持っています。データベースは約 10GB です。drupal データベースの datadir をチェックしていたところ、いくつかのファイルが .gz であることがわかりました!! どうしてこれなの?そしてそれはパフォーマンスに影響しますか?? ウェブサイトは正常に動作しており、.gz に対応するファイルはありませんが、これらのテーブルを通常どおり使用できます (つまり、データ ディレクトリに content_type_company.MYD.gz がありますが、content_type_company.MYD はありません)
リストは次のようになります。
sql - colsからcolumn_nameを選択すると、列は存在しますが何も返されません
Oracle9iでこのステートメントを実行しようとしています。ただし、Jは、IDという名前の列が多数あることを確信していますが、結果セットは空のようです。
また、次のステートメントは空の結果セットを返します。
これがユーザー特権によるものかどうか尋ねてもいいですか?
ありがとう!
jde - JDE データ ディクショナリ
JDE EnterpriseOne 8.98.4.1 データ辞書? Databrowser を使用して F9210 のデータ項目を見つけました。この場合は、Long Address データ フィールドです。このフィールドが使用されているテーブル、ビュー、フォーム、およびレポートにこのフィールドをどのように外部参照すればよいでしょうか?
JDE データ ディクショナリ ポインタは非常に高く評価されます。
sql-server - SQL Server データベースのデータ ディクショナリの生成
データベース内のテーブルのデータ ディクショナリを生成しようとしています。
理想的には、列名、データ型、制限、および拡張プロパティの説明をエクスポートしたいと考えています。
これはどのように達成できますか?
postgresql - PostgreSQL から Confluence Wiki へのデータ ディクショナリ ジェネレーター
PostgreSQL テーブルを取り、Wiki 形式 (できれば Confluence) でデータ ディクショナリを出力するツールを探しています。ほとんどのツールは、このタスクを達成するために多くの手作業/複数のツールを必要とするようです (IE> SchemaSpy、DB Visual Architect、出力された HTML DD を取得して Confluence に変換するための Confluence プラグイン)。Postgres テーブルをスキャンし、Wiki に適したデータ ディクショナリを出力する 1 つのツールを探しています。これにより、他のツールでデータベースと DB スキーマを更新することなく、DB の変更に合わせてシームレスなメンテナンスが可能になります。
database - データ ディクショナリとレポート ツール
私の質問は、レポート ツールとデータ ディクショナリの概念についてです。適切なレポートを作成するには、データ ディクショナリを使用する必要がありますか? そして、どのツールがそれを使用しますか? ツールとは、ジャスパー レポート、オープン レポート、SQL Server レポート サービスを意味します。ご協力ありがとうございます
php - PHP/MySQL駆動型アプリケーションのデータディクショナリの作成についてサポートが必要です
物件検索・比較サイトを作成しています。データを格納するmysqlテーブルの作成についてサポートが必要です。
必要なテーブルの数と、列見出しにも何を使用すればよいかわかりません。
私はウェブサイトができるだけ正確で完全であることを望みます。
現在住んでいる場所を探していて、検索条件はとてもシンプルなので、このウェブサイトを作成することを思いつきましたが、物件比較ウェブサイトには、検索している物件に関する完全で正確なデータがありません。
テーブルがどのように「正規化」される必要があるのかわかりません。たとえば、次のようになります。
表:プロパティ、フィールド:id、address_id、寝室、バスルーム、ガレージ、庭。表:住所、フィールド:address_id、address_line_1、address_line_2、address_line_3、town、city、postcode。
しかし、それでは、家の中の各寝室について詳しく説明し、その寸法などを指定する必要があります。
どんなに小さくても、誰かが何か提案があれば。とても感謝しております。