問題タブ [structured-data]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
log4j - Log4j SyslogAppender は MDC と NDC をサポートしていますか
簡単に言うと、Log4j SyslogAppender は、出力が構造化データであるという意味で MDC と NDC をサポートしていますか。つまり、プロトコルの構造化データ機能を使用していますか?
さらに、MDC に入れ、ログに正常に追加できるものに制限はありますか?
.net - 固定長テキスト ファイル用の .NET ライブラリ
固定長のフィールド テキスト ファイルを処理するための .NET (できれば C# のオープン ソース) ライブラリを探しています。書くのは大したことではありませんが、既存のテスト済みの作業は常に最初から優れています。
PBX で生成されたファイルから固定長フィールドのデータを抽出します。各 PBX には、独自のファイル形式と一連のレコード形式があります。INI ファイルや XML ファイルからの読み取りなど、動的なファイルおよびレコード形式を使用する簡単な方法を備えたライブラリを探しています。
EDIT:コンパイル時にレコードタイプごとにクラスを作成する必要があると考えていたため、 以前はマルコスメリの素晴らしいライブラリFileHelpersを見落としていました。これはそうではなく、ライブラリにはClassBuilder
実行時にクラスを構築するためのクラスが含まれています。
新しい編集: 異なる PBX からのレコードは、レイアウトのみが異なり、データは異なりません。つまり、すべてのレコード レイアウトが同じクラスにマップされます。構成ファイルから開始データと長さデータを動的に読み取る FileHelper 属性を使用する必要があるかどうか疑問に思っています。
algorithm - 構造化データのあいまいマッチング
私はデータベースにある構造化されたレコードのかなり小さなコーパスを持っています。Webフォーム(テーブルスキーマと同じように構造化されている)を介して送信された単一のレコードに含まれる情報のごく一部を考えると(これをテストレコードと呼びます)、リストをすばやく作成する必要があります。テストレコードと一致する可能性が最も高いレコード、および検索用語がレコードとどの程度一致しているかの信頼性の見積もりを提供します。この検索の主な目的は、コーパス内のレコードと重複するレコードを誰かが入力しようとしているかどうかを検出することです。テストレコードが重複する可能性は十分にあり、テストレコードが重複しない可能性は十分にあります。
レコードの幅は約12000バイトで、レコードの総数は約150,000です。テーブルスキーマには110の列があり、検索の95%が最も一般的に検索される上位5%の列になります。
データは、名前、住所、電話番号、その他の業界固有の番号などです。コーパスとテストレコードの両方で、手作業で入力され、個々のフィールド内で半構造化されています。最初は「列に手作業で重みを付け、その中の単語トークンを一致させる」と赤面するかもしれませんが、それはそれほど簡単ではありません。私もそう思いました。電話番号を取得した場合、それは完全に一致することを示していると思いました。問題は、トークンの頻度が桁違いに変化しないフォームに単一のフィールドがないことです。電話番号は、コーパスに100回、またはコーパスに1回表示される場合があります。他の分野についても同じことが言えます。これにより、フィールドレベルでの重み付けは実用的ではなくなります。きちんとしたマッチングを得るには、よりきめ細かいアプローチが必要です。
私の最初の計画は、ハッシュのハッシュを作成することでした。最上位はフィールド名です。次に、特定のフィールドのコーパスからすべての情報を選択し、そこに含まれるデータをクリーンアップして、サニタイズされたデータをトークン化し、トークンをキーとして、頻度を値として、第2レベルでトークンをハッシュします。
頻度カウントを重みとして使用します。参照コーパス内のトークンの頻度が高いほど、テストレコードで見つかった場合に、そのトークンに付加する重みは少なくなります。
私の最初の質問は、部屋の統計家に向けたものです。頻度を重みとしてどのように使用しますか?n、レコード数f(t)、トークンtがコーパスに出現する頻度、レコードがオリジナルで重複ではない確率o、および確率pの間に正確な数学的関係がありますか?テストレコードは、実際にはテストが与えられたレコードxであり、xには同じフィールドに同じtが含まれていますか?複数のフィールドにわたる複数のトークンの一致の関係はどうですか?
あることを心から疑っていますが、魔法の要素でいっぱいの完全に恣意的なハックよりも、私を近づけるものはありますか?
それを除けば、誰かがこれを行う方法を持っていますか?
トークン頻度ルックアップテーブルなど、データベース内の別のテーブルを維持する必要のない他の提案に特に熱心です。
information-extraction - 情報抽出ツールキット
非表示または不完全なデータを含む半構造化情報を取得できる情報抽出ライブラリを探しています。構造に基づいてコンテンツを抽出するようにいくつかの分類子をトレーニングしたいと考えています。
ブラウザーでテキストを選択できるツールの構築に取り組んでおり、他のドキュメントでテキストを引き出すために使用できる分類子を (Web サービス呼び出しを介して) 生成します。
私は主に、コンテンツが何であるかを示すためにドキュメントの構造をどのように使用できるかを調べています。
sql-server-2008 - SubSonic 2.xは、TVPをサポートするようになりました-SQLServer2008のSqlDbType.Structure/DataTables
興味のある方のために、DataTableパラメータータイプを認識してサポートするようにSubSonic2.xコードを変更しました。
SQL Server 2008の機能の詳細については、http://download.microsoft.com/download/4/9/0/4906f81b-eb1a-49c3-bb05-ff3bcbb5d5ae/SQL%20SERVER%202008-RDBMS/T-SQLを参照してください。 %20Enhancements%20with%20SQL%20Server%202008%20-%20Praveen%20Srivatsav.pdf
この機能拡張により、ストアドプロシージャラッパーメソッドをオーバーライドするメソッドを使用して、部分的なStoredProcedures.csクラスを作成できるようになります。
良い形式について少し:私のDALには直接テーブルアクセスがなく、私のDBにはそのユーザーのsprocへの実行権限しかありません。そのため、SubSonicはAllStructsクラスとStoredProceduresクラスのみを生成します。
SPROC:
TVP:
自動生成ツールが実行されると、次の誤ったメソッドが作成されます。
UserDetailsをタイプ文字列として設定します。
SubSonic DAL用に2つのフォルダー(CustomとGenerated)を用意するのは良い形式なので、Customで次のようなStoredProcedures.cs部分クラスを作成しました。
ご覧のとおり、メソッドシグネチャにDataTableが含まれるようになり、SubSonicフレームワークを変更したことで、これが完全に機能するようになりました。
ラッパーを書き直さなくても済むように、SubSonicの人が自動生成を変更してsproc署名のTVPを認識することができるかどうか疑問に思っていますか?
SubSonic 3.xは構造化データ型をサポートしていますか?
また、多くの人がこのコードの使用に興味を持っていると確信しています。新しいコードはどこにアップロードできますか?
ありがとう。
python - 非構造化テキストから構造化データへ
Googleカレンダーのクイック追加ボタンと同様の方法で構造化されていないテキストを構造化することに関する参考文献(チュートリアル、本、学術文献)を探しています。
これが NLP のカテゴリに入る可能性があることは理解していますが、「リーバイス ジーンズ サイズ 32 A0b293」のようなものから移行するプロセスにのみ関心があります。
to: ブランド: リーバイス, サイズ: 32, カテゴリー: ジーンズ, コード: A0b293
字句解析と機械学習技術の組み合わせになると思います。
私はむしろ言語にとらわれませんが、押された場合は、python、Matlab、または C++ の参照を好むでしょう
ありがとう
python - Python で最もよくサポートされている構造化テキスト形式はどれですか?
この質問は主観的なものと思われるかもしれませんが、Python で最もよくサポートされている一般的な構造化テキスト データ形式を SO ユーザーに尋ねたいと思います。
私の最初の選択は次のとおりです。
- XML
- JSON
- および YAML
これら 3 つのうちどれが Python で最も簡単に操作できるか (つまり、最高のライブラリ サポート/パフォーマンスを備えているか) ... または、Python でより適切にサポートされている、私が言及していない別の形式があります。
相互運用性が非常に重要であるため、Python のみの形式 (Pickling など) は使用できませんが、これらのファイルを処理するコードの大部分は Python で記述されるため、Python で最も強力にサポートされている形式を使用したいと考えています。
CSV または固定列テキストもほとんどのユースケースで実行可能ですが、よりスケーラブルな形式の柔軟性が望ましいです。
ありがとうございました
ノート
相互運用性に関しては、最初は を使用して Ruby からこれらのファイルを生成しますが、Builder
Ruby がこれらのファイルを再度使用することはありません。
rebol - 構造化データを読み取るための LOAD/NEXT よりも細かい粒度はありますか?
次のような 100 万行の Rebol 形式のデータの長いファイルがあるとします。
...
囲んでいるブロックが存在しない場合はLOAD/NEXT
、従業員項目を一度に 1 つずつ読み取るために使用できます (ファイル全体を で構造化データに解析するのとは対照的ですLOAD
)。囲んでいるブロックがある場合、同様のことを行う方法はありますか?
以前にアクセスした項目に戻りたい場合はどうすればよいですか? 「構造的なシーク」はありますか?
この種の Rebol 構造化データに対する要求に使用できる実行可能なデータベース ソリューションはありますか?
search - google cse- rendering search results
I'm using Google CSE on my website and I want to have the search results display differently than the standard method. I've found this:
http://code.google.com/apis/customsearch/docs/snippets.html
I'm a little confused on the steps on how to style the results to my liking. I know that I have to create the structured data in my pages first (ie Pagemaps).
What does the second step mean though
"Fetch that structured data in the search results for your Custom Search Engine. The Custom Search server can return the search results, along with the structured data, in XML or JSON format. "
And for the third step, do I just copy the code provided in the Custom Search Element?
Thanks in advance
regex - 内部での DOM 解析、構造化ドキュメント トラバーサル
開発者として、ここにいるのは私だけではないと確信しています。私は常に、「ボンネットの下」にあるものを理解したいと思っています。DOM パーサーは、私にとってこの好奇心のリストのトップの 1 つです。私たちは皆、有名な投稿を知っています。私はちょっとした「O RLY?」を一緒にハックしたことさえあります。、一時的な必要性と好奇心の両方から。
しかし、カーテンの後ろにいる男に会いたいという私の必要性は満たされていないままです. DOM パーサー、または構造化されたドキュメント パーサーはどのようにドキュメントを解析するのでしょうか? 私の中級 Web アプリケーション開発者の理解が集まる限り、それは再帰的な文字列解析と状態保持ロジックの組み合わせであり、私自身のハック的な試みとは異なります。
魔術師は秘密を明かしてはならないが、まじめな話、彼はうさぎをどこに隠しているのだろう?