問題タブ [extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
7 に答える
3866 参照

php - プログラムでドメイン名からキーワードを抽出

分析したいドメイン名のリストがあるとします。ドメイン名がハイフンでつながれていない限り、ドメインで使用されているキーワードを「抽出」する特に簡単な方法はないと思います。それでも、DomainTools.com、Estibot.com などのサイトで行われているのを目にします。例:

これを効率的かつ効果的に達成するための提案はありますか?

編集:これをPHPで書きたいと思います。

0 投票する
2 に答える
375 参照

entity-framework - EF を使用して、データベースの要素を一連のクエリ可能なクラスとして取得することは可能ですか?

開発者とエンド ユーザーの両方が、SQL コードをまったく記述せずに (実行時に選択された) リレーショナル DB からデータを取得できるアプリケーションを作成しようとしています (データベースと対話するときに文字列を連結しないことが望ましい)。このアプリケーションの目的は、式ツリー ビルダーへの GUI と、それによって生成されたツリーの XML シリアル化の 2 つです。

物事をうまく進める方法について、いくつかのガイダンスやヒントをお願いしたいと思います。他の誰かにこれを書いてもらいたくない - これは私のプロジェクトであり、コードを書くのは私です。

だから私の質問は:

  1. 実行時に接続文字列のみを使用するだけで、オブジェクト モデルを作成し、DB の要素をセットでアドレス指定できますか? たとえば、すべてのテーブル、ビュー、関数、および sproc のリストなどです。

  2. 式ツリーを構築できるように、前述のリストの要素を拡張メソッドで使用できますか?

  3. CSDL、SSDL、および MDL ファイルのみを含む (Entity クラスを含まない) データベースからこれらのリストを取得するために、Metadata Workspace クラスと ItemCollections を使用できますか?

  4. 式ツリーの結果をシリアル化するために LINQ to XML を使用できますか? それとも、Entity Framework に固有の他のシリアル化テクノロジを使用する必要がありますか? (ここに示す例のように: http://msdn.microsoft.com/en-us/library/bb738528.aspx )

PS: これまでの私の調査からのいくつかのメモは次のとおりです。 1. たとえば、DataContext.GetTable() メソッド (はい、ジェネリックではなく、弱く型付けされたもの) は、DataContext が接続文字列のみを受け取った場合、データを取得しませんでした。

  1. スキーマ アーティファクトを生成するために EdmGen ツールを呼び出しています。これまでのところ、それらの属性を読みましたが、ラムダ式で使用できる要素のある種のリストを取得しようとしています (テーブルなど)。 ?

  2. 私の理解が正しければ、Entity Framework では、Metadata Workspace や ItemCollections などのクラスを EdmGen ツールと共に使用して、概念スキーマをアプリケーションのオブジェクト モデルとして表すために必要なオブジェクトのセットを作成できます。

ここと MSDN の他の関連トピックに沿って Entity Framework プログラミング ガイドを参照しましたが、これまでのところ、このシナリオに関連する情報は見つかりませんでした。昨日、「Programming Entity Framework」という本を手に入れました。答えのいくつかがそこにあることを願っています。手がかりが見つかったら、この質問を更新します。

そのため、混乱しており、まだ検索中ですが、この件について何か助けていただければ幸いです。

敬具、 ボリスラフ

0 投票する
2 に答える
338 参照

php - Simplehtmldom - カール、ループ、配列?

Pseは、おそらくばかげた質問であることを許してください。simplehtmldom の例に従って、1 つの Web ページから必要なデータを取得することに成功しました。

ディレクトリ内のすべての html ページを調べてデータを抽出する機能を設定できるようにしたいと考えています。私はグーグルでグーグル検索しましたが、無知な状態で(何らかの方法で)PHPを使用してディレクトリ内のファイル名の配列を形成できると思っていたので混乱していますが、これに苦労しています。

また、私が見た多くの例はカールを使用しているようです。誰かがそれをどのように行うべきか教えてください。かなりの数のファイルがあります。それらを連結しようとしましたが、これはhtmlエディターを介してこれを行う場合にのみ機能します- cat -> の使用は機能しません。

0 投票する
5 に答える
1295 参照

extraction - ZFO から添付ファイルを抽出する方法は?

.zfo ファイル (602 フォーム フィラー) から添付ファイルを抽出する方法を知っている人はいますか。openXML に基づくフォーマットです。

ありがとうございました

0 投票する
4 に答える
2256 参照

jquery - alt 属性からキャプションを抽出して div に挿入する

現在、かなり素敵な jQuery スライドビューアー 1.1 プラグインをサイトで使用していますが、表示された画像から alt 属性を抽出し、適切なタイミングで div に挿入したいと考えています。

プラグインの現在のコードを参照用に以下に示します。

0 投票する
2 に答える
577 参照

perl - Perl の CAM::PDF を使用して PDF ドキュメントの最初の段落を抽出するにはどうすればよいですか?

Perl のCAM::PDFを使用して PDF ドキュメントの最初の段落を抽出するにはどうすればよいですか?

0 投票する
5 に答える
4068 参照

c++ - 効率的な TIFF タイル抽出 C++

約 20000 x 20000 ピクセルの 1 GB の大きな tiff 画像を扱っています。ランダムな位置で、画像からいくつかのタイル (約 300x300 ピクセル) を抽出する必要があります。

私は次の解決策を試しました:

  • Libtiff (私が見つけた唯一の低レベル ライブラリ) は TIFFReadline() を提供しますが、これは約 19700 の不要なピクセルを読み取ることを意味します。

  • 不要なピクセルを読み取らずに画像からタイルを抽出する独自の tiff リーダーを実装しました。もっと速いと思っていましたが、タイルのすべての行に対してシークを実行すると、非常に遅くなります。また、タイルを含むファイルのすべての行をバッファーに読み取ってから、バッファーからタイルを抽出しようとしましたが、結果はほぼ同じです。

タイル抽出ツールを改善するための提案を受け取りたいです!

すべてを歓迎します。私が使用できるより効率的なライブラリ、C/C++ I/O に関するヒント、私のニーズに対するより高いレベルの戦略などを提案していただけないでしょうか。

よろしく、フアン

0 投票する
1 に答える
122 参照

extraction - Web からの事実抽出に関する Microsoft の調査?

少し前に、Web からの、より具体的には Wikipedia からの事実の抽出に関する Microsoft の研究の結果と思われる Web サイトを偶然見つけました。今、私はそれがどのように機能するかをもっとよく調べたいと思っていますが、問題はそれを見つけることができないということです.誰かが私が話していることを知っていて、道順やリンクを教えてくれるでしょうか?

ありがとうございました!

0 投票する
2 に答える
8944 参照

python - 大きなファイルを処理するのに最適な Python Zip モジュールは何ですか?

編集:特に圧縮と抽出の速度。

助言がありますか?

ありがとう

0 投票する
12 に答える
26595 参照

pdf - 研究論文の PDF からの情報の抽出

PDF ドキュメントから書誌メタデータを抽出し、手動で入力したり、カット アンド ペーストしたりする手間を省くためのメカニズムが必要です。

せめてタイトルとアブストラクト。著者とその所属のリストは良いでしょう。参照を抽出することは驚くべきことです。

理想的には、これはオープン ソース ソリューションです。

問題は、すべての PDF がテキストをエンコードするわけではなく、多くの PDF がテキストの論理的な順序を保持できないことです。そのため、pdf2text を実行するだけで、列 1 の行 1、列 2 の行 1、列 1 の行 2 などが得られます。

たくさんのライブラリがあることを知っています。私が解決する必要があるのは、ドキュメントの要約、タイトルの作成者などを特定することです。毎回これが可能になるわけではありませんが、80% あれば多くの人的労力を節約できます。