問題タブ [extraction]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
ruby-on-rails - Railsでのtgzアーカイブの作成と抽出
Railsを使用してフォルダとそれに含まれるファイルをtgzアーカイブとしてアーカイブする方法を知っている人はいますか?私がやりたいのは、フォルダーの内容をアーカイブしてから、アーカイブされたのと同じフォルダーを抽出する別のスクリプトを作成することです。
私が遭遇したアーカイブ手法はすべてかなり複雑です。私が探しているものに対する簡単な解決策があるかどうか疑問に思いました。
python - <および>の内部からテキストの文字列を抽出するための正規表現(Python)-例:等
私は現在、Stack Overflowデータダンプで遊んでおり、文字の内部からタグ名を抽出するための単純な正規表現を構築しようとしています(私が想像していることです<
)>
。したがって、質問ごとに、のような1つ以上のタグ<tagone><tag-two>...<tag-n>
のリストがあり、タグ名のリストだけを抽出しようとしています。データダンプから取得したタグ文字列の例を次に示します。
参考までに、タグ名を単語に分割する必要はないので、たとえば、 (とではなく)<best-practices>
戻りたいと思います。また、その価値については、違いがあればPythonを使用しています。助言がありますか?best-practices
best
practices
web-services - 世界の行政区域に関するリレーショナル データをどこで取得/抽出しますか?
サービスで動作する Web アプリケーションに取り組んでいます。通常、すべてのサービスは、都市、郡、地域、州、国、または世界など、いくつかの (場合によっては複数の別個の) 地理的ドメインで提供されます。
典型的なタスク:
- ユーザーは位置情報を lng,lat として送信します。ユーザーが利用できるサービスを見つける必要があります。
- ユーザーが新しいサービスを追加するとき、サービス エリアをカバーする最小の地理的ドメインを選択できる必要があります。たとえば、US->California->SFBayArea です。
地理ドメインの階層関係を表すのに最適な db スキーマと、地理ドメインの実際のデータをどこで取得するのだろうか?
かなり複雑に見え、かなりの時間がかかりますが、私はopenstreetmapから始めました。だから私はコミュニティの知恵を訴えることにしました:)
あなたの知恵を共有してくれてありがとう!良い1日を!
--UPDATES: 更新された典型的なタスク
compression - ディレクトリのファイルのみをタール化する
たくさんの画像を含むフォルダがある場合、画像のディレクトリにCDを挿入せずに、画像のみをtarし、画像につながるフォルダ構造をタール化しないようにするにはどうすればよいですか?
tar czf images.tgz / path / to / images / *
これで、images.tgzが抽出されると、抽出されるコンテンツは/ path / to / images/..になります。
画像のみをtgzファイルに含めることができます(画像につながる3つのフォルダーは含まれません)。
html - HTML データ抽出
Web サイトにアクセスしていて、データを抽出する必要があります。より具体的には、この部分から:
「名前」の部分を抽出する必要があります。正規表現は最善の解決策ではないと聞いたので、この必要なデータにアクセスするための最良の方法は何かお尋ねしたいと思います。
parsing - 文/クエリから場所を抽出する方法は何ですか?
文章に組み込まれている場所を認識して抽出したい。たとえば、私は文を持っているかもしれません:
「マサチューセッツ州ボストンのピザが大好きです。」しかし、この同じ文は「ボストンのピザ、大好きです」と書くこともできます。または「ボストンのピザが大好きです。」
そのため、文のどこにいても、州が含まれていない場合でも、それを見つけることができなければなりません。物事をさらに複雑にするために、人々は ft. や s. のようなことをします。フォートまたはサウスの場合は、これらも認識する方法が必要です。
python - Linux、Nativly (Python、C、Java) でオフィスに埋め込まれた OLE ファイルを抽出する方法は?
Word文書内にOLEとして埋め込まれたExcel文書を抽出しようとしていますが、うまくいきません。
サーバー側のスクリプトに入れる必要があるので、コンソールまたはスクリプトが必要です。そして、Open Office の自動化は非常にリソースを消費します..
これを行うためのツールやライブラリはありますか? 助けてください..
android - SD カードへの Zip の展開は非常に遅いです。どうすればパフォーマンスを最適化できますか?
私のアプリは、約 350 個のファイルを含む zip をダウンロードします。JPG ファイルと HTML ファイルの混合。私が書いた関数は問題なく動作しますが、解凍には時間がかかります。最初は、SD カードへの書き込みが遅いことが原因ではないかと考えていました。しかし、携帯電話の他のアプリで同じ zip を解凍すると、はるかに高速に動作します。それを最適化するために私ができることはありますか?
コードは次のとおりです。
CommonsWare のおかげで、コードを次のように変更しました。
大きな性能差。どうもありがとう。
pdf - ハイパーリンクの場所でのPDFテキストの抽出
ハイパーリンクが(同じPDFドキュメント内で)移動するPDFドキュメント内のポイントでテキスト抽出を開始できるある種の(無料の)SDKを知っている人はいますか?リンクは、特定のページの特定のポイントに移動することになります。
より具体的には、テストに対する質問と回答(および各質問/回答の関連するメモ)を保持するPDFドキュメントを解析し、必要な関連部分のみをテキストファイルにエクスポートできるプログラムが必要です。
基本的に、PDFドキュメントには、ドキュメントの先頭に向かってテスト用の質問があり、各質問内には、PDFドキュメントの別の部分にある回答と関連するメモへのハイパーリンクがあります。
PS-次の言語のいずれかを使用:C ++、Java、VB.net、C#.net、javascriptPPS-フリーソフトウェアのみ
python - ZIPファイル抽出Pythonを監視する
.ZIPアーカイブを解凍する必要があります。私はすでにそれを解凍する方法を知っていますが、それは巨大なファイルであり、抽出するのに少し時間がかかります。抽出の完了率を印刷するにはどうすればよいですか?私はこのようなものが欲しいです: