私はこのフォーラムとオレンジを初めて使用します。現時点では Python はあまり使用していませんが、学ぶ準備はできています。ただし、この環境で先に進む前に、自分のニーズに応えられるかどうかを知りたいです。
私が基本的に行っているのは、PDF 製品カタログを別のソフトウェアで使用できる Excel ファイルに "変換" して、別のソフトウェア用のデータベースを作成することです。
このタイプの xls テーブルに変換します: http://imgur.com/BtLBkOS
基本的に、商品番号、色、サイズ (例: 20x20) を取得するために必要です。G/Bパーツは完成後手作業で仕上げます。
すべてのカタログは同じではないので、pdftotext、RegEx with Notepad++ を使用していくつかを整理しましたが、このデータ マイニング ソリューションがうまくいくかどうか知りたいですか?