問題タブ [python-docx]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - リッチ テキストを抽出できません ---DOC、DOCX
問題:
- https://github.com/mikemaccana/python-docxはプレーンテキストのみを抽出します
私は欲しい:
- doc/docx ファイルからリッチ テキストを抽出するための Python モジュール。
何か案は?
python - MacOSXにPythondocxモジュールをインストールする方法
.docx
Pythonを使用してファイルを生成しようとしています。私はここでウェブと投稿を検索し、モジュールを見つけました:
https://github.com/mikemaccana/python-docx/blob/master/README.markdown
easy_install
またはを使用してインストールするpip
ように指示されていますが、方法がわかりません。私はPythonのWebサイトにアクセスして、Pythonのドキュメントに記載されている手順からpipをインストールしました。
http://guide.python-distribute.org/installation.html
だから私はダウンロードして指示に従いました:
しかし、python setup.py installを実行すると、エラーメッセージが表示されます。
誰かが私がnewbのためにステップバイステップでインストールするのを手伝ってくれますか?よろしくお願いします!
python - Python - TypeError: 'dict' オブジェクトは呼び出し可能ではありません
Python ライブラリ docx を使用しています: http://github.com/mikemaccana/python-docx
私の目標は、ファイルを開き、特定の単語を置き換えてから、ファイルを置き換えて書き込むことです。
私の現在のコード:
` ただし、次のエラーが表示されます:
なぜこれが起こっているのかわかりませんが、docx モジュールと関係があると思います。なぜこれが起こっているのか誰でも説明できますか?
ありがとう
python - Python で docx からテキストを取得する
Pythonでdocxファイルからテキストを取得するにはどうすればよいですか? できれば、これはそれを単純な文字列にインポートします。明らかに、元のファイルのフォーマットは無視できます。
docx ファイル (テキストが として保存されるフォルダー) の構造は理解していますがdocument.xml
、そのフォルダーを手動で開いたり、ファイルを抽出したり、段落タグを抽出したりすることなく、テキストを抽出する簡単な方法が欲しいです。
Python Docxを試しました (この古いスタックオーバーフローの質問に従って) が、毎回エラーが発生します:
python - python-docxを使用してテーブルの内容とスタイルをどのように変更しますか?
python-docxを見つけました。非常にスマートに見えますが、十分に文書化されていないいくつかのタスクを実行する必要があります。
以前に作成したリストに存在するすべてのインスタンスの広告を含むテーブルを含む.docxテンプレートを開く必要があります。テンプレート内のテーブルで、それらをフォーマットする必要があります。
python - Python-Docx を使用したフォント属性の設定
Python-docxモジュールを使用してプログラムで単語文書を作成しています。
ヘッダーを中央に配置したり、作成した表で特定の単語を太字にしたり、その他の基本的なマークアップを実行したりしたいと考えています。
残念ながら、モジュール内のソース コードを読んでも、これを行う上であまり手がかりが得られません。
docx コードが基づいている lxml/etree モジュールと関係があると推測していますが、そのライブラリにはあまり詳しくありません。何か案は?
python - Python Docx キャリッジ リターン
Python Docx
は、すべての COM を直接処理しないもののために Microsoft Word ドキュメントを生成するための非常に優れたライブラリです。それにもかかわらず、私はいくつかの制限に直面しています。
- テキストの文字列に改行を入れる方法を知っている人はいますか?
段落間に余分なスペースを入れずに複数の行を含める必要があります。ただし、通常の行を区切る文字列を書き出すと機能し\n
ません。

またはも使用していません
。他の考えはありますか、それともこのフレームワークはそのようなものにはあまりにも限られていますか?
python - python-docxを使用してテーブル内の複数の列にまたがるセル
python-docxモジュールを使用して、このようなテーブルを作成しようとしています。
example-makedocument.py のテーブルを作成するためのサンプル コードから作業し、docx.py のコードを読んで、これに似たものが機能すると思いました。
ただし、これにより docx ドキュメントが破損し、Word がドキュメントを回復すると、表は次のように表示されます。
python-docx を使用して行が複数の列に適切にまたがるようにするにはどうすればよいですか?
python - python-docx を使用して検索と置換を行った後、フォーマットと画像が失われる
専門家、
テンプレートの docx レポートがあり、その中に画像と標準の書式が含まれています。私がdocxを使用して行ったことは、いくつかのタグを検索し、構成ファイルの値を使用して置き換えることでした.
検索と置換は期待どおりに機能しましたが、出力ファイルのすべての画像と書式が失われました。何がうまくいかなかったのか知っていますか?私がしたことは、example-makedocument.py を変更し、それを置き換えて docx ファイルで使用することだけでした。
python.docx librelist のディスカッションと github のページを検索しましたが、このような質問がたくさんありましたが、未回答のままでした。
ありがとうございました。
--- 私のスクリプトはこのような単純なものです ---
python - python-docx - フォントやその他の属性を制御する方法
python-docx を使用して .docx ファイルを生成しています。ドキュメントの本文に追加する段落 (および可能であれば、個々の単語) のスタイルを制御できるようにしたいと考えています。
段落を生成するビジネス エンドは次のようになります。
body.append(paragraph("これは新しい段落です"))
さて、私は XML の複雑さに精通していません。正直に言うと、lxml を使用して XML を解析および操作するのに十分なほど XML を学習することは、私が考えていることに対してやり過ぎです。たとえば、上記の段落のフォントをデフォルトから Courier New に変更する簡単な例を誰か提供できますか?
ここにはいくつかの同様の (ただし回答されていない) 質問があります。