python - データ型を検出し、pptx スライドからデータを読み取る方法

Question

pptx ファイルを読み取る必要があります。編集中に、スライドから一部のデータを抽出しますが、すべてのデータを抽出するわけではありません。スライドのサンプルを見つけます。{1,2,3} オプションデータを除くすべてのデータを読み取ることができます。私も読みたいです

ここにコードがあります。

from pptx import Presentation

prs = Presentation(path_to_presentation)

# text_runs will be populated with a list of strings,
# one for each text run in presentation
text_runs = []

for slide in prs.slides:
   for shape in slide.shapes:
     if not shape.has_text_frame:
        continue
   for paragraph in shape.text_frame.paragraphs:
       for run in paragraph.runs:
           text_runs.append(run.text)

score 0 · Accepted Answer

スライド上のすべての項目は、何らかの形をしています。唯一の例外は背景画像です。

ただし、スライドレイアウトから「継承」される形状のビジネスがあります。スライドレイアウト内のアイテム (ロゴなど) は、PowerPoint によってレンダリングされたようにスライドに視覚的に表示されますが、スライドの XML には含まれず、slide.shapes には表示されません。

もう 1 つ注意すべき点は、PowerPoint では、書式がまったく同じ場合でも、さまざまな理由でテキストの実行が分割されることです。論理的に単一の実行を 1 つにまとめることはできません。そのため、探しているデータの形式によっては、paragraph.text に直接アクセスして、そこから解析したい場合があります。

もちろん、シェイプがイメージ (たとえば、1. または 2.) の場合、テキストとして視覚的に表示されますが、テキストフレームやテキストはありません。

python - データ型を検出し、pptx スライドからデータを読み取る方法

1 に答える 1

Related

Reference