1

スキャンした文書の複数の画像/ページを含む PDF 文書があります。それらの (OCR で生成された) テキスト コンテンツは、個別の XML ファイルで提供されます。

XML のテキスト コンテンツを何らかの形で PDF ファイルに使用/リンクすることはできますか? (理想的には、知らないユーザーを混乱させる追加のファイルがリポジトリに残らないようにすることです。)

テキスト プロパティには 65k の制限があると言われているため、テキスト コンテンツを のプロパティに単純に入れることはできません。PDF がその制限を簡単に超える可能性があるためです。

テキスト コンテンツを含むストリームを PDF ファイルの cm:content プロパティに渡すよう提案されました。IMOは、参照を提供しているか、巨大な文字列を再度割り当てていることを意味するため、ここでちょっと迷っています。1 つ目は、テキスト コンテンツを別のドキュメントとしてどこかに保存する必要があることを意味します。後で、65k の制限に再び達するように思えます。
また、cm:content を設定すると、おそらく PDF コンテンツ自体が削除されると思います。PDF バイナリ データをそのままにしておく必要があります。

これは、提案が議論されている場所です。私は現在とにかくそれを試みています。

4

2 に答える 2

1

そうです、実際には非常に簡単です... 行う必要があるのは、ドキュメントで「d:content」タイプのプロパティを定義することです。私はアスペクトを介してそれを行います...

モデル.xml:

<aspects>
    <aspect name="mm:my_aspect">
...
            <property name="mm:myTextContentProperty">
                <type>d:content</type>
            </property>
        </properties>
    </aspect>
</aspects>

次に、リポジトリに PDF とそのテキスト表現の両方がある場合、アスペクトを追加してプロパティを設定することで、これら 2 つをリンクします...

getNodeService().addAspect(pdfNodeRef, myAspect, null);
getNodeService().setProperty(pdfNodeRef, MyModel.MY_TEXT_CONTENT_PROPERTY, new ContentData("store://....bin", "text/plain", size, "UTF-8"));

テキストデータが含まれていなくても、次の両方のクエリでPDFを見つけることができます...

"@\\{http\\://mymodel.ns/content/1.0\\}myTextContentProperty:\"" + string + "\""
"TEXT:\"" + string + "\""

後者もここで示唆されており、通常の検索入力を使用して PDF にアクセスできるようになったため、Alfresco Web Client での通常の検索はこのように機能すると思います。
ただし、問題が 1 つあります。検索すると、PDF ドキュメントと、プロパティを使用してリンクしたドキュメントが表示されます。だから今、私は検索結果から後者を隠す必要があります...

(最初のクエリを使用して検索すると、予想どおり PDF のみが見つかりますが、そのアプローチはほとんど役に立ちません。)

うまくいけば、他のAlfresco初心者の時間を節約できます. :)

于 2010-10-13T17:24:12.280 に答える
0

私が必要とするものを達成する別の方法は、 contentService を使用して MY_TEXT_CONTENT_PROPERTY を設定することです...

ContentWriter writer = getContentService().getWriter(pdfNodeRef, MyModel.MY_TEXT_CONTENT_PROPERTY, true);
writer.setMimetype("text/plain");
writer.setEncoding("UTF-8");
writer.putContent(stringFromXmlDescription); // the source XML gets thrown away

(重要なことは、MIME タイプとエンコーディングが設定された後にコンテンツを配置することです。そうしないと、コンテンツ/プロパティは検索できません。)

このアプローチでは、リンクされたテキスト ドキュメントを非表示にする必要はありません。

于 2010-10-20T14:04:22.593 に答える