0

私はpdftotextの助けを借りてpdfファイルからテキストを生成しています
私の問題はpdftotextではなく、それに応じてテキストをフォーマットすることです

Salman              Madhuri             Mohnish             Renuka                Anupam
Khan                Dixit               Behl                Shahane               Kher
Prem                Nisha Chou...       Rajesh              Pooja Chou...         Prof. Siddh


Hum Aapke Hain Koun...! (1994) - Full cast and crew
www.imdb.com/title/tt0110076/fullcredits
Hum Aapke Hain Koun...! on IMDb: Movies, TV, Celebs, and more... ... IMDbPro.com
offers representation listings for over 120,000 individuals, including actors, ...

私は次のように出力する必要があります

Salman Khan Prem
Madhuri Dixit Nisha Chou...
Mohnish Behl Rajesh
Renuka Shahane Pooja Chou...
Anupam Kher Prof.

Hum Aapke Hain Koun...! (1994) - Full cast and crew
www.imdb.com/title/tt0110076/fullcredits
Hum Aapke Hain Koun...! on IMDb: Movies, TV, Celebs, and more... ... IMDbPro.com
offers representation listings for over 120,000 individuals, including actors, ...
4

1 に答える 1

2

区切り文字が何であるかはわかりませんが、次のようにすることができます(ちょっと醜いですが、それで仕事は終わります):

$namesAndContent = explode("\r\n\r\n", $theString);
$nameRows = explode("\r\n", $namesAndContent[0]);
$names = array();
foreach ($nameRows as $row) {
    $items = preg_split('/\s{2,}/', $row);
    foreach ($items as $index => $namePart) {
        if (!array_key_exists($index, $names)) {
            $names[$index] = array();
        }
        $names[$index][] = $namePart;
    }

}

foreach ($names as $name) {
    echo implode(' ', $name) . "\r\n";
}
echo "\r\n";
echo $namesAndContent[1];

デモ:http ://codepad.viper-7.com/Nr1Q4t

上記はデータをフォーマットします(区切り文字が正しい場合)が、データがどこから来ているのか(元々はpdfではなく)疑問に思っています。問題を解決するためのより良い方法があると思うからです。おそらく、直接利用できるAPIがいくつかあります

于 2012-12-19T11:08:52.793 に答える