0

PHP で Microsoft onenote ドキュメントからテキストだけを抽出する方法はありますか? 正規表現を使用して 3 文字を超える単語に一致させようとしましたが、まだガベージ文字列 (つまり yaKmUrD) が取得されます。意味のあるテキストのみを抽出する方法はありますか?

ありがとう、クリス

編集:テキストの大部分を抽出する方法を見つけました。(正規表現を使用してすべての非ASCII文字を削除し、4文字未満の数字または単語を除外しました。完璧ではありませんが、キーワード文字列の作成には機能します。)これで、ファイル名列とテキスト列を持つテーブルができましたドキュメントのテキストが含まれています。テキスト列に保存する前に、データは重複がないかフィルタリングされ、「キーワード」はカンマで区切られています。私は現在、各ファイルのこれらのテキスト フィールドを比較し、% 一致を出力する簡単な方法を探しています。mysqlでこれを行う関数/方法はありますか、またはスクリプトを介してプログラムでこれを行う必要がありますか? 助けてくれてありがとう。

4

0 に答える 0