0

私は、4 文字以上のすべての単語を取得し、その単語が使用された回数と共にそれらをデータベースに格納するインデクサーを作成するという課題に直面しました。

このインデクサーを 4,000 個の txt ファイルで実行する必要があります。現在、約 12 ~ 15 分かかります。スピードアップするための提案があれば教えてください。

現在、次のように単語を配列に配置しています。

// ==============================================================
// === Create an index of all the words in the document
// ==============================================================
function index(){
    $this->index = Array();
    $this->index_frequency = Array();

    $this->original_file = str_replace("\r", " ", $this->original_file);
    $this->index = explode(" ", $this->original_file);

    // Build new frequency array
    foreach($this->index as $key=>$value){
        // remove everything except letters
        $value = clean_string($value);

        if($value == '' || strlen($value) < MIN_CHARS){
            continue;
        }

        if(array_key_exists($value, $this->index_frequency)){
            $this->index_frequency[$value] = $this->index_frequency[$value] + 1;
        } else{
            $this->index_frequency[$value] = 1;
        }
    }
    return $this->index_frequency;
}

現時点での最大のボトルネックは、単語をデータベースに保存するためのスクリプトだと思います。ドキュメントをエッセイ テーブルに追加する必要があります。次に、テーブルに単語が存在する場合は、単語が存在しない場合はフィールドにエッセイ ID (単語の頻度) を追加するだけで、それを追加する必要があります...

// ==============================================================
// === Store the word frequencies in the db
// ==============================================================
private function store(){
    $index = $this->index();

    mysql_query("INSERT INTO essays (checksum, title, total_words) VALUES ('{$this->checksum}', '{$this->original_filename}', '{$this->get_total_words()}')") or die(mysql_error());

    $essay_id = mysql_insert_id();

    foreach($this->index_frequency as $key=>$value){

        $check_word = mysql_result(mysql_query("SELECT COUNT(word) FROM `index` WHERE word = '$key' LIMIT 1"), 0);

        $eid_frequency = $essay_id . "(" . $value . ")";

        if($check_word == 0){
            $save = mysql_query("INSERT INTO `index` (word, essays) VALUES ('$key', '$eid_frequency')");
        } else {
            $eid_frequency = "," . $eid_frequency;
            $save = mysql_query("UPDATE `index` SET essays = CONCAT(essays, '$eid_frequency') WHERE word = '$key' LIMIT 1");
        }
    }
}
4

1 に答える 1

1

アプリのプロファイリングを行って、ボトルネックがどこにあるかを正確に把握することを検討してください。これにより、何を改善できるかをよりよく理解できるようになります。

DB の最適化について: 列にインデックスがあるかどうかを確認してwordから、DB にアクセスする回数を減らしてみてください。INSERT ... ON DUPLICATE KEY UPDATE ...、 多分?

于 2009-09-03T09:09:02.260 に答える