tensorflow - textsum の入力データをフォーマットする方法 data_convert_example

Question

ここで私が失敗している場所を誰かが見ることができることを望んでいました。だから私はバズフィードからいくつかのデータをこすり落としました.今、私はdata_convert_examples text_to_dataフォーマッタに送信できるテキストファイルをフォーマットしようとしています.

何度か答えが得られたと思ったのですが、これをバイナリとして処理してからデータに対してトレーニングしようとすると、まだレンガの壁にぶつかっています。

私がしたことは、おもちゃのデータセットで binary_to_text を実行し、Windows の下のメモ帳 ++ でファイルを開き、すべての文字を表示し、形式と思われるものと一致させました。

以下の長い機能についてはお詫びしますが、問題がどこにあるかについては本当に確信が持てず、これが十分な情報を提供する最良の方法であると考えました. 誰にもアイデアや推奨事項はありますか？

def processPath(self, toPath):
    try:
        fout = open(os.path.join(toPath, '{}-{}'.format(self.baseName, self.fileNdx)), 'a+')
        for path, dirs, files in os.walk(self.fromPath):
            for fn in files:
                fullpath = os.path.join(path, fn)
                    if os.path.isfile(fullpath):

                        #with open(fullpath, "rb") as f:
                        with codecs.open(fullpath, "rb", 'ascii', "ignore") as f:
                            try:
                                finalRes = ""
                                content = f.readlines()
                                self.populateVocab(content)

                                sentences = sent_tokenize((content[1]).encode('ascii', "ignore").strip('\n'))
                                for sent in sentences:
                                    textSumFmt = self.textsumFmt
                                    finalRes = textSumFmt["artPref"]  + textSumFmt["sentPref"] + sent.replace("=", "equals") + textSumFmt["sentPost"] + textSumFmt["postVal"]
                                finalRes += (('\t' + textSumFmt["absPref"] + textSumFmt["sentPref"] + (content[0]).strip('\n').replace("=", "equals") + textSumFmt["sentPost"] + textSumFmt["postVal"]) + '\t' +'publisher=BUZZ' + os.linesep)

                                if self.lineNdx != 0 and self.lineNdx % self.lines == 0:
                                    fout.close()
                                    self.fileNdx+=1
                                    fout = open(os.path.join(toPath, '{}-{}'.format(self.baseName, self.fileNdx)), 'a+')

                                fout.write( ("{}").format( finalRes.encode('utf-8', "ignore") ) )
                                self.lineNdx+=1
                            except RuntimeError as e:
                                print "Runtime Error: {0} : {1}".format(e.errno, e.strerror)
        finally:
            fout.close()

score 0 · Accepted Answer

さらに分析した結果、問題の原因は、data_convert_example.py 自体ではなく、ソースデータとその作成方法にあるようです。見出しが問題の原因と一致していないため、これを閉じます。

問題の原因は、「Article」と等号の間にスペースがあることでした。それを取り除いた後、私はうまく訓練することができました。

tensorflow - textsum の入力データをフォーマットする方法 data_convert_example

1 に答える 1

Related

Reference