4

私は現在、Whatsapp でのグループ チャットの使用状況を分析する小さなツールに取り組んでいます。

私はwhatsappログ​​ファイルでそれを実現しようとしています. .txtフォーマットされたテキストを操作するために、生を次のフォーマットにフォーマットすることができました。

29. Jan. 12:01 - Random Name: message text
29. Jan. 12:22 - Random Name: message text
29. Jan. 12:24 - Random Name: message text
29. Jan. 12:38 - Random Name: message text
29. Jan. 12:52 - Random Name: message text

ここまでは順調ですね。問題は、次のようなフロッピー行がいくつかあることです。

29. Jan. 08:42 - Random Name2: message text 1
                 additional text of the message 1
29. Jan. 08:43 - Random Name2: message text 2

さらに悪いことに:

15. Jan. 14:00 - Random Name: First part of the message
                 second part
                 third part
                 forth part
                 fifth part    
29. Jan. 08:43 - Random Name2: message text 2

この問題を解決するにはある種のアルゴリズムが必要だと思いますが、私はプログラミングが初めてで、そのような複雑なアルゴリズムを作成することはできません。

Python での同じ問題: whatsApp 会話ログを解析する

[編集]

これは動作しない私のコードです。(かなり悪いのは承知しています)

import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.FileWriter;
import java.io.IOException;

public class FormatList {

    public static void main(String[] args) throws IOException {
        // TODO Auto-generated method stub
        FileReader fr = new FileReader("Whatsapp_formated.txt");
        BufferedReader br = new BufferedReader(fr);

        FileWriter fw = new FileWriter("Whatsapp_formated2.txt");
        BufferedWriter ausgabe = new BufferedWriter(fw);

        String line="";
        String buffer="";

        while((line = br.readLine())!=null)
        {
            System.out.println("\n"+line);

            if(line.isEmpty())
            {

            }
            else{
                if(line.charAt(0)=='0'||line.charAt(0)=='1'||line.charAt(0)=='2'||line.charAt(0)=='3'||line.charAt(0)=='4'||line.charAt(0)=='5'||line.charAt(0)=='6'||line.charAt(0)=='7'||line.charAt(0)=='8'||line.charAt(0)=='9')
                {
                    buffer = line;

                }
                else
                {
                    buffer += line;
                }

                 ausgabe.write(buffer);
                 ausgabe.newLine();
                System.out.println(buffer);
            }

            ausgabe.close();

        }




    }

}

[編集2]

最後に、ファイルを読み込んで各行を分析したい:

29. Jan. 12:01 - Random Name: message text

いつ、誰が、何を、どれだけ書いたかがわかります。

次の行を取得した場合:

additional text of the message 1

いつ書かれたのか、誰が送ったのかわかりません

4

2 に答える 2

2

さて、私が理解したことによると、私はあなたの問題の解決策を思いついたと思います。

この形式のファイルが与えられた場合:

29. Jan. 12:01 - Random Name: message text
29. Jan. 12:22 - Random Name: message text
29. Jan. 12:24 - Random Name: message text
29. Jan. 12:38 - Random Name: message text
29. Jan. 12:52 - Random Name: message text
29. Jan. 08:42 - Random Name2: message text 1
                 additional text of the message 1
29. Jan. 08:43 - Random Name2: message text 2
15. Jan. 14:00 - Random Name: First part of the message
                 second part
                 third part
                 forth part
                 fifth part    
29. Jan. 08:43 - Random Name2: message text 2

(これは、私の「data」フォルダにある「wsp.log」というファイルです。アクセスするためのパスは「data/wsp.log」です)

私は次のようなものを期待しています:

29. Jan. 12:01 - Random Name: message text
29. Jan. 12:22 - Random Name: message text
29. Jan. 12:24 - Random Name: message text
29. Jan. 12:38 - Random Name: message text
29. Jan. 12:52 - Random Name: message text
29. Jan. 08:42 - Random Name2: message text 1 additional text of the message 1
29. Jan. 08:43 - Random Name2: message text 2
15. Jan. 14:00 - Random Name: First part of the message second part third part forth part fifth part
29. Jan. 08:43 - Random Name2: message text 2

それによると、次のクラスを実装しました。

public class LogReader {

    public void processWspLogFile() throws IOException {
        //a. I would reference to my file
        File wspLogFile = new File("data/wsp.log");
        //b. I would use the mechanism to read the file using BufferedReader
        BufferedReader bufferedReader = new BufferedReader(new FileReader(wspLogFile));

        String currLine = null;//This is the current line (like my cursor)

        //This will hold the data of the file in String format
        StringBuilder stringFormatter = new StringBuilder();
        boolean firstIterationDone = false;//The first line will always contains the format, so I will always append it, from the second I will start making the checkings...

        // Now I can use some regex (I'm not really good at this stuff, I just used a Web Page: http://txt2re.com/)
        /* This regex will match the lines that contains the date in this format "29. Jan. 12:22", when I take a look at your file
          I can see that the "additional text of the message" does not contains any date, so I can use that as my point of separation*/
        String regex = "(\\d)(\\d)(\\.)(\\s+)([a-z])([a-z])([a-z])(\\.)(\\s+)(\\d)(\\d)(:)(\\d)(\\d)";
        //As part of using regex, I would like to create a Pattern to make the lines on the list match this expression      
        Pattern wspLogDatePattern = Pattern.compile(regex, Pattern.CASE_INSENSITIVE | Pattern.DOTALL);

        //Use of the line separator of the O.S
        String lineSeparator = System.getProperty("line.separator");

        while ((currLine = bufferedReader.readLine()) != null) {

            if (!firstIterationDone) {
                stringFormatter.append(currLine);
                firstIterationDone = true;
            } else {
                Matcher wspLogDateMatcher = wspLogDatePattern.matcher(currLine);    

                //The first time we will check if the second line has the pattern, if it does, we append a line separator
                if (wspLogDateMatcher.find()) {
                    //It is a "normal" line
                    stringFormatter.append(lineSeparator).append(currLine);             
                } else {
                    //But if it doesn't, we append it on the same line
                    stringFormatter.append(" ").append(currLine.trim());
                }
            }
        }
        System.out.println(stringFormatter.toString());
    }
}

私はこのように呼び出します:

public static void main(String[] args) throws IOException {
    new LogReader().processWspLogFile();
}

これがあなたに何らかのアイデアを与えるか、あなたの目的に役立つことを願っています. コードには常にリファクタリングが必要です:)が、今では期待されるフォーマットを実現できます。幸せなコーディング:)。

于 2015-06-26T16:05:39.113 に答える
0

このコードを試してください。そして、それが意図したとおりに動作するかどうかを確認してください。

import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.FileReader;
import java.io.FileWriter;
import java.io.IOException;

public class WhatsappFormatted {

    public static void main(String[] args) throws IOException {
        // TODO Auto-generated method stub
        char preString = '-';
        char searchString = ':';
        FileReader fr = new FileReader("Whatsapp_formated.txt");
        BufferedReader br = new BufferedReader(fr);

        FileWriter fw = new FileWriter("Whatsapp_formated2.txt");
        BufferedWriter ausgabe = new BufferedWriter(fw);

        String line = "";
        String buffer = "";
        String lastMember = null;
        while ((line = br.readLine()) != null) {
            System.out.println("\n" + line);

            if (!line.isEmpty())

                if (Character.isDigit(line.charAt(0)) && Character.isDigit(line.charAt(1))) {
                    lastMember = line.substring(0, line.indexOf(searchString, line.indexOf(preString)) + 1);
                    buffer = line.trim();
                } else {
                    buffer += "\n" + lastMember + line.trim();
                }

            ausgabe.write(buffer);
            ausgabe.newLine();
            System.out.println(buffer);
        }

        ausgabe.close();

    }

}
于 2015-06-26T14:59:56.837 に答える