問題の背景を簡単に説明します。私は vb.net で NLP (自然言語処理) アプリケーションに取り組んでおり、テキストのトレーニング セットとして Wikipedia を使用することにしました。
ウィキペディアを XML ファイルとしてダウンロードしましたが、プレーン テキストの抽出に問題があります。xml ファイルから段落のテキストを取得するために正規表現を使用しようとしましたが、うまく機能していないようです。私が抱えている問題は、Wiki ページ (たとえば: Anarchism on Wiki ) を表示すると、(他の Wiki 記事への) 内部リンクがテキストとして表示されるだけですが、xml ファイルでは次のように表示されるということです: [[自由な関連付け(共産主義とアナキズム)|自由連合]]。これはリンクの形式のためだけなので、角括弧は必要ありません。2 番目のページ ID (自由な関連付け) は、テキストが読者にどのように表示されるかではないため、必要ありません。削除したくないスタイルの問題もあります (I'Dim expression As New Regex("/\<[a-z0-9\ ]+\>/")
.
私がこれを使用しているxmlファイルから実際のテキストを取得するには:
Dim reader As XmlTextReader = New XmlTextReader("location of xml file")
Do While (reader.Read())
Select Case reader.NodeType
Case XmlNodeType.Text 'Display the text in each element.
'code goes here
End Select
Loop
私は助けを求めてインターネットを調べていて、役立つ記事をいくつか見つけましたが、これまでのところ私のコードはまだ機能していません. どんな助けでも(役に立つリンクでも)素晴らしいでしょう!
ありがとう!