NBoilerPipeは、BoilerPipeJavaライブラリのモノポートです。私はこれを.NET4であまり問題なく動作させることができました(いくつかのライブラリ参照は修正などが必要でした)。ただし、コードを検索すると、HTML出力の「フック」が見つかりません。たとえば、GetText()メソッドには入力用のパラメーターが1つしかないため、追加のメソッドが表示されません。NBoilerPipeからHTML出力を取得するにはどうすればよいですか?
.NET4で機能するサンプルNBoilerPipeコードは次のとおりです。
String url = "http:// <etc> "; String page = String.Empty; WebRequest request = WebRequest.Create (url); HttpWebResponse response = (HttpWebResponse)request.GetResponse (); Stream stream = response.GetResponseStream (); using (StreamReader streamReader = new StreamReader (stream, Encoding.UTF8)) { page = streamReader.ReadToEnd (); } String text = ArticleExtractor.INSTANCE.GetText (page); Console.WriteLine ("Text: \n" + text);