この Web ページで import.io の Magic API を使用しています。
一部のタイプの情報/フィールドは完全に抽出されます。
しかし、エクストラクター:
NOR 番号フィールド (例: NOR DEVL1502938A) とページ数を表す番号 (例: 10) を同じ列に混在させます。おそらく、両方ともリンクされたテキストであるためです (タグは次のとおりです: a title="[...]" href="[...]" )
次に、書誌参照フィールド (例: JO du 04/04/2015 texte : 0080;10 pages 6232/6241) を NOR 番号フィールドと混合します。NOR が体系的に参照の前にあり、Web ページの同じ行にないため、私には奇妙に思えます (書誌参照フィールドの前にbr/タグがあります)。
テキスト要約のコンテンツのロードに頻繁に失敗します (例: (Application de l'art. R. 411-1 et s. du code de l'environnement - Abrogation de l'arrêté du 15 mai 1986 fixant sur tout ou partie duテリトワール・ナショナル・デ・メジュール・デ・プロテクション・デ・オワゾー・レプレセンテ・ダン・ル・デパートメント・ド・ラ・ガイアナ))を1列に。代わりに、それをさまざまな列に広げます。span class="noir"タグの後にemタグを挿入すると発生することがわかります。例 :
アプリケーション・デ・アート。R. 213-49-2 du code de l'environnement - Abrogation de l'arrêté du 10 août 2011 relatif à la definition du perimètre de l'Etablissement public du Marais poitevin)
New Extractor を使用するか、特別な Google リクエスト結果 Web ページ ( https://www.google.fr/search?q=PROTECTION+FAUNE+et+FLORE+SAUVAGES+site:legifrance.gouv) を試してみました。 fr+filetype:pdf . 無駄に。代替の Google Web ページは、さらに悪い結果をもたらします。
どんなアイデアでも歓迎します:
2番目の問題の理由について
Legifrance ページの 3 つの問題をどのように克服できるかを説明します。
最後まで読んでくれてありがとう:-)
PS : 私は主に研究者として働いていることに注意してください。ロジックは理解できますが、Regex や Json には詳しくありません。それらを使用する必要がある場合は、背後にあるロジックを説明するか、理想的なコードの十分な部分を示して、効果的に複製できるようにしてください。