いくつかの例外を除いて、Word(.doc)ドキュメントに種(特に鳥の種)のリストがあり、多くの場合、それらはあらゆる種類のデータ分析に役に立たない方法で構造化されます。
リストは、スペースやその他すべてを含むこのようなものになります。これには、分類法(ファミリ)と、一般的で科学的な名前の種が含まれます。
データ
1 STRUTHIONIDAE (1)
Common Ostrich Struthio camelus
2 DIOMEDEIDAE (5 – 1 + 1)
++Northern Royal Albatross Diomedea sanfordi
Black-browed Albatross Thalassarche melanophris
Shy Albatross Thalassarche cauta
Grey-headed Albatross Thalassarche chrysostoma
Atlantic Yellow-nosed Albatross Thalassarche chlororhynchos
3 Procellaridae (11 – 1 + 1)
Southern Giant Petrel Macronectes giganteus
Pintado Petrel Daption capense
Great-winged Petrel Pterodroma macroptera
Soft-plumaged Petrel Pterodroma mollis
Antarctic Prion Pachyptila desolata
White-chinned Petrel Procellaria aequinoctialis
++Spectacled Petrel Procellaria conspicillata
Cory's Shearwater Calonectris [diomedea] borealis
Great Shearwater Puffinus gravis
Sooty Shearwater Puffinus griseus
Manx Shearwater Puffinus puffinus
4 HYDROBATIDAE (3)
Wilson's Storm-Petrel Oceanites oceanicus
British Storm-Petrel Hydrobates pelagicus
Leach's Storm-Petrel Oceanodroma leucorhoa
このようなリストは、テクニカルレポート、地理的分布の設計、地域の保全状況、要約などの特別な情報源です。これは、ほとんど利用できない、または公開されていない地域にとって特に興味深いものです(上記の例は、 www.birdsangola.orgのアンゴラ)。適切にフォーマットされていれば、データはより適切に使用されます。データフレームは、その後のデータ分析の候補として適しています。
上記のリストを使用可能なものに変換して、種の一般名、学名、分類学上の科を抽出したいと思います。data.frameは、適切で自然な候補です。