digitalizaceSDO

Tento R skript slouží k hromadné extrakci dat o předmětech ochrany (druhy a stanoviště) z PDF souborů souhrnů doporučených opatření (SDO). Skript zpracuje složku s PDF soubory, parsuje nestrukturovaný text a exportuje vyčištěná data do formátu CSV (kompatibilní s Excel).

🚀 Funkce

Robustní čištění textu: Odstraňuje neviditelné znaky (entry, tabulátory), které běžně "rozbíjejí" CSV soubory. Chytrá extrakce jmen: Správně rozděluje české a latinské názvy (zvládá i poddruhy a složené názvy). Parsování populací: Dokáže najít min/max počty jedinců i v případě, že jsou v PDF rozděleny na více řádků. Podpora typů populací: Rozlišuje stálou, rozmnožující se a zimující populaci. Kódování: Výstup je v kódování Windows-1250, připravený pro přímé otevření v českém Excelu.

📋 Požadavky

Pro spuštění je nutné mít nainstalované R a následující knihovny:

install.packages("stringr")
install.packages("dplyr")
install.packages("pdftools")

Použití

Umístěte PDF soubory do složky Input/Data_test (nebo upravte cestu ve skriptu).

Spusťte skript v R / RStudio.

Výsledné soubory se uloží do definované výstupní složky (defaultně temp_dir).

📂 Výstup

Skript generuje dva soubory:

souhrn_stanoviste.csv – Data o biotopech (kód, název, rozloha, cílový stav).

souhrn_druhy.csv – Data o druzích (název CZ/LAT, populace, zachovalost, izolace, cílový stav).

Poznámka k datům Skript používá heuristické metody a regulární výrazy (Regex) pro zpracování nestrukturovaného textu z PDF. Přestože je velmi robustní, u dokumentů s nestandardním formátováním se doporučuje manuální kontrola výstupu.

Name		Name	Last commit message	Last commit date
Latest commit History 21 Commits
Input		Input
Outputs/Data		Outputs/Data
R		R
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
digitalizaceSDO.Rproj		digitalizaceSDO.Rproj

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

digitalizaceSDO

🚀 Funkce

📋 Požadavky

Použití

📂 Výstup

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

digitalizaceSDO

🚀 Funkce

📋 Požadavky

Použití

📂 Výstup

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages