some cleaning

LingConLab · Apr 17, 2024 · 30c53ab · 30c53ab
1 parent fcf2247
commit 30c53ab
Show file tree

Hide file tree

Showing 10 changed files with 4,734 additions and 14,387 deletions.
diff --git a/data/asya_features.csv b/data/asya_features.csv
diff --git a/data/database.csv b/data/database.csv
diff --git a/data/database.xlsx b/data/database.xlsx
diff --git a/data/kostya_features.csv b/data/kostya_features.csv
diff --git a/data/nikita_phonology_3.csv b/data/nikita_phonology_3.csv
diff --git a/data/rutul_dialectology_ilya.csv b/data/rutul_dialectology_ilya.csv
diff --git a/data/rutul_dialects_200.csv b/data/rutul_dialects_200.csv
diff --git a/data/verb_2024-02-04.xlsx b/data/verb_2024-02-04.xlsx
diff --git a/scripts/cleaning_data_for_database.R b/scripts/cleaning_data_for_database.R
@@ -119,25 +119,6 @@ df |>
   arrange(feature_id) |> 
   write_csv("data/database.csv", na = "", append = TRUE)
 
-# add Kostya's and Asya's nouns -------------------------------------------
-read_csv("data/database.csv", col_select = "feature_id") |>
-  distinct() |>
-  filter(feature_id == max(feature_id)) |>
-  pull(feature_id) ->
-  max_id_in_db
-
-read_csv("data/noun_features_2023-05-25.csv") |>
-  filter(!is.na(value)) ->
-  df
-
-df |>
-  mutate(feature_id = as.double(factor(feature_title))+max_id_in_db) |> 
-  select(feature_id, feature_title, feature_lexeme, feature_description, collected, compiled, updated_day, 
-         updated_month, updated_year, domain, settlement, value, stimuli, answer) |> 
-  arrange(feature_id) |> 
-  write_csv("data/database.csv", na = "", append = TRUE)
-
-
 # add Maxim's demonstratives ----------------------------------------------
 read_csv("data/database.csv", col_select = "feature_id") |>
   distinct() |>

diff --git a/scripts/visualize.R b/scripts/visualize.R
@@ -2,8 +2,7 @@ library(tidyverse)
 library(widyr)
 
 # all
-read_csv("https://raw.githubusercontent.com/LingConLab/rutul_dialectology/master/data/database.csv") ->
-  df
+df <- read_csv("https://raw.githubusercontent.com/LingConLab/rutul_dialectology/master/data/database.csv")
 
 for_plot_title <- "with all stimuli"
 
@@ -102,7 +101,6 @@ dist_gold_standard |>
   plot()
 title(main = str_c("neighborNet ", for_plot_title))
 
-
 dist_gold_standard |>
   cmdscale(k = 3) |> 
   as.data.frame() |>