Donde viven los inmigrantes en Santiago de Chile
Hace unos meses el autor de StatCityPro realizó una investigación sobre el lugar donde los inmigrantes en Santiago de Chile viven. Se identificaron varios puntos de interés en relación al número de inmigrantes y también donde viven cuando llegan a Chile.
Esta publicación quiere avanzar en este trabajo previo, utilizando datos más actualizados de 2019 y también utilizando un modelo de clasificación para predecir si los inmigrantes viven en el Sector Oriente de Santiago. Se puede leer más sobre el Sector Oriente.
2) Paquetes
Los siguientes paquetes se usan en esta publicación.
library(dplyr)
library(lubridate)
library(chilemapas)
library(ggplot2)
library(sf)
library(ggspatial)
library(caret)
library(modelr)
library(forcats)
library(caTools)
3) Datos
Los datos usados en esta publicación se pueden descargar acá.
setwd("~/Documents/Machine Learning/4. Proyectos/Migration/Data Sets")
visas2019 <- read.csv("visas_otorgadas_2019.csv")
En total hay 14 variables con 328.118 observaciones.
str(visas2019)
## 'data.frame': 328115 obs. of 14 variables:
## $ SEXO : Factor w/ 2 levels "Femenino","Masculino": 2 1 1 2 2 2 2 2 2 1 ...
## $ PAÍS : Factor w/ 77 levels "Alemania","Angola",..: 58 65 65 18 65 31 18 14 14 14 ...
## $ NACIMIENTO : Factor w/ 26521 levels "","1900-01-01",..: 15106 16136 16461 14048 2870 17043 21235 16788 14639 15764 ...
## $ ACTIVIDAD : Factor w/ 14 levels "Dueña De Casa",..: 8 7 7 8 7 9 7 2 13 9 ...
## $ PROFESIÓN : Factor w/ 606 levels "A Bodega","A Planificac",..: 351 426 426 432 158 423 399 245 569 84 ...
## $ ESTUDIOS : Factor w/ 7 levels "Básico","Medio",..: 4 1 7 2 4 2 4 2 4 2 ...
## $ COMUNA : Factor w/ 340 levels "Algarrobo","Alhué",..: 304 113 262 327 127 308 304 10 91 113 ...
## $ PROVINCIA : Factor w/ 56 levels "Antártica Chilena",..: 49 49 49 56 25 51 49 2 49 49 ...
## $ REGIÓN : Factor w/ 16 levels "Antofagasta",..: 13 13 13 16 6 12 13 1 13 13 ...
## $ TIT_DEP : Factor w/ 3 levels "","D","T": 1 1 1 1 1 1 1 1 1 1 ...
## $ AUTORIDAD : Factor w/ 55 levels "Dem","Gobernación Antártica Chilena",..: 1 1 1 1 1 1 1 1 1 1 ...
## $ BENEFICIO_AGRUPADO: Factor w/ 7 levels "Estudiante","Inversionista",..: 5 5 5 5 5 5 5 5 5 5 ...
## $ AÑO : int 2019 2019 2019 2019 2019 2019 2019 2019 2019 2019 ...
## $ MES : int 4 7 7 7 5 2 2 5 6 5 ...
4) Ingeniería de Características
Ingeniería de características se hace para preparar los datos para más análisis.
4.1) Filtrar Los Datos
Primero se filtran los datos para solo tener datos para la provincia de Santiago. Desde ahora esta provincia se refiere como Santiago. Es importante notar que Santiago no incluye las comunas de San Bernado o Puente Alto, ya que forma partes de otras provincias.
visas2019STG <- visas2019 %>% filter(REGIÓN == "Metropolitana de Santiago")
visas2019STG <- visas2019STG %>% filter(PROVINCIA == 'Santiago')
4.2) Valores Faltantes
Algunas variables tienen una clase de ‘No Informa’. Sin embargo, esto no es el caso para TIT_DEP que tiene 15.902 observaciones sin valor. De acuerdo con las otras variables, una clase de ‘No Informa’ se agrega para estos valores faltantes. Después de eso todas las observaciones que tienen un valor de ‘No Informa’ se remueven ya que pueden reducir la precisión de un modelo.
table(visas2019STG$ACTIVIDAD)
table(visas2019STG$PROFESIÓN)
table(visas2019STG$ESTUDIOS)
table(visas2019STG$TIT_DEP)
levels(visas2019STG$TIT_DEP)
levels(visas2019STG$TIT_DEP)[1] <- "No Informa"
table(visas2019STG$TIT_DEP)
visas2019STG <- visas2019STG %>% filter(!ACTIVIDAD == "No Informa" ) %>% filter(!PROFESIÓN == "No Informa") %>% filter(!ESTUDIOS == "No Informa") %>% filter(!TIT_DEP == "No Informa")
4.3) Edad
La fecha de nacimiento se convierte en edad.
visas2019STG$NACIMIENTO <- as.Date(visas2019STG$NACIMIENTO)
year <- 2020
Birth_year <- year(visas2019STG$NACIMIENTO)
visas2019STG <- visas2019STG %>% mutate(Age = year - Birth_year)
4.4) Coordenadas Geográficas
El paquete chilemapas se usa para crear un mapa base para Santiago.
Chile <- chilemapas::codigos_territoriales
STG <- Chile %>% filter(nombre_provincia == 'Santiago')
Comunas <- chilemapas::mapa_comunas
STGgeo <- left_join(STG, Comunas)
## Joining, by = c("codigo_comuna", "codigo_provincia", "codigo_region")
Además, acentos se agregan a los nombres de cada comuna, para que se pueda combinar STGgeo con las otras bases de datos que llevan acentos en los nombres de las comunas.
STGgeo[4, 2] = "Conchalí"
STGgeo[6, 2] = "Estación Central"
STGgeo[19, 2] = "Maipú"
STGgeo[20, 2] = "Ñuñoa"
STGgeo[22, 2] = "Peñalolén"
STGgeo[29, 2] = "San Joaquín"
STGgeo[31, 2] = "San Ramón"
Las dos bases de datos se combinan.
visas2019STG <- visas2019STG %>% rename(nombre_comuna = COMUNA)
visas2019STG$nombre_comuna <- as.factor(visas2019STG$nombre_comuna)
visas2019STG <- left_join(visas2019STG, STGgeo)
5) Analisis Inicial
En esta seccion se exploran los datos.
5.1) Nacionalidad
En 2019 llegaron a Santiago 156.260 inmigrantes con un total de 76 nacionalidades. Sin embargo, después de seguir los pasos de la ingeniería de características que se describen en 4) Ingeniería de características, este número se reduce a 98.655 con 76 nacionalidades. De esta cantidad los venezolanos son los más destacados representando el 58,80% con 58.009 personas. Un punto de interés adicional es que de las diez nacionalidades más destacadas ocho son de América del Sur o Central, siendo China y Estados Unidos las únicas excepciones. También se observa que seis de estas diez nacionalidades hablan español como primer idioma.
visas2019STG %>% group_by(PAÍS) %>% count() %>% arrange(-n)
## # A tibble: 75 x 2
## # Groups: PAÍS [75]
## PAÍS n
## <fct> <int>
## 1 Venezuela 58009
## 2 Perú 11474
## 3 Colombia 8465
## 4 Haití 7135
## 5 Bolivia 2424
## 6 Ecuador 2119
## 7 Argentina 1988
## 8 Brasil 1335
## 9 China 923
## 10 Estados Unidos 564
## # … with 65 more rows
5.2) Donde Viven?
La comuna más popular para inmigrantes en 2019 fue Santiago Centro con 30.207 llegadas. Esto no es sorprendente ya que Santiago Centro es el centro de la ciudad donde hay más acceso a servicios, oportunidades de empleo y vivienda. Sin embargo, cabe señalar que los datos utilizados solo se refieren a la comuna de residencia cuando un inmigrante solicitó su visa. Por lo tanto, es posible que desde entonces se hayan trasladado a un sector diferente de la ciudad, ya que se haya acostumbrado a la ciudad y hayan desarrollado una red de apoyo.
comuna_count <- visas2019STG %>% group_by(nombre_comuna) %>% count() %>% arrange(-n)
comuna_count
## # A tibble: 32 x 2
## # Groups: nombre_comuna [32]
## nombre_comuna n
## <chr> <int>
## 1 Santiago 30207
## 2 Estación Central 8080
## 3 Independencia 7291
## 4 Quinta Normal 4343
## 5 San Miguel 4124
## 6 Recoleta 3871
## 7 Ñuñoa 3736
## 8 Las Condes 3591
## 9 La Florida 3571
## 10 Maipú 2780
## # … with 22 more rows
El número total de inmigrantes en cada comuna se agrega al marco de datos STGgeo para que pueda ser mapeado en el mapa de abajo. Cada comuna está etiquetada con números, y la siguiente tabla detalla qué números responden a qué comunas.
STGgeo <- left_join(STGgeo, comuna_count, by = "nombre_comuna")
STGgeo <- STGgeo %>% rename(number_inmigrantes = n)
STGgeo <- cbind(STGgeo, st_coordinates(st_centroid(STGgeo$geometry)))
labels <- seq(1,32)
ggplot() + geom_sf(data = STGgeo$geometry, aes(fill = STGgeo$number_inmigrantes)) +
scale_fill_viridis_c(option = "inferno",trans = 'sqrt') +
geom_text(data = STGgeo, aes(X, Y, label = labels), size = 3, color = "white") +
geom_text(data = STGgeo %>% filter(nombre_comuna == "Santiago"), aes(X, Y, label = "1"), size = 3, color = "black") +
annotation_north_arrow(aes(which_north = "true", location = "br"), pad_y = unit(0.8, "cm")) +
annotation_scale(aes(location = "br", style = "bar")) +
theme(panel.grid.major = element_line(color = gray(0.5), linetype = "dashed")) +
theme (panel.background = element_rect(fill = "light grey")) +
ggtitle("5.1 Ubicación de Inmigrantes que llegaron en 2019") + xlab("Longitud") + ylab("Latitud") +
labs(fill = "Numero")
label <- cbind(STGgeo, labels) %>% select(nombre_comuna, labels)
label
## nombre_comuna labels
## 1 Santiago 1
## 2 Cerrillos 2
## 3 Cerro Navia 3
## 4 Conchalí 4
## 5 El Bosque 5
## 6 Estación Central 6
## 7 Huechuraba 7
## 8 Independencia 8
## 9 La Cisterna 9
## 10 La Florida 10
## 11 La Granja 11
## 12 La Pintana 12
## 13 La Reina 13
## 14 Las Condes 14
## 15 Lo Barnechea 15
## 16 Lo Espejo 16
## 17 Lo Prado 17
## 18 Macul 18
## 19 Maipú 19
## 20 Ñuñoa 20
## 21 Pedro Aguirre Cerda 21
## 22 Peñalolén 22
## 23 Providencia 23
## 24 Pudahuel 24
## 25 Quilicura 25
## 26 Quinta Normal 26
## 27 Recoleta 27
## 28 Renca 28
## 29 San Joaquín 29
## 30 San Miguel 30
## 31 San Ramón 31
## 32 Vitacura 32
5.4) Sector Oriente
Esta publicación y su contraparte de la segunda parte tienen como objetivo construir un modelo de clasificación para predecir si un inmigrante vive en el Sector Oriente. Este sector contiene las comunas de Providencia, Las Condes, Vitacura, y Lo Barnechea y se ubica al noreste de la ciudad. Estas comunas se consideran las más ricas de la ciudad y se identifican en el siguiente mapa.
SectorOriente <- STGgeo %>% filter(nombre_comuna == 'Providencia' | nombre_comuna == 'Las Condes' | nombre_comuna == 'Vitacura' | nombre_comuna == 'Lo Barnechea')
ggplot() + geom_sf(data = STGgeo$geometry, fill = "white") +
geom_sf(data = SectorOriente$geometry, fill = "purple") +
geom_text(data = STGgeo, aes(X, Y, label = labels), size = 3, color = "white") +
annotation_north_arrow(aes(which_north = "true", location = "br"), pad_y = unit(0.8, "cm")) +
annotation_scale(aes(location = "br", style = "bar")) +
theme(panel.grid.major = element_line(color = gray(0.5), linetype = "dashed")) +
theme (panel.background = element_rect(fill = "light grey")) +
ggtitle("Sector Oriente de Santiago") + xlab("Longitud") + ylab("Latitud")
6) Mapeo adicional
En esta sección se presentan cuatro mapas.
El mapa 6.1 muestra la distribución de los inmigrantes venezolanos.
El mapa 6.2 muestra la distribución de los inmigrantes haitianos.
El mapa 6.3 muestra la distribución de inmigrantes de Estados Unidos.
El mapa 6.4 muestra la distribución de los inmigrantes peruanos.
Estas cuatro nacionalidades fueron elegidas para analizar ya que juegan un papel importante en las tendencias migratorias en Santiago. Ha habido un gran aumento en el número de venezolanos en los últimos años debido a la situación política en su propio país. El número de haitianos también ha aumentado drásticamente desde 2015 debido a la menor calidad de vida en su país. El PIB per cápita en Haití es de $ 868. Este valor es el más bajo dentro de las diez nacionalidades más destacadas para los inmigrantes que llegaron a Santiago en 2019. De igual manera, es interesante explorar la distribución de inmigrantes de Estados Unidos por ser el país con mayor PIB per cápita. Finalmente, los peruanos son la nacionalidad que históricamente ha sido el mayor contribuyente de inmigrantes a Chile. El PIB per cápita (Banco Mundial, 2018) para cada una de las diez principales nacionalidades se muestra en dólares estadounidenses a continuación.
USA = $62.887 Peru = $6.941 Colombia = $6.668 Haití = $868 Bolivia = $3.549 Ecuador = $6.345 Argentina = $11.684 Brasil = $9.001 China = $9.771
A modo de comparación, el PIB per cápita de Chile es de $15.923.
6.1) Venezolanos
Este mapa muestra que los venezolanos se concentraron en Santiago Centro con 21.387 personas, lo que corresponde al 36,88% de los venezolanos que llegaron en 2019. Estación Central e Independencia fueron la segunda y tercera comunas más pobladas. En el Sector Oriente había 1.998 venezolanos.
venezuela_count <- visas2019STG %>% filter(PAÍS == 'Venezuela') %>% group_by(nombre_comuna) %>% count() %>% arrange(-n)
venezuela_count
## # A tibble: 32 x 2
## # Groups: nombre_comuna [32]
## nombre_comuna n
## <chr> <int>
## 1 Santiago 21387
## 2 Estación Central 5628
## 3 Independencia 4710
## 4 San Miguel 3318
## 5 Quinta Normal 2805
## 6 Ñuñoa 2622
## 7 La Florida 2339
## 8 Macul 1575
## 9 Maipú 1537
## 10 La Cisterna 1237
## # … with 22 more rows
visas2019STG %>% filter(PAÍS == 'Venezuela' & nombre_comuna %in% c('Providencia', "Las Condes", 'Vitacura', 'Lo Barnechea')) %>% count()
## n
## 1 1998
STGgeo <- left_join(STGgeo, venezuela_count, by = "nombre_comuna")
STGgeo <- STGgeo %>% rename(numero_venezuelanos = n)
ggplot() + geom_sf(data = STGgeo$geometry, aes(fill = STGgeo$numero_venezuelanos)) +
scale_fill_viridis_c(option = "inferno",trans = 'sqrt') +
geom_text(data = STGgeo, aes(X, Y, label = labels), size = 3, color = "white") +
geom_text(data = STGgeo %>% filter(nombre_comuna == "Santiago"), aes(X, Y, label = "1"), size = 3, color = "black") +
annotation_north_arrow(aes(which_north = "true", location = "br"), pad_y = unit(0.8, "cm")) +
annotation_scale(aes(location = "br", style = "bar")) +
theme(panel.grid.major = element_line(color = gray(0.5), linetype = "dashed")) +
theme (panel.background = element_rect(fill = "light grey")) +
ggtitle("6.1 Ubicación de Inmigrantes Venezolanos que llegaron en 2019") + xlab("Longitud") + ylab("Latitud") +
labs(fill = "Numero")
6.2) Haitianos
El siguiente mapa destaca que la comuna más popular para los haitianos fue Quilicura al norte de Santiago con 984 llegadas, lo que representa el 13,79% de los 7.135 haitianos que llegaron en 2019. Estación Central también tuvo una gran cantidad de haitianos con 758 llegadas (10,62% ). Asimismo Santiago Centro tuvo 523 (7,33%) llegadas. También es interesante notar la falta de haitianos en el Sector Oriente de la ciudad con solo 25 haitianos llegando allí en 2019.
haitiano_count <- visas2019STG %>% filter(PAÍS == 'Haití') %>% group_by(nombre_comuna) %>% count() %>% arrange(-n)
visas2019STG %>% filter(PAÍS == 'Haití') %>% count()
## n
## 1 7135
haitiano_count
## # A tibble: 32 x 2
## # Groups: nombre_comuna [32]
## nombre_comuna n
## <chr> <int>
## 1 Quilicura 984
## 2 Estación Central 758
## 3 Santiago 523
## 4 Lo Espejo 426
## 5 Recoleta 375
## 6 Pedro Aguirre Cerda 367
## 7 Cerro Navia 363
## 8 Conchalí 280
## 9 Quinta Normal 252
## 10 El Bosque 248
## # … with 22 more rows
visas2019STG %>% filter(PAÍS == 'Haití' & nombre_comuna %in% c('Providencia', "Las Condes", 'Vitacura', 'Lo Barnechea')) %>% count()
## n
## 1 25
STGgeo <- left_join(STGgeo, haitiano_count, by = "nombre_comuna")
STGgeo <- STGgeo %>% rename(numero_haitianos = n)
ggplot() + geom_sf(data = STGgeo$geometry, aes(fill = STGgeo$numero_haitianos)) +
scale_fill_viridis_c(option = "inferno",trans = 'sqrt') +
geom_text(data = STGgeo, aes(X, Y, label = labels), size = 3, color = "white") +
geom_text(data = STGgeo %>% filter(nombre_comuna == "Santiago"), aes(X, Y, label = "1"), size = 3, color = "black") +
annotation_north_arrow(aes(which_north = "true", location = "br"), pad_y = unit(0.8, "cm")) +
annotation_scale(aes(location = "br", style = "bar")) +
theme(panel.grid.major = element_line(color = gray(0.5), linetype = "dashed")) +
theme (panel.background = element_rect(fill = "light grey")) +
ggtitle("6.2 Ubicación de Inmigrantes haitianos que llegaron en 2019") + xlab("Longitud") + ylab("Latitud") +
labs(fill = "Numero")
6.3) Estadounidenses
De los 564 estadounidenses que llegaron en 2019, 252 (62,41%) vivían en el Sector Oriente. En cuanto a venezolanos y haitianos, Santiago Centro volvió a recibir un alto porcentaje de las llegadas con 80 personas (14,18%). También es interesante que en 2019 hubo varias comunas sin llegadas estadounidenses. Este no fue el caso de las otras dos nacionalidades analizadas hasta ahora con venezolanos y haitianos en cada una de las comunas de Santiago.
eeuu_count <- visas2019STG %>% filter(PAÍS == 'Estados Unidos') %>% group_by(nombre_comuna) %>% count() %>% arrange(-n)
eeuu_count
## # A tibble: 23 x 2
## # Groups: nombre_comuna [23]
## nombre_comuna n
## <chr> <int>
## 1 Providencia 208
## 2 Las Condes 110
## 3 Santiago 80
## 4 Maipú 57
## 5 Ñuñoa 30
## 6 Vitacura 21
## 7 Lo Barnechea 13
## 8 Estación Central 11
## 9 Macul 5
## 10 Independencia 4
## # … with 13 more rows
visas2019STG %>% filter(PAÍS == 'Estados Unidos') %>% count()
## n
## 1 564
visas2019STG %>% filter(PAÍS == 'Estados Unidos' & nombre_comuna %in% c('Providencia', "Las Condes", 'Vitacura', 'Lo Barnechea')) %>% count()
## n
## 1 352
STGgeo <- left_join(STGgeo, eeuu_count, by = "nombre_comuna")
STGgeo <- STGgeo %>% rename(numero_eeuu = n)
ggplot() + geom_sf(data = STGgeo$geometry, aes(fill = STGgeo$numero_eeuu)) +
scale_fill_viridis_c(option = "inferno",trans = 'sqrt') +
geom_text(data = STGgeo, aes(X, Y, label = labels), size = 3, color = "white") +
geom_text(data = STGgeo %>% filter(nombre_comuna == "Santiago"), aes(X, Y, label = "1"), size = 3, color = "black") +
annotation_north_arrow(aes(which_north = "true", location = "br"), pad_y = unit(0.8, "cm")) +
annotation_scale(aes(location = "br", style = "bar")) +
theme(panel.grid.major = element_line(color = gray(0.5), linetype = "dashed")) +
theme (panel.background = element_rect(fill = "light grey")) +
ggtitle("6.3 Ubicación de Inmigrantes de Los Estados Unidos que llegaron en 2019") + xlab("Longitud") + ylab("Latitud") +
labs(fill = "Numero")
6.4) Peruanos
Santiago Centro, Recoleta e Independencia fueron las tres comunas con más llegadas peruanas en 2019 con 2.785 (24,27%), 1.272 (11,09%), y 1.092 (9,51%) respectivamente. En el Sector Oriente había 855 (7,45%) peruanos.
peruano_count <- visas2019STG %>% filter(PAÍS == 'Perú') %>% group_by(nombre_comuna) %>% count() %>% arrange(-n)
visas2019STG %>% filter(PAÍS == 'Perú') %>% count()
## n
## 1 11474
visas2019STG %>% filter(PAÍS == 'Perú' & nombre_comuna %in% c('Providencia', "Las Condes", 'Vitacura', 'Lo Barnechea')) %>% count()
## n
## 1 855
peruano_count
## # A tibble: 32 x 2
## # Groups: nombre_comuna [32]
## nombre_comuna n
## <chr> <int>
## 1 Santiago 2785
## 2 Recoleta 1272
## 3 Independencia 1092
## 4 Estación Central 634
## 5 Quinta Normal 585
## 6 Conchalí 475
## 7 Peñalolén 415
## 8 Las Condes 373
## 9 La Florida 335
## 10 Lo Prado 320
## # … with 22 more rows
STGgeo <- left_join(STGgeo, peruano_count, by = "nombre_comuna")
STGgeo <- STGgeo %>% rename(numero_peruanos = n)
ggplot() + geom_sf(data = STGgeo$geometry, aes(fill = STGgeo$numero_peruanos)) +
scale_fill_viridis_c(option = "inferno",trans = 'sqrt') +
geom_text(data = STGgeo, aes(X, Y, label = labels), size = 3, color = "white") +
geom_text(data = STGgeo %>% filter(nombre_comuna == "Santiago"), aes(X, Y, label = "1"), size = 3, color = "black") +
annotation_north_arrow(aes(which_north = "true", location = "br"), pad_y = unit(0.8, "cm")) +
annotation_scale(aes(location = "br", style = "bar")) +
theme(panel.grid.major = element_line(color = gray(0.5), linetype = "dashed")) +
theme (panel.background = element_rect(fill = "light grey")) +
ggtitle("6.4 Ubicación de Inmigrantes Peruanos que llegaron en 2019") + xlab("Longitud") + ylab("Latitud") +
labs(fill = "Numero")
Las siguientes conclusiones se pueden extraer del análisis anterior:
- Hubo más inmigrantes de Centroamérica y Sudamérica.
- Hablar español es un factor importante para determinar si hay muchos inmigrantes de una determinada nacionalidad.
- Los estadounidenses tienen el PIB per cápita más alto y fueron la única nacionalidad analizada con la mayoría de su población viviendo en el Sector Oriente
- Los haitianos tienen el PIB per cápita más bajo y también tienen el porcentaje más bajo de personas que viven en el Sector Oriente
- Los haitianos estaban más dispersos con Quilicura, al norte de Santiago con la mayoría de los haitianos. En comparación, los venezolanos, estadounidenses y peruanos estaban más concentrados cerca del centro de la ciudad.
7) Conclusión
En esta publicación de la parte 1, se han explorado los datos de inmigración de 2019 para Santiago con mapas creados para la distribución de inmigrantes venezolanos, haitianos, estadounidenses y peruanos, con algunas conclusiones extraídas. Seguirá una publicación de la parte 2 donde se creará un modelo de clasificación para tratar de clasificar si un inmigrante vive en el Sector Oriente de la ciudad. Gracias por leer esta publicación.