Donde viven los inmigrantes en Santiago de Chile

Hace unos meses el autor de StatCityPro realizó una investigación sobre el lugar donde los inmigrantes en Santiago de Chile viven. Se identificaron varios puntos de interés en relación al número de inmigrantes y también donde viven cuando llegan a Chile.

Esta publicación quiere avanzar en este trabajo previo, utilizando datos más actualizados de 2019 y también utilizando un modelo de clasificación para predecir si los inmigrantes viven en el Sector Oriente de Santiago. Se puede leer más sobre el Sector Oriente.

2) Paquetes

Los siguientes paquetes se usan en esta publicación.

library(dplyr)
library(lubridate)
library(chilemapas)
library(ggplot2)
library(sf)
library(ggspatial)
library(caret)
library(modelr)
library(forcats) 
library(caTools)

3) Datos

Los datos usados en esta publicación se pueden descargar acá.

setwd("~/Documents/Machine Learning/4. Proyectos/Migration/Data Sets")

visas2019 <- read.csv("visas_otorgadas_2019.csv")

En total hay 14 variables con 328.118 observaciones.

str(visas2019)
## 'data.frame':    328115 obs. of  14 variables:
##  $ SEXO              : Factor w/ 2 levels "Femenino","Masculino": 2 1 1 2 2 2 2 2 2 1 ...
##  $ PAÍS              : Factor w/ 77 levels "Alemania","Angola",..: 58 65 65 18 65 31 18 14 14 14 ...
##  $ NACIMIENTO        : Factor w/ 26521 levels "","1900-01-01",..: 15106 16136 16461 14048 2870 17043 21235 16788 14639 15764 ...
##  $ ACTIVIDAD         : Factor w/ 14 levels "Dueña De Casa",..: 8 7 7 8 7 9 7 2 13 9 ...
##  $ PROFESIÓN         : Factor w/ 606 levels "A Bodega","A Planificac",..: 351 426 426 432 158 423 399 245 569 84 ...
##  $ ESTUDIOS          : Factor w/ 7 levels "Básico","Medio",..: 4 1 7 2 4 2 4 2 4 2 ...
##  $ COMUNA            : Factor w/ 340 levels "Algarrobo","Alhué",..: 304 113 262 327 127 308 304 10 91 113 ...
##  $ PROVINCIA         : Factor w/ 56 levels "Antártica Chilena",..: 49 49 49 56 25 51 49 2 49 49 ...
##  $ REGIÓN            : Factor w/ 16 levels "Antofagasta",..: 13 13 13 16 6 12 13 1 13 13 ...
##  $ TIT_DEP           : Factor w/ 3 levels "","D","T": 1 1 1 1 1 1 1 1 1 1 ...
##  $ AUTORIDAD         : Factor w/ 55 levels "Dem","Gobernación Antártica Chilena",..: 1 1 1 1 1 1 1 1 1 1 ...
##  $ BENEFICIO_AGRUPADO: Factor w/ 7 levels "Estudiante","Inversionista",..: 5 5 5 5 5 5 5 5 5 5 ...
##  $ AÑO               : int  2019 2019 2019 2019 2019 2019 2019 2019 2019 2019 ...
##  $ MES               : int  4 7 7 7 5 2 2 5 6 5 ...

4) Ingeniería de Características

Ingeniería de características se hace para preparar los datos para más análisis.

4.1) Filtrar Los Datos

Primero se filtran los datos para solo tener datos para la provincia de Santiago. Desde ahora esta provincia se refiere como Santiago. Es importante notar que Santiago no incluye las comunas de San Bernado o Puente Alto, ya que forma partes de otras provincias.

visas2019STG <- visas2019 %>% filter(REGIÓN == "Metropolitana de Santiago") 

visas2019STG <- visas2019STG %>% filter(PROVINCIA == 'Santiago')

4.2) Valores Faltantes

Algunas variables tienen una clase de ‘No Informa’. Sin embargo, esto no es el caso para TIT_DEP que tiene 15.902 observaciones sin valor. De acuerdo con las otras variables, una clase de ‘No Informa’ se agrega para estos valores faltantes. Después de eso todas las observaciones que tienen un valor de ‘No Informa’ se remueven ya que pueden reducir la precisión de un modelo.

table(visas2019STG$ACTIVIDAD) 
      
table(visas2019STG$PROFESIÓN) 
            
table(visas2019STG$ESTUDIOS) 

table(visas2019STG$TIT_DEP)

levels(visas2019STG$TIT_DEP)

levels(visas2019STG$TIT_DEP)[1] <- "No Informa"

table(visas2019STG$TIT_DEP)
visas2019STG <- visas2019STG %>% filter(!ACTIVIDAD == "No Informa" ) %>% filter(!PROFESIÓN == "No Informa") %>% filter(!ESTUDIOS == "No Informa") %>% filter(!TIT_DEP == "No Informa")

4.3) Edad

La fecha de nacimiento se convierte en edad.

visas2019STG$NACIMIENTO <- as.Date(visas2019STG$NACIMIENTO)

year <- 2020

Birth_year <- year(visas2019STG$NACIMIENTO)

visas2019STG <- visas2019STG %>% mutate(Age = year - Birth_year)

4.4) Coordenadas Geográficas

El paquete chilemapas se usa para crear un mapa base para Santiago.

Chile <- chilemapas::codigos_territoriales
STG <- Chile %>% filter(nombre_provincia == 'Santiago')
Comunas <- chilemapas::mapa_comunas
STGgeo <- left_join(STG, Comunas)
## Joining, by = c("codigo_comuna", "codigo_provincia", "codigo_region")

Además, acentos se agregan a los nombres de cada comuna, para que se pueda combinar STGgeo con las otras bases de datos que llevan acentos en los nombres de las comunas.

STGgeo[4, 2] = "Conchalí"
STGgeo[6, 2] = "Estación Central"
STGgeo[19, 2] = "Maipú"
STGgeo[20, 2] = "Ñuñoa"
STGgeo[22, 2] = "Peñalolén"
STGgeo[29, 2] = "San Joaquín"
STGgeo[31, 2] = "San Ramón"

Las dos bases de datos se combinan.

visas2019STG <- visas2019STG %>% rename(nombre_comuna = COMUNA)

visas2019STG$nombre_comuna <- as.factor(visas2019STG$nombre_comuna)

visas2019STG <- left_join(visas2019STG, STGgeo)

5) Analisis Inicial

En esta seccion se exploran los datos.

5.1) Nacionalidad

En 2019 llegaron a Santiago 156.260 inmigrantes con un total de 76 nacionalidades. Sin embargo, después de seguir los pasos de la ingeniería de características que se describen en 4) Ingeniería de características, este número se reduce a 98.655 con 76 nacionalidades. De esta cantidad los venezolanos son los más destacados representando el 58,80% con 58.009 personas. Un punto de interés adicional es que de las diez nacionalidades más destacadas ocho son de América del Sur o Central, siendo China y Estados Unidos las únicas excepciones. También se observa que seis de estas diez nacionalidades hablan español como primer idioma.

visas2019STG %>% group_by(PAÍS) %>% count() %>% arrange(-n)
## # A tibble: 75 x 2
## # Groups:   PAÍS [75]
##    PAÍS               n
##    <fct>          <int>
##  1 Venezuela      58009
##  2 Perú           11474
##  3 Colombia        8465
##  4 Haití           7135
##  5 Bolivia         2424
##  6 Ecuador         2119
##  7 Argentina       1988
##  8 Brasil          1335
##  9 China            923
## 10 Estados Unidos   564
## # … with 65 more rows

5.2) Donde Viven?

La comuna más popular para inmigrantes en 2019 fue Santiago Centro con 30.207 llegadas. Esto no es sorprendente ya que Santiago Centro es el centro de la ciudad donde hay más acceso a servicios, oportunidades de empleo y vivienda. Sin embargo, cabe señalar que los datos utilizados solo se refieren a la comuna de residencia cuando un inmigrante solicitó su visa. Por lo tanto, es posible que desde entonces se hayan trasladado a un sector diferente de la ciudad, ya que se haya acostumbrado a la ciudad y hayan desarrollado una red de apoyo.

comuna_count <- visas2019STG %>% group_by(nombre_comuna) %>% count() %>% arrange(-n)

comuna_count
## # A tibble: 32 x 2
## # Groups:   nombre_comuna [32]
##    nombre_comuna        n
##    <chr>            <int>
##  1 Santiago         30207
##  2 Estación Central  8080
##  3 Independencia     7291
##  4 Quinta Normal     4343
##  5 San Miguel        4124
##  6 Recoleta          3871
##  7 Ñuñoa             3736
##  8 Las Condes        3591
##  9 La Florida        3571
## 10 Maipú             2780
## # … with 22 more rows

El número total de inmigrantes en cada comuna se agrega al marco de datos STGgeo para que pueda ser mapeado en el mapa de abajo. Cada comuna está etiquetada con números, y la siguiente tabla detalla qué números responden a qué comunas.

STGgeo <- left_join(STGgeo, comuna_count, by = "nombre_comuna")

STGgeo <- STGgeo %>% rename(number_inmigrantes = n)

STGgeo <- cbind(STGgeo, st_coordinates(st_centroid(STGgeo$geometry)))

labels <- seq(1,32)
ggplot() + geom_sf(data = STGgeo$geometry, aes(fill = STGgeo$number_inmigrantes)) + 
scale_fill_viridis_c(option = "inferno",trans = 'sqrt') +
geom_text(data = STGgeo, aes(X, Y, label = labels), size = 3, color = "white") +
geom_text(data = STGgeo %>% filter(nombre_comuna == "Santiago"), aes(X, Y, label = "1"), size = 3, color = "black") +
annotation_north_arrow(aes(which_north = "true", location = "br"), pad_y = unit(0.8, "cm")) +
  annotation_scale(aes(location = "br", style = "bar")) +
  theme(panel.grid.major = element_line(color = gray(0.5), linetype = "dashed")) +
  theme (panel.background = element_rect(fill = "light grey")) +
  ggtitle("5.1 Ubicación de Inmigrantes que llegaron en 2019") + xlab("Longitud") + ylab("Latitud") +
  labs(fill = "Numero")

label <- cbind(STGgeo, labels) %>% select(nombre_comuna, labels)
label
##          nombre_comuna labels
## 1             Santiago      1
## 2            Cerrillos      2
## 3          Cerro Navia      3
## 4             Conchalí      4
## 5            El Bosque      5
## 6     Estación Central      6
## 7           Huechuraba      7
## 8        Independencia      8
## 9          La Cisterna      9
## 10          La Florida     10
## 11           La Granja     11
## 12          La Pintana     12
## 13            La Reina     13
## 14          Las Condes     14
## 15        Lo Barnechea     15
## 16           Lo Espejo     16
## 17            Lo Prado     17
## 18               Macul     18
## 19               Maipú     19
## 20               Ñuñoa     20
## 21 Pedro Aguirre Cerda     21
## 22           Peñalolén     22
## 23         Providencia     23
## 24            Pudahuel     24
## 25           Quilicura     25
## 26       Quinta Normal     26
## 27            Recoleta     27
## 28               Renca     28
## 29         San Joaquín     29
## 30          San Miguel     30
## 31           San Ramón     31
## 32            Vitacura     32

5.4) Sector Oriente

Esta publicación y su contraparte de la segunda parte tienen como objetivo construir un modelo de clasificación para predecir si un inmigrante vive en el Sector Oriente. Este sector contiene las comunas de Providencia, Las Condes, Vitacura, y Lo Barnechea y se ubica al noreste de la ciudad. Estas comunas se consideran las más ricas de la ciudad y se identifican en el siguiente mapa.

SectorOriente <- STGgeo %>% filter(nombre_comuna == 'Providencia' | nombre_comuna == 'Las Condes' | nombre_comuna == 'Vitacura' | nombre_comuna == 'Lo Barnechea')

ggplot() + geom_sf(data = STGgeo$geometry, fill = "white") + 
  geom_sf(data = SectorOriente$geometry, fill = "purple") +
geom_text(data = STGgeo, aes(X, Y, label = labels), size = 3, color = "white") +
annotation_north_arrow(aes(which_north = "true", location = "br"), pad_y = unit(0.8, "cm")) +
  annotation_scale(aes(location = "br", style = "bar")) +
  theme(panel.grid.major = element_line(color = gray(0.5), linetype = "dashed")) +
  theme (panel.background = element_rect(fill = "light grey")) +
  ggtitle("Sector Oriente de Santiago") + xlab("Longitud") + ylab("Latitud")

6) Mapeo adicional

En esta sección se presentan cuatro mapas.

El mapa 6.1 muestra la distribución de los inmigrantes venezolanos.

El mapa 6.2 muestra la distribución de los inmigrantes haitianos.

El mapa 6.3 muestra la distribución de inmigrantes de Estados Unidos.

El mapa 6.4 muestra la distribución de los inmigrantes peruanos.

Estas cuatro nacionalidades fueron elegidas para analizar ya que juegan un papel importante en las tendencias migratorias en Santiago. Ha habido un gran aumento en el número de venezolanos en los últimos años debido a la situación política en su propio país. El número de haitianos también ha aumentado drásticamente desde 2015 debido a la menor calidad de vida en su país. El PIB per cápita en Haití es de $ 868. Este valor es el más bajo dentro de las diez nacionalidades más destacadas para los inmigrantes que llegaron a Santiago en 2019. De igual manera, es interesante explorar la distribución de inmigrantes de Estados Unidos por ser el país con mayor PIB per cápita. Finalmente, los peruanos son la nacionalidad que históricamente ha sido el mayor contribuyente de inmigrantes a Chile. El PIB per cápita (Banco Mundial, 2018) para cada una de las diez principales nacionalidades se muestra en dólares estadounidenses a continuación.

USA = $62.887 Peru = $6.941 Colombia = $6.668 Haití = $868 Bolivia = $3.549 Ecuador = $6.345 Argentina = $11.684 Brasil = $9.001 China = $9.771

A modo de comparación, el PIB per cápita de Chile es de $15.923.

6.1) Venezolanos

Este mapa muestra que los venezolanos se concentraron en Santiago Centro con 21.387 personas, lo que corresponde al 36,88% de los venezolanos que llegaron en 2019. Estación Central e Independencia fueron la segunda y tercera comunas más pobladas. En el Sector Oriente había 1.998 venezolanos.

venezuela_count <- visas2019STG %>% filter(PAÍS == 'Venezuela') %>% group_by(nombre_comuna) %>% count() %>% arrange(-n)

venezuela_count
## # A tibble: 32 x 2
## # Groups:   nombre_comuna [32]
##    nombre_comuna        n
##    <chr>            <int>
##  1 Santiago         21387
##  2 Estación Central  5628
##  3 Independencia     4710
##  4 San Miguel        3318
##  5 Quinta Normal     2805
##  6 Ñuñoa             2622
##  7 La Florida        2339
##  8 Macul             1575
##  9 Maipú             1537
## 10 La Cisterna       1237
## # … with 22 more rows
visas2019STG %>% filter(PAÍS == 'Venezuela' & nombre_comuna %in% c('Providencia', "Las Condes", 'Vitacura', 'Lo Barnechea')) %>% count()
##      n
## 1 1998
STGgeo <- left_join(STGgeo, venezuela_count, by = "nombre_comuna")

STGgeo <- STGgeo %>% rename(numero_venezuelanos = n)
ggplot() + geom_sf(data = STGgeo$geometry, aes(fill = STGgeo$numero_venezuelanos)) + 
scale_fill_viridis_c(option = "inferno",trans = 'sqrt') +
geom_text(data = STGgeo, aes(X, Y, label = labels), size = 3, color = "white") +
geom_text(data = STGgeo %>% filter(nombre_comuna == "Santiago"), aes(X, Y, label = "1"), size = 3, color = "black") +
annotation_north_arrow(aes(which_north = "true", location = "br"), pad_y = unit(0.8, "cm")) +
  annotation_scale(aes(location = "br", style = "bar")) +
  theme(panel.grid.major = element_line(color = gray(0.5), linetype = "dashed")) +
  theme (panel.background = element_rect(fill = "light grey")) +
  ggtitle("6.1 Ubicación de Inmigrantes Venezolanos que llegaron en 2019") + xlab("Longitud") + ylab("Latitud") +
  labs(fill = "Numero")

6.2) Haitianos

El siguiente mapa destaca que la comuna más popular para los haitianos fue Quilicura al norte de Santiago con 984 llegadas, lo que representa el 13,79% de los 7.135 haitianos que llegaron en 2019. Estación Central también tuvo una gran cantidad de haitianos con 758 llegadas (10,62% ). Asimismo Santiago Centro tuvo 523 (7,33%) llegadas. También es interesante notar la falta de haitianos en el Sector Oriente de la ciudad con solo 25 haitianos llegando allí en 2019.

haitiano_count <- visas2019STG %>% filter(PAÍS == 'Haití') %>% group_by(nombre_comuna) %>% count() %>% arrange(-n)

visas2019STG %>% filter(PAÍS == 'Haití') %>% count()
##      n
## 1 7135
haitiano_count
## # A tibble: 32 x 2
## # Groups:   nombre_comuna [32]
##    nombre_comuna           n
##    <chr>               <int>
##  1 Quilicura             984
##  2 Estación Central      758
##  3 Santiago              523
##  4 Lo Espejo             426
##  5 Recoleta              375
##  6 Pedro Aguirre Cerda   367
##  7 Cerro Navia           363
##  8 Conchalí              280
##  9 Quinta Normal         252
## 10 El Bosque             248
## # … with 22 more rows
visas2019STG %>% filter(PAÍS == 'Haití' & nombre_comuna %in% c('Providencia', "Las Condes", 'Vitacura', 'Lo Barnechea')) %>% count()
##    n
## 1 25
STGgeo <- left_join(STGgeo, haitiano_count, by = "nombre_comuna")

STGgeo <- STGgeo %>% rename(numero_haitianos = n)
ggplot() + geom_sf(data = STGgeo$geometry, aes(fill = STGgeo$numero_haitianos)) + 
scale_fill_viridis_c(option = "inferno",trans = 'sqrt') +
geom_text(data = STGgeo, aes(X, Y, label = labels), size = 3, color = "white") +
geom_text(data = STGgeo %>% filter(nombre_comuna == "Santiago"), aes(X, Y, label = "1"), size = 3, color = "black") +
annotation_north_arrow(aes(which_north = "true", location = "br"), pad_y = unit(0.8, "cm")) +
  annotation_scale(aes(location = "br", style = "bar")) +
  theme(panel.grid.major = element_line(color = gray(0.5), linetype = "dashed")) +
  theme (panel.background = element_rect(fill = "light grey")) +
  ggtitle("6.2 Ubicación de Inmigrantes haitianos que llegaron en 2019") + xlab("Longitud") + ylab("Latitud") +
  labs(fill = "Numero")

6.3) Estadounidenses

De los 564 estadounidenses que llegaron en 2019, 252 (62,41%) vivían en el Sector Oriente. En cuanto a venezolanos y haitianos, Santiago Centro volvió a recibir un alto porcentaje de las llegadas con 80 personas (14,18%). También es interesante que en 2019 hubo varias comunas sin llegadas estadounidenses. Este no fue el caso de las otras dos nacionalidades analizadas hasta ahora con venezolanos y haitianos en cada una de las comunas de Santiago.

eeuu_count <- visas2019STG %>% filter(PAÍS == 'Estados Unidos') %>% group_by(nombre_comuna) %>% count() %>% arrange(-n)

eeuu_count
## # A tibble: 23 x 2
## # Groups:   nombre_comuna [23]
##    nombre_comuna        n
##    <chr>            <int>
##  1 Providencia        208
##  2 Las Condes         110
##  3 Santiago            80
##  4 Maipú               57
##  5 Ñuñoa               30
##  6 Vitacura            21
##  7 Lo Barnechea        13
##  8 Estación Central    11
##  9 Macul                5
## 10 Independencia        4
## # … with 13 more rows
visas2019STG %>% filter(PAÍS == 'Estados Unidos') %>% count() 
##     n
## 1 564
visas2019STG %>% filter(PAÍS == 'Estados Unidos' & nombre_comuna %in% c('Providencia', "Las Condes", 'Vitacura', 'Lo Barnechea')) %>% count()
##     n
## 1 352
STGgeo <- left_join(STGgeo, eeuu_count, by = "nombre_comuna")

STGgeo <- STGgeo %>% rename(numero_eeuu = n)
ggplot() + geom_sf(data = STGgeo$geometry, aes(fill = STGgeo$numero_eeuu)) + 
scale_fill_viridis_c(option = "inferno",trans = 'sqrt') +
geom_text(data = STGgeo, aes(X, Y, label = labels), size = 3, color = "white") +
geom_text(data = STGgeo %>% filter(nombre_comuna == "Santiago"), aes(X, Y, label = "1"), size = 3, color = "black") +
annotation_north_arrow(aes(which_north = "true", location = "br"), pad_y = unit(0.8, "cm")) +
  annotation_scale(aes(location = "br", style = "bar")) +
  theme(panel.grid.major = element_line(color = gray(0.5), linetype = "dashed")) +
  theme (panel.background = element_rect(fill = "light grey")) +
  ggtitle("6.3 Ubicación de Inmigrantes de Los Estados Unidos que llegaron en 2019") + xlab("Longitud") + ylab("Latitud") +
  labs(fill = "Numero")

6.4) Peruanos

Santiago Centro, Recoleta e Independencia fueron las tres comunas con más llegadas peruanas en 2019 con 2.785 (24,27%), 1.272 (11,09%), y 1.092 (9,51%) respectivamente. En el Sector Oriente había 855 (7,45%) peruanos.

peruano_count <- visas2019STG %>% filter(PAÍS == 'Perú') %>% group_by(nombre_comuna) %>% count() %>% arrange(-n)

visas2019STG %>% filter(PAÍS == 'Perú') %>% count()
##       n
## 1 11474
visas2019STG %>% filter(PAÍS == 'Perú' & nombre_comuna %in% c('Providencia', "Las Condes", 'Vitacura', 'Lo Barnechea')) %>% count()
##     n
## 1 855
peruano_count
## # A tibble: 32 x 2
## # Groups:   nombre_comuna [32]
##    nombre_comuna        n
##    <chr>            <int>
##  1 Santiago          2785
##  2 Recoleta          1272
##  3 Independencia     1092
##  4 Estación Central   634
##  5 Quinta Normal      585
##  6 Conchalí           475
##  7 Peñalolén          415
##  8 Las Condes         373
##  9 La Florida         335
## 10 Lo Prado           320
## # … with 22 more rows
STGgeo <- left_join(STGgeo, peruano_count, by = "nombre_comuna")

STGgeo <- STGgeo %>% rename(numero_peruanos = n)
ggplot() + geom_sf(data = STGgeo$geometry, aes(fill = STGgeo$numero_peruanos)) + 
scale_fill_viridis_c(option = "inferno",trans = 'sqrt') +
geom_text(data = STGgeo, aes(X, Y, label = labels), size = 3, color = "white") +
geom_text(data = STGgeo %>% filter(nombre_comuna == "Santiago"), aes(X, Y, label = "1"), size = 3, color = "black") +
annotation_north_arrow(aes(which_north = "true", location = "br"), pad_y = unit(0.8, "cm")) +
  annotation_scale(aes(location = "br", style = "bar")) +
  theme(panel.grid.major = element_line(color = gray(0.5), linetype = "dashed")) +
  theme (panel.background = element_rect(fill = "light grey")) +
  ggtitle("6.4 Ubicación de Inmigrantes Peruanos que llegaron en 2019") + xlab("Longitud") + ylab("Latitud") +
  labs(fill = "Numero")

Las siguientes conclusiones se pueden extraer del análisis anterior:

  • Hubo más inmigrantes de Centroamérica y Sudamérica.
  • Hablar español es un factor importante para determinar si hay muchos inmigrantes de una determinada nacionalidad.
  • Los estadounidenses tienen el PIB per cápita más alto y fueron la única nacionalidad analizada con la mayoría de su población viviendo en el Sector Oriente
  • Los haitianos tienen el PIB per cápita más bajo y también tienen el porcentaje más bajo de personas que viven en el Sector Oriente
  • Los haitianos estaban más dispersos con Quilicura, al norte de Santiago con la mayoría de los haitianos. En comparación, los venezolanos, estadounidenses y peruanos estaban más concentrados cerca del centro de la ciudad.

7) Conclusión

En esta publicación de la parte 1, se han explorado los datos de inmigración de 2019 para Santiago con mapas creados para la distribución de inmigrantes venezolanos, haitianos, estadounidenses y peruanos, con algunas conclusiones extraídas. Seguirá una publicación de la parte 2 donde se creará un modelo de clasificación para tratar de clasificar si un inmigrante vive en el Sector Oriente de la ciudad. Gracias por leer esta publicación.

James Attwood
James Attwood
Científico de Datos

Relacionado