2. Análisis actividad turística CyL

En este segundo apartado nos centramos en los datos de Castilla y León y profundizamos en las métricas relacionadas con el turismo.

image.png

La mayoría de la información es esta apartado va a ser obtenida del portal de datos abiertos de la Junta de Castilla y León

El portal de datos abiertos de CyL ofrece muchos datos relativos a la actividad turística sobre infraestructura, demanda, oferta, etc.. Vamos a trabajar con las siguientes fuentes de datos:

2.1 Análisis de las principales variables turísticas

Este análisis se basa en los datos sobre las principales variables turísticas que ofrece el portal de datos abiertos de la Junta de Castilla y León

Analizamos las principales variables turísticas de CyL: viajeros, pernoctaciones, Grado de ocupación, Estancia media, Establecimientos y Plazas

En el fichero descargamos la serie de 1995 a 2022. Aunque hay datos de 2023, llegamos hasta 2022 para trabajar con años cerrados.

Esta es una muestra de los datos del fichero:

Mes Total viajeros Total pernoctaciones Grado de ocupación Estancia media Establecimientos Plazas
0 1995-02-01 102573 161215 23 2 1507 43935
1 1995-11-01 141845 236304 29 2 1571 45221
2 1995-12-01 126887 193234 24 2 1579 45324
3 1996-04-01 210140 330911 39 2 1701 78798
4 1996-07-01 233282 366773 41 2 1762 80280

El portal de datos abiertos de la Junta de CyL sobre variables turísticas tiene una serie histórica muy amplia (desde 1995), nos quedamos con el periodo 2012-2022

Mes Total viajeros Total pernoctaciones Grado de ocupación Estancia media Establecimientos Plazas Año
88 2014-01-01 276916 440781 12 2 6135 149866 2014
30 2016-05-01 648992 1034047 25 2 5786 147682 2016
301 2014-03-01 407612 666572 17 2 6145 149972 2014
295 2012-09-01 589887 963969 23 2 5973 148299 2012
210 2019-10-01 800461 1330736 28 2 8827 183655 2019
315 2017-08-01 1103373 2077946 43 2 6194 160054 2017
182 2013-05-01 520111 850479 20 2 6055 148890 2013
92 2016-01-01 336470 545206 15 2 6044 149543 2016
35 2019-02-01 467211 759966 20 2 8268 179443 2019
191 2015-04-01 609760 1037524 26 2 6050 148986 2015

Agregamos la información por año, los campos 'Total viajeros', 'Total pernoctaciones' los agregamos a nivel de año y sobre el resto de campos obtenemos el valor medio por año: 'Grado de ocupación', 'Estancia media', 'Establecimientos', 'Plazas'.

Año Total viajeros Total pernoctaciones Grado de ocupación Estancia media Establecimientos Plazas
0 2012 5802748 9918627 20 2 5928 147846
1 2013 5943117 10040399 21 2 6076 149159
2 2014 6237916 10533324 21 2 6155 150615
3 2015 6820136 11477860 24 2 6124 150202
4 2016 7237835 12136425 25 2 5818 147738
5 2017 8154518 13570582 27 2 6175 159845
6 2018 8439757 14280456 27 2 7112 169420
7 2019 8908841 15228407 27 2 8599 182044
8 2020 2924560 5325455 13 2 9211 186711
9 2021 4977853 8580718 20 2 9370 187902
10 2022 7923657 13123431 25 2 10041 191406

En primer lugar, nos centramos en las variables relacionadas con la demanda como el número de viajeros y las pernoctaciones y vemos su evolución temporal

No description has been provided for this image

Vemos una evolución positiva y ascendente del número de viajeros y pernoctaciones en CyL en el periodo 2012-2022 quitando la bajada coyuntural de 2020 debida al covid19.

A continuación, nos centramos en variables también relacionadas con la demanda como el grado de ocupación media y estancia media

No description has been provided for this image

Observamos que mientras la variable grado de ocupación sigue una evolución similar a número de viajeros y pernoctaciones, la variable estancia media se mantiene constante a lo largo del tiempo. Son estancias medias cortas quizás derivadas del tipo de turismo que recibe CyL: turismo rural, gastronómico, actividades, eventos y festivales, también del turismo de fin de semana de cercanía (Comunidad de Madrid). Es curioso comprobar como la pandemia del covid19 no modificó la duración de las estancias de los turistas.

A continuación, nos centramos en las variables relacionadas con la capacidad como los establecimientos y las plazas

No description has been provided for this image

La evolución de los establecimiento y las plazas ha sido ascendente a los largo del tiempo adaptandose al incremento en la demanda (salvo el tramo de bajada de viajeros y pernoctaciones debido al covid19)

Realizamos un análisis de correlaciones en el que incluímos todas las variables

Total viajeros Total pernoctaciones Grado de ocupación Estancia media Establecimientos Plazas
Total viajeros 1.000000 0.988904 0.427839 0.287507 0.406494 0.472771
Total pernoctaciones 0.988904 1.000000 0.442135 0.354629 0.402559 0.468805
Grado de ocupación 0.427839 0.442135 1.000000 0.121508 -0.384274 -0.403696
Estancia media 0.287507 0.354629 0.121508 1.000000 0.242715 0.258132
Establecimientos 0.406494 0.402559 -0.384274 0.242715 1.000000 0.965748
Plazas 0.472771 0.468805 -0.403696 0.258132 0.965748 1.000000

Obtenemos un mapa de calor para visualizar las correlaciones obtenidas

No description has been provided for this image

En un color rojo fuerte están las correlaciones positivas fuertes (valor próximo a 1) y en color claro las correlaciones positivas débiles (valor próximo a 0). En color azulado las correlaciones negativas (valor menor a 0). Los valor de la diagonal son las correlaciones de una variable con ella misma que no revisamos, en el resto encontramos lo siguiente:

  • Correlación muy alta positiva entre los establecimientos y las plazas, lo cual tiene todo el sentido.
  • Correlación muy alta positiva entre los viajeros y las pernoctaciones, lo cual tiene todo el sentido.
  • Correlación media-baja positiva (valores entorno 0,4) entre el grado de ocupación y los viajeros y las pernoctaciones
  • Correlación media-baja positiva (valores entorno 0,4) entre los establecimientos y plazas y los viajeros y las pernoctaciones
  • Correlación media-baja negativa (valores entorno -0,4) entre el grado de ocupación y los establecimientos y plazas.
  • La estancia media tiene una correlación débil con el resto de variables.

Lógicamente el grado de ocupación es un ratio que aumenta al aumentar los viajeros/pernoctaciones y disminuye al aumentar las plazas/establecimiento. Por otro lado al crecer el número de viajeros/pernoctaciones se tiende a aumentar la capacidad de la infraestructura turística y por ello aumenta las plazas/establecimiento

2.2 Análisis infraestructura turística

Este análisis se basa en los datos de infraestructura turística del sistema SIE del portal de datos abiertos de la Junta de CyL.

Analizamos las principales variables de infraestructura turísticas de CyL: agencias_viaje,albergues_turisticos,alojamientos turismo rural, alojamientos hoteleros, apartamentos turisticos, cafeterias, restaurantes, campings, empresas turismo activo, otras actividades turisticas y viviendas_turisticas

La información está obtenida a Diciembre de 2022. Hay datos más recientes, pero tomamos esta fecha de referencia para poder contrastar con los resultados del análisis anterior en el que llegamos hasta 2022.

Tenemos esta información para las diferentes provincias de CyL: Ávila, Segovia, Burgos, León, Valladolid, Palencia, Salamanca, Zamora y Soria.

Esta es una muestra de los datos del fichero:

provincia agencias_viaje albergues_turisticos alojamientos_turismo_rural alojamientos_hoteleros apartamentos_turisticos cafeterias campings empresas_turismo_activos otras_activ_turisticas restaurantes viviendas_turisticas
0 Avila 20 15 988 149 76 137 15 65 19 608 623
1 Burgos 89 73 465 302 54 202 17 26 6 858 346
2 Leon 96 123 548 420 62 323 39 48 15 1260 561
3 Palencia 32 33 249 104 14 55 4 19 1 348 73
4 Salamanca 85 19 577 254 102 326 20 28 6 751 529
5 Segovia 38 22 459 153 58 61 6 69 11 532 380
6 Soria 11 16 381 129 34 63 8 18 2 351 173
7 Valladolid 137 17 207 154 33 241 3 27 23 892 231
8 Zamora 25 10 281 103 31 109 4 20 1 377 356

Añadimos datos de población de cada provincia

provincia agencias_viaje albergues_turisticos alojamientos_turismo_rural alojamientos_hoteleros apartamentos_turisticos cafeterias campings empresas_turismo_activos otras_activ_turisticas restaurantes viviendas_turisticas poblacion
0 Avila 20 15 988 149 76 137 15 65 19 608 623 158140
1 Burgos 89 73 465 302 54 202 17 26 6 858 346 355045
2 Leon 96 123 548 420 62 323 39 48 15 1260 561 448179
3 Palencia 32 33 249 104 14 55 4 19 1 348 73 158008
4 Salamanca 85 19 577 254 102 326 20 28 6 751 529 325898
5 Segovia 38 22 459 153 58 61 6 69 11 532 380 153803
6 Soria 11 16 381 129 34 63 8 18 2 351 173 88377
7 Valladolid 137 17 207 154 33 241 3 27 23 892 231 517975
8 Zamora 25 10 281 103 31 109 4 20 1 377 356 167215

Algunas cuestiones interesantes que podemos ver en la tabla:

  • León es lider destacado en algergues turísticos, posiblemente a ser punto de paso común en el Camino de Santiago.
  • Ávila es lider destacado en alojamientos de turismo rural y en empresas de turismo activo, posiblmente debido a las características de naturaleza de sus pueblos.
  • León y Burgos son líderes en alojamientos hoteleros, por encima incluso de provincias con más población como Valladolid.
  • En lo relativo a gastronomía León destaca por su alto número de restuarantes y muestra el atractivo gastronómico de la provincia.
  • Es notable el número de apartamentos y viviendas turísticas en todo CyL mostrando el desarrollo de este tipo de alojamientos que es generalizado en toda España.

Rentabilidad hotelera (RevPAR)

Una métrica muy utilizada en la industria hotelera es el RevPAR, ingresos por habitación disponible que es uno de los indicadores de rentabilidad hotelera.
En el INE tenemos una interesante fuente de datos como es: Ingresos por habitación disponible (RevPAR) por comunidades autónomas y provincias, que vamos a utilizar para conocer la rentabilidad hotelera en CyL. Bajamos los datos con el RevPAR medio de 2022.

Esta es una muestra de los datos del fichero:

provincia RevPar2022
7 Valladolid 36.023333
5 Segovia 30.192500
1 Burgos 27.585833
4 Salamanca 26.676667
2 León 25.439167
8 Zamora 24.659167
3 Palencia 23.542500
0 Ávila 23.500000
6 Soria 23.204167
No description has been provided for this image

Vemos como claramente es Valladolid la provincia con un RevPAR más alto, seguida de Segovia y Burgos

2.3 Análisis demanda turística

Este análisis se basa en los datos del boletín de coyuntura Demanda turística del portal de datos abiertos de la Junta de CyL

Los datos del boletín de coyuntura turísticas relativo a la demanda contiene variables ya analizadas previemente tales como: viajeros, pernoctaciones, Grado de ocupación, Estancia media, Establecimientos y Plazas, pero añade también información de los tipos de alojamientos, está desglosada por provincia y además diferencia turistas extranjeros y españoles.

Esta es una muestra de los datos del fichero:

Año Mes Periodo Fecha Provincia Tipo alojamiento Subtipo alojamiento Viajeros Viajeros españoles Viajeros extranjeros Pernoctaciones Pernoctaciones españoles Pernoctaciones extranjeros Grado ocupación Estancia media provincia_abreviado Estancia media españoles Estancia media extranjeros
0 2007 Mayo Mensual 2007-05 Valladolid Todos alojamientos Todos 69344 54221 15123 107941 82754 25187 34 2 VA 2 5
1 2007 Junio Mensual 2007-06 Palencia Hoteles, hostales y pensiones Hoteles y hostales 25650 20057 5593 42170 33356 8814 40 2 PA 2 6
2 2007 Junio Mensual 2007-06 Salamanca Hoteles, hostales y pensiones Hoteles y hostales 94070 72302 21768 152460 112583 39877 48 2 SA 2 5
3 2007 Junio Mensual 2007-06 Zamora Hoteles, hostales y pensiones Hoteles y hostales 26952 23435 3517 38887 34013 4874 35 1 ZA 1 10
4 2007 Junio Mensual 2007-06 Palencia Hoteles, hostales y pensiones Pensiones 1152 728 424 1791 1366 425 17 2 PA 0 0
5 2007 Junio Mensual 2007-06 Segovia Hoteles, hostales y pensiones Pensiones 905 610 295 2190 1419 771 21 2 SE 0 0
6 2007 Junio Mensual 2007-06 Soria Hoteles, hostales y pensiones Pensiones 134 123 11 1189 1005 184 14 9 SO 0 0
7 2007 Junio Mensual 2007-06 Valladolid Hoteles, hostales y pensiones Pensiones 1498 1164 334 6099 4020 2079 22 4 VA 3 0
8 2007 Junio Mensual 2007-06 Ávila Turismo rural Turismo rural 10820 10481 339 22691 22205 486 17 2 AV 2 0
9 2007 Junio Mensual 2007-06 Valladolid Turismo rural Turismo rural 2169 1883 286 4793 3504 1289 14 2 VA 2 0

Eliminamos los totales ('Todos alojamientos').

El portal de datos abiertos de la Junta de CyL sobre variables turísticas tiene una serie histórica muy amplia (desde 2000), nos quedamos con el periodo 2012-2022

En primer lugar queremos analizar la evolución de las variables turísticas relacionadas con los viajeros y las pernoctaciones desglosado por provincia

Agregamos la información por provincia y año de los campos 'Viajeros', 'Pernoctaciones'. Los campos que contienen valores medios no los vamos a considerar en la agregación, ya que para calcular valores medios a nivel de año deberíamos saber el peso de cada subgrupo en los valores medios (ejemplo subgrupos: tipo_alojamiento, subtipo_alojamiento).

Provincia Año Viajeros Viajeros españoles Viajeros extranjeros Pernoctaciones Pernoctaciones españoles Pernoctaciones extranjeros
0 Burgos 2012 1034596 711696 322900 1621768 1204322 417446
1 Burgos 2013 1091131 729868 361263 1687959 1200557 487402
2 Burgos 2014 1146055 768499 377556 1770752 1280677 490075
3 Burgos 2015 1199347 770734 428613 1856703 1281121 575582
4 Burgos 2016 1297378 837394 459984 2010669 1390075 620594
... ... ... ... ... ... ... ... ...
94 Ávila 2018 966764 874550 92214 1609620 1463293 146327
95 Ávila 2019 989854 895365 94489 1675864 1523324 152540
96 Ávila 2020 340828 322622 18206 633135 594149 38986
97 Ávila 2021 506416 480933 25483 892320 839135 53185
98 Ávila 2022 754161 691779 62382 1331657 1220880 110777

99 rows × 8 columns

Analizamos la evolución temporal de viajeros, pernoctaciones, grado de ocupación y estancia media, diferenciada por provincias.

No description has been provided for this image
No description has been provided for this image
No description has been provided for this image
No description has been provided for this image
No description has been provided for this image
No description has been provided for this image

Observamos lo siguiente para el periodo analizado (2012-2022):

  • En lo relativo a viajeros y pernoctaciones las tres provincias líderes son: León, Salamanca y Burgos.
  • Si nos centramos en viajeros extranjeros el líder destacado de los tres es Burgos, mientras que en viajeros españoles la situación es much más igualada
  • Si nos centramos en pernoctaciones el peso relativo en el grupo de Salamanca aumenta.

A continuacion nos interesa profundizar en el turismo extranjero con el objetivo de analizar qué tipo de turismo y provincias de CyL son más atractivas para el turista extranjero.

Primero vamos a analizar la relación entre las provincias y el turismo extranjero.

Agrupamos por provincia para obtener el agregado de viajeros (españoles, extranjeros y total)

Obtenemos el ratio de extranjeros, diviendo el número de viajeros extranjeros por el total de viajeros

No description has been provided for this image

Observamos que claramente es Burgos la provincia de CyL que mayor porcentaje de extranjeros recibe sobre el total de viajeros en el periodo 2012-2022

Comprobamos si la tendencia se mantiene a lo largo de los años

No description has been provided for this image

Efectivamente Burgos ha sido la provincia con mayor ratio de extranjeros en el periodo 2012 a 2022 seguido de Salamanca, León o Palencia

Es muy posible que la situación geográfica de estas provincias en el entorno del Camino de Santiago (León, Burgos), cerca de Portugal (Salamanca) o en rutas Francia - Portugal influya en este resultado.

Realizamos un análisis similar sobre el turismo extranjero, pero por tipo de alojamiento.

No description has been provided for this image

El tipo de alojamiento con mayor porcentaje de extranjeros son los albergues seguramente debido a la influencia del Camino de Santiago, sin embargo encontramos un ratio muy bajo en el turismo rural, atractivo turístico de CyL con gran afluencia de españoles.

Los análisis realizados nos permiten conocer mejor las preferencias de los turistas extranjeros y el papel clave del Camino de Santiago y la cercanía a Portugal y Francia. Volvemos a recurrir a ChatGPT para encontrar claves que ayuden a promocionar el turismo extranjero en CyL.

Generamos las preguntas a realizar a ChatGPT.
pregunta6: "Una vez realizado un análisis del turismo en Castilla y León (CyL), encontramos las siguientes claves respecto al turismo extranjero:

  • La nacionalidad más frecuente en CyL son franceses y portugues, mientras que a nivel de toda España lo son: Reino Unido, Alemania y Francia. Seguramente influya en este hecho la cercanía de CyL a Francia y Portugal.
  • El Camino de Santiago es donde más extranjeros encontramos en CyL, siendo Burgos, Salamanca y León las ciudades con mayor ratio de turistas extranjeros frente a los turistas españoles.
  • CyL es líder en turismo rural si nos fijamos en el turista español, pero baja notablemente en lo relativo a turistas de extranjeros superado por otras comunidades como: Baleares, Andalucía y Cataluña
  • El tipo de turismo que ofrece CyL es turismo rural, cultural, gastronómico, enológico y de naturaleza.
  • A nivel de infraestructuras hay una notable capacidad para todos los tipos de alojamiento.

Con toda esta información, me gustaría ver formas de promocionar el turismo de CyL entre los visitantes extranjeros de el Camino de Santiago, ¿qué estrategias podemos seguir?"

¡Por supuesto! Basándonos en la información proporcionada sobre el turismo en Castilla y León y su relación con el Camino de Santiago, aquí tienes algunas estrategias específicas para promocionar el turismo en la región entre los visitantes extranjeros del Camino de Santiago:

Enfatizar la Cercanía Geográfica:

Destaca la proximidad de Castilla y León a Francia y Portugal como una oportunidad para los peregrinos de disfrutar de una experiencia única y auténtica en la región.

Rutas Alternativas del Camino:

Promociona rutas alternativas del Camino de Santiago que pasan por Castilla y León. Resalta los atractivos culturales, naturales y gastronómicos que ofrece la región en estas rutas menos convencionales.

Experiencias Auténticas:

Resalta la autenticidad de la experiencia en Castilla y León en contraposición a las zonas más concurridas del Camino de Santiago. Destaca la tranquilidad, la cultura y la autenticidad que ofrece la región.

Paquetes de Experiencia:

Colabora con agencias de viajes para crear paquetes de experiencia que incluyan una extensión a Castilla y León. Combina el Camino de Santiago con actividades culturales, gastronómicas y de naturaleza en la región.

Historia y Cultura de Castilla y León:

Crea materiales promocionales que resalten la rica historia y cultura de la región. Destaca los monumentos históricos, ciudades medievales y la influencia del Camino de Santiago en la región.

Gastronomía y Enología:

Promociona las experiencias gastronómicas y enológicas únicas de Castilla y León. Organiza catas de vino, degustaciones de platos tradicionales y visitas a bodegas locales.

Redes Sociales y Comunicación Visual:

Utiliza plataformas de redes sociales para compartir fotos y videos inspiradores de la belleza de Castilla y León. Destaca los paisajes naturales, los monumentos y las experiencias.

Colaboración con Asociaciones y Comunidades Locales:

Colabora con asociaciones locales y comunidades en las ciudades a lo largo del Camino de Santiago en Castilla y León. Juntos pueden promocionar la región como una extensión natural del Camino.

Alianzas con Albergues y Hospedajes:

Colabora con albergues y hospedajes en el Camino de Santiago para promocionar paquetes que incluyan una extensión a Castilla y León. Ofrece descuentos o promociones a los peregrinos que elijan esta opción.

Colaboraciones con Peregrinos Influyentes:

Colabora con peregrinos influyentes en las redes sociales que hayan explorado Castilla y León. Sus testimonios y fotos auténticas pueden ser poderosas herramientas de promoción.
Eventos Temáticos:

Organiza eventos temáticos relacionados con el Camino de Santiago en Castilla y León. Esto puede incluir ferias culturales, festivales gastronómicos y actividades interactivas.

Ofertas Especiales:

Ofrece ofertas especiales y descuentos exclusivos para aquellos que elijan explorar Castilla y León durante su viaje en el Camino de Santiago.

Recuerda que la autenticidad y la conexión emocional con la región serán claves para atraer a los peregrinos extranjeros a explorar Castilla y León. Adaptar tus estrategias a los intereses y preferencias de tus audiencias específicas será fundamental para el éxito de la promoción.

A continuación empleamos técnicas estadísticas para analizar la relación entre las variables. Según el análisis anterior hemos podido comprobar que hay provincias y tipos de alojamientos con un mayor porcentaje de extranjeros, concretamente en lo relativo a provincias Burgos y Salamanca tienen un porcentaje mayor y en lo relativo a tipo de alojamientos los albergues y los campings. Vamos a apoyarnos en la prueba estadística Chi Cuadrado para validar de una manera formal que está relación entre variables (porcentaje extranjeros vs provincia y tipo alojamiento) existe.

Nos centramos en los datos de 2022 y generamos un conjunto de datos con las variables de interés: provincia, tipo alojamiento, mes y los datos de viajeros. Añadir el mes nos permitirá ver si el mes tiene algún efecto.

Mes Provincia Tipo alojamiento Viajeros Viajeros españoles Viajeros extranjeros ratio_extranjeros
0 Abril Burgos Albergues 9775 5488 4287 0.44
1 Abril Burgos Apartamentos turísticos 5092 3752 1340 0.26
2 Abril Burgos Camping 1666 931 735 0.44
3 Abril Burgos Hoteles, hostales y pensiones 88444 63680 24764 0.28
4 Abril Burgos Turismo rural 15697 12148 3549 0.23
... ... ... ... ... ... ... ...
643 Septiembre Ávila Apartamentos turísticos 2109 2066 43 0.02
644 Septiembre Ávila Camping 6060 5347 713 0.12
645 Septiembre Ávila Hoteles, hostales y pensiones 45608 39092 6516 0.14
646 Septiembre Ávila Turismo rural 12662 12173 489 0.04
647 Septiembre Ávila Viviendas de uso turístico 7702 7702 0 0.00

648 rows × 7 columns

Para realizar la prueba Chi Cuadrado necesitamos convertir las variables de tipo cadena a numérico. Obtenemos unas nuevas variables sintéticas también llamadas variables dummy que toman como posibles valores 0 o 1. Por ejemplo provincia='Burgos' -> Provincia_Burgos = 1.

Sobre la variable que contiene el porcentaje de extranjeros, obtenemos una variable de clasificación con tres posibles valores sobre el nivel de extranjeros:

  • 1: nivel bajo, porcentaje inferior al 10%
  • 2: nivel medio, porcentaje entre 10% y 25%
  • 3 nivel alto, porcentaje superior al 25%.

Necesitamos tener la variable de ratio de extranjeros como variable de clasificación para la prueba Chi Cuadrado

Creamos dos grupos de variables las predictoras (mes, provincia, tipo alojamiento) y las variable a predecir (ratio extranjeros). La prueba Chi cuadrado comprobará si hay dependencia entre la variable a predecir y las predictoras

Obtenemos el resultado de la prueba Chi Cuadrado con los scoring indicando las variables predictoras con mayor relación frente a la variable a predecir.

{'Provincia_Burgos': 47.16142741838452,
 'Provincia_Soria': 26.060018448704586,
 'Provincia_Ávila': 55.89450273722629,
 'Tipo alojamiento_Albergues': 29.267172836287795,
 'Tipo alojamiento_Camping': 23.387610792492172,
 'Tipo alojamiento_Hoteles, hostales y pensiones': 23.985040506938315,
 'Tipo alojamiento_Turismo rural': 27.050804122884422}

Obtenemos el P-Value para validar la fiabilidad del resultado, debe tener un valor inferior a 0,05.

Variable: Provincia_Burgos, P-Value: 3.0123430355792077e-12
Variable: Provincia_Soria, P-Value: 4.303098194313274e-07
Variable: Provincia_Ávila, P-Value: 2.2156227433616113e-14
Variable: Tipo alojamiento_Albergues, P-Value: 2.3640518729602197e-08
Variable: Tipo alojamiento_Camping, P-Value: 8.048849608668557e-07
Variable: Tipo alojamiento_Hoteles, hostales y pensiones, P-Value: 5.624158555656919e-07
Variable: Tipo alojamiento_Turismo rural, P-Value: 8.936984877022088e-08

El resultado de la prueba Chi Cuadrado cuadra con lo que habíamos visto anteriormente, ya que nos muestra que a nivel de provincia los valores que más importancia tienen para predecir el ratio de extranjeros son: Burgos, Soria y Ávila. Este resultado cuadra con lo analizado anteriormente ya que Burgos es el que tiene un mayor ratio y Soria y Ávila las que menor ratio tienen, de modo que estos valores ayudan a predecir, tanto porque están asociados a ratios altos como a ratios bajos. Algo similar encontramos en los tipos de alojamientos: Albergues, Camping (valores altos del ratio) y Hoteles y turismo rural (valores bajos). De igual modo, la prueba Chi Cuadrado nos muestra que el mes no tiene efecto en el ratio de extranjeros.

Series temporales: predicción viajeros próximos periodos

A continuación analizamos la evolución temporal del número de viajeros para el conjunto de CyL.

En primer lugar, agregamos los datos a nivel de 'Fecha' para obtener esta serie temporal. Nos quedamos con los años posteriores a 2019.

Fecha Viajeros
0 2019-01 387199
1 2019-02 467211
2 2019-03 595289
3 2019-04 788566
4 2019-05 812511
5 2019-06 864561
6 2019-07 867353
7 2019-08 1199543
8 2019-09 870060
9 2019-10 800461
No description has been provided for this image

En el gráfico se puede ver claramente la estacionalidad del turismo con pico en Julio y Agosto y valle en Enero. Igualmente vemos el descenso provocado por el covid19 (2020 y 2021) y desde 2022 una tendencia alcista clara.

Tomamos esta serie histórica para generar un modelo de series temporales basado en ARIMA para tratar de predecir los viajeros de los próximos meses. Vamos a usar los datos desde 2019 hasta la actualidad.

Vamos a emplear un modelo llamado autoarima que realiza un ajuste automático de coeficientes.

Performing stepwise search to minimize aic
 ARIMA(1,1,1)(0,1,1)[12]             : AIC=1120.278, Time=0.21 sec
 ARIMA(0,1,0)(0,1,0)[12]             : AIC=1129.849, Time=0.02 sec
 ARIMA(1,1,0)(1,1,0)[12]             : AIC=1120.487, Time=0.07 sec
 ARIMA(0,1,1)(0,1,1)[12]             : AIC=1118.304, Time=0.11 sec
 ARIMA(0,1,1)(0,1,0)[12]             : AIC=1132.638, Time=0.04 sec
 ARIMA(0,1,1)(1,1,1)[12]             : AIC=1119.842, Time=0.23 sec
 ARIMA(0,1,1)(0,1,2)[12]             : AIC=1119.966, Time=0.21 sec
 ARIMA(0,1,1)(1,1,0)[12]             : AIC=1118.254, Time=0.08 sec
 ARIMA(0,1,1)(2,1,0)[12]             : AIC=1119.955, Time=0.22 sec
 ARIMA(0,1,1)(2,1,1)[12]             : AIC=1121.593, Time=0.52 sec
 ARIMA(0,1,0)(1,1,0)[12]             : AIC=1120.410, Time=0.06 sec
 ARIMA(1,1,1)(1,1,0)[12]             : AIC=1120.784, Time=0.18 sec
 ARIMA(0,1,2)(1,1,0)[12]             : AIC=1118.915, Time=0.09 sec
 ARIMA(1,1,2)(1,1,0)[12]             : AIC=1120.783, Time=0.20 sec
 ARIMA(0,1,1)(1,1,0)[12] intercept   : AIC=1121.389, Time=0.09 sec

Best model:  ARIMA(0,1,1)(1,1,0)[12]          
Total fit time: 2.332 seconds
ARIMA(order=(0, 1, 1), scoring_args={}, seasonal_order=(1, 1, 0, 12),
      suppress_warnings=True, with_intercept=False)

En la serie tenemos hasta 202307, intentamos predecir los próximos 5 periodos: 202308, 202309, 202310, 202311 y 202312.

Esta es la predicción de viajeros para los periodos indicados:

Pred Fecha
2023-08-01 1273250 2023-08
2023-09-01 874884 2023-09
2023-10-01 858481 2023-10
2023-11-01 634779 2023-11
2023-12-01 576275 2023-12

Lo visualizamos en la gráfica con la serie temporal completa

No description has been provided for this image

La línea azul es la serie histórica (desde 2019-01 hasta 2023-07) y la línea roja es la predicción (desde 2023-08 hasra 2023-12). El modelo parace haber "pillado" bien la tendencia y estacionalidad en la predicción a primera vista no parece mala. Hay que tener en cuenta que aunque la serie en los últimos dos años tiene una estacionalidad y tendencia clara, al trabajar con datos desde 2019 también intervienen los periodos de los años de covid19, lo cual dificulta obtener un patrón general.

Concretamente los datos de la predicción son:

Fecha Pred
55 2023-08 1273250
56 2023-09 874884
57 2023-10 858481
58 2023-11 634779
59 2023-12 576275

Esperamos que la predicción realizada se equivoque y sean más los turistas que visiten CyL los próximos meses

Recurrimos a ChatGPT para realizar un último análisis de los datos.

Generamos las preguntas a realizar a ChatGPT.
pregunta7: Adjuntamos los datos de evolución de los turistas en Castilla y León en el periodo de 2019 a 2022. \nMe gustaría que me hicieras un informe sobre los mismos.\nDATOS: Fecha Viajeros\n0 2019-01 387199\n1 2019-02 467211\n2 2019-03 595289\n3 2019-04 788566\n4 2019-05 812511\n5 2019-06 864561\n6 2019-07 867353\n7 2019-08 1199543\n8 2019-09 870060\n9 2019-10 800461\n10 2019-11 639688\n11 2019-12 614484\n12 2020-01 440226\n13 2020-02 530752\n14 2020-03 223135\n15 2020-04 0\n16 2020-05 12656\n17 2020-06 96672\n18 2020-07 437556\n19 2020-08 516707\n20 2020-09 292947\n21 2020-10 205905\n22 2020-11 88453\n23 2020-12 79551\n24 2021-01 57114\n25 2021-02 67786\n26 2021-03 136280\n27 2021-04 157426\n28 2021-05 242658\n29 2021-06 405990\n30 2021-07 644699\n31 2021-08 1012502\n32 2021-09 671496\n33 2021-10 717207\n34 2021-11 454528\n35 2021-12 410167\n36 2022-01 281451\n37 2022-02 389633\n38 2022-03 449376\n39 2022-04 681947\n40 2022-05 692687\n41 2022-06 744246\n42 2022-07 862818\n43 2022-08 1247844\n44 2022-09 805617\n45 2022-10 741718\n46 2022-11 547819\n47 2022-12 478501\n48 2023-01 358730\n49 2023-02 431297\n50 2023-03 561726\n51 2023-04 840546\n52 2023-05 799988\n53 2023-06 836579\n54 2023-07 904171. La variable Fecha contiene el mes en el que se han registrado \nlos datos en formato yyyy-mm y la variable Viajeros los turistas que visitan Castilla y León ese mes

Por supuesto, aquí tienes un breve informe basado en los datos proporcionados sobre la evolución de los turistas en Castilla y León:

Resumen de la Evolución de Turistas en Castilla y León (2019-2023):

La serie temporal proporcionada contiene información mensual sobre el número de turistas que visitaron Castilla y León desde enero de 2019 hasta julio de 2023. La variable "Viajeros" representa la cantidad de turistas registrados en cada mes.

Tendencias Temporales:

Estacionalidad Anual: Se observa una clara estacionalidad en la serie, con picos de turismo durante los meses de verano (julio y agosto), lo que indica que estos meses son los más populares para visitar Castilla y León.

Impacto de la Pandemia: En 2020, se puede notar un marcado declive en el número de turistas a partir del mes de marzo. Esto puede atribuirse al impacto de la pandemia de COVID-19, que resultó en restricciones de viaje y cierres temporales de actividades turísticas.

Recuperación Post-Pandemia: A partir de mediados de 2021, se observa una tendencia de recuperación en el número de turistas, especialmente durante el verano de 2021 y 2022, lo que sugiere que la industria turística en la región está recobrando su fuerza gradualmente.

Eventos y Factores Externos:

Influencia Estacional: El patrón de aumento durante los meses de verano sugiere que el turismo estacional es un factor importante en la región. Las actividades al aire libre, festivales y eventos culturales pueden estar contribuyendo a esta tendencia.

Afectación por la Pandemia: La marcada caída en el turismo en 2020 coincide con las restricciones y cierres relacionados con la pandemia de COVID-19, lo que indica que la industria turística se vio fuertemente afectada por la crisis sanitaria.

Potencial de Análisis Adicional:

Modelos de Predicción: Dado que la serie temporal tiene una clara estacionalidad y tendencia, podríamos explorar modelos de pronóstico más avanzados, como modelos ARIMA (AutoRegressive Integrated Moving Average) o modelos de series temporales más complejos, para prever el número de turistas en los próximos meses.

Análisis de Causas: Sería interesante investigar las causas de la variabilidad en el número de turistas. ¿Existen eventos específicos en ciertos meses que impulsan el aumento de turistas? ¿Hay estrategias de marketing exitosas que podrían haber contribuido a la recuperación post-pandemia?

Comparación con Años Anteriores: Podríamos comparar los datos de 2023 con los mismos meses en años anteriores para evaluar si la recuperación es sostenible y si se están superando las cifras de pre-pandemia.

Conclusiones:

La evolución de los turistas en Castilla y León muestra una clara estacionalidad y una influencia significativa de factores externos, como la pandemia. La recuperación en el número de turistas sugiere un potencial de crecimiento en la industria turística, y la exploración de modelos de pronóstico más avanzados podría ayudar a planificar y adaptar estrategias para el futuro.

Recuerda que este informe es un análisis inicial basado en los datos proporcionados. Si tienes alguna pregunta específica o deseas profundizar en algún aspecto en particular, no dudes en preguntar.

Por último le preguntamos a ChatGPT que otras opciones tenemos para realizar la predicción.

Generamos las preguntas a realizar a ChatGPT.
pregunta8: Hemos realizado una predicción de los visitantes a Castilla y León generando un modelo de series temporales basado en el algoritmo ARIMA. ¿Qué otros posibles modelos u algoritmos podemos emplear para realizar la estimación?. La serie temporal tiene una clara estacionalidad y una tendencia alcista.

Además del modelo ARIMA, existen varios otros modelos y algoritmos que puedes considerar para realizar estimaciones en series temporales con clara estacionalidad y tendencia alcista. Algunos de los modelos más comunes son:

SARIMA (Seasonal ARIMA): Este modelo extiende el ARIMA incluyendo componentes de estacionalidad. Puede ser una opción adecuada cuando tu serie temporal muestra patrones estacionales consistentes.

Prophet: Desarrollado por Facebook, Prophet es un modelo de series temporales que puede manejar tendencias, estacionalidades y días festivos. Es especialmente útil para series temporales con patrones complejos y cambios abruptos.

Holt-Winters: También conocido como modelo triple exponencial, es útil para series temporales con tendencia y estacionalidad. Puede ser adaptado a series temporales con una tendencia alcista.

XGBoost y LightGBM: Aunque son algoritmos de aprendizaje automático diseñados principalmente para problemas de regresión, pueden ser utilizados para predecir series temporales. Pueden manejar múltiples características, incluyendo estacionalidad y tendencia.

Redes Neuronales Recurrentes (RNN): Modelos como LSTM (Long Short-Term Memory) y GRU (Gated Recurrent Unit) son capaces de capturar patrones complejos en series temporales, incluyendo tendencias y estacionalidades.

Procesos de media móvil (MA): Además de los modelos ARIMA, puedes explorar modelos basados en procesos de media móvil (MA), que pueden ser adecuados para capturar la tendencia alcista.

Modelos de regresión lineal con transformación de características: Puedes considerar aplicar transformaciones a tus características y luego ajustar un modelo de regresión lineal. Por ejemplo, aplicar una transformación logarítmica a la variable objetivo si tiene una tendencia alcista.

Modelos de regresión no lineal: Si la tendencia alcista es más compleja y no se ajusta bien a un modelo lineal, podrías considerar modelos de regresión no lineal como polinomios de grado superior.

La elección del modelo dependerá de la naturaleza específica de tus datos, la cantidad de datos disponibles, y la complejidad de los patrones temporales. Puedes probar varios modelos y evaluar su rendimiento utilizando métricas como el error cuadrado medio (RMSE), el error absoluto medio (MAE) o el coeficiente de determinación (R^2) en un conjunto de datos de prueba. Recuerda que cada modelo tiene sus propias suposiciones y parámetros que debes ajustar adecuadamente.

Conclusiones análisis actividad turística Castilla y León y uso ChatGPT

Como resumen sobre los datos de analizados podemos indicar:

  • Hemos analizado la evolución temporal de las principales variables turísticas como: viajeros, pernoctaciones, Grado de ocupación, Estancia media, Establecimientos y Plazas. La mayoría de las variables han tenido una evolución similar con una tendencia alcista en el tiempo con bajada y recuperación postpandemia, por otra parte la estancia media se mantiene constante y es relativamente baja en CyL.
  • Se ha analizado la infraestructura turística, viendo las diferencias entre las provincias. León destaca en algergues turísticos (Camino de Santiago), Avila en turismo rural, León y Burgos en alojamientos hoteleros y León en número de restaurantes. Igualmente hemos comprobado que Valladolid es la provincia con RevPAR más alto.
  • Hemos analizado las variables de demanda turística analizando viajeros y pernoctaciones diferenciando españoles y extranjeros, vemos una evolución similar con una tendencia alcista en el tiempo con bajada y recuperación postpandemia. Si nos fijamos en provincias hemos visto que: en pernoctaciones las tres provincias líderes son: León, Salamanca y Burgos. En viajeros extranjeros el líder destacado de los tres es Burgos, mientras que en viajeros españoles la situación es much más igualada. Si nos centramos en pernoctaciones el peso relativo en el grupo de Salamanca aumenta.
  • Hemos profundizado en el turismo extranjero y vemos que Burgos ha sido la provincia con mayor ratio de extranjeros en el periodo analizado seguido de Salamanca, León o Palencia. El Camino de Santiago y la cercanía a Portugal influye en este resultados. En análisis anteriores ya vimos que las nacionalidades más frecuentes son franceses y portugueses. En lo relativo a alojamiemtos vemos que alguergues y campings son los alojamientos más utilizados por extranjeros.
  • Se ha realizado un análisis estadístico para analizar la importancia de las variables provincia y tipo de alojamiento sobre el ratio de extranjeros. Este análisis confirmar mediante pruebas estadísticas lo ya detectado en puntos anteriores.
  • Finalmente revisamos la serie histórica de viajeros en CyL y se realiza una estimación para los meses Agosto, Septiembre, Octubre, Noviembre y Diciembre de 2023.
  • ChatGPT puede ser un asistente valioso para analizar datos y proponer ideas para seguir investigando.