2. Análisis actividad turística CyL¶
En este segundo apartado nos centramos en los datos de Castilla y León y profundizamos en las métricas relacionadas con el turismo.
La mayoría de la información es esta apartado va a ser obtenida del portal de datos abiertos de la Junta de Castilla y León
El portal de datos abiertos de CyL ofrece muchos datos relativos a la actividad turística sobre infraestructura, demanda, oferta, etc.. Vamos a trabajar con las siguientes fuentes de datos:
2.1 Análisis de las principales variables turísticas¶
Este análisis se basa en los datos sobre las principales variables turísticas que ofrece el portal de datos abiertos de la Junta de Castilla y León
Analizamos las principales variables turísticas de CyL: viajeros, pernoctaciones, Grado de ocupación, Estancia media, Establecimientos y Plazas
En el fichero descargamos la serie de 1995 a 2022. Aunque hay datos de 2023, llegamos hasta 2022 para trabajar con años cerrados.
Esta es una muestra de los datos del fichero:
El portal de datos abiertos de la Junta de CyL sobre variables turísticas tiene una serie histórica muy amplia (desde 1995), nos quedamos con el periodo 2012-2022
Agregamos la información por año, los campos 'Total viajeros', 'Total pernoctaciones' los agregamos a nivel de año y sobre el resto de campos obtenemos el valor medio por año: 'Grado de ocupación', 'Estancia media', 'Establecimientos', 'Plazas'.
En primer lugar, nos centramos en las variables relacionadas con la demanda como el número de viajeros y las pernoctaciones y vemos su evolución temporal
Vemos una evolución positiva y ascendente del número de viajeros y pernoctaciones en CyL en el periodo 2012-2022 quitando la bajada coyuntural de 2020 debida al covid19.
A continuación, nos centramos en variables también relacionadas con la demanda como el grado de ocupación media y estancia media
Observamos que mientras la variable grado de ocupación sigue una evolución similar a número de viajeros y pernoctaciones, la variable estancia media se mantiene constante a lo largo del tiempo. Son estancias medias cortas quizás derivadas del tipo de turismo que recibe CyL: turismo rural, gastronómico, actividades, eventos y festivales, también del turismo de fin de semana de cercanía (Comunidad de Madrid). Es curioso comprobar como la pandemia del covid19 no modificó la duración de las estancias de los turistas.
A continuación, nos centramos en las variables relacionadas con la capacidad como los establecimientos y las plazas
La evolución de los establecimiento y las plazas ha sido ascendente a los largo del tiempo adaptandose al incremento en la demanda (salvo el tramo de bajada de viajeros y pernoctaciones debido al covid19)
Realizamos un análisis de correlaciones en el que incluímos todas las variables
Obtenemos un mapa de calor para visualizar las correlaciones obtenidas
En un color rojo fuerte están las correlaciones positivas fuertes (valor próximo a 1) y en color claro las correlaciones positivas débiles (valor próximo a 0). En color azulado las correlaciones negativas (valor menor a 0). Los valor de la diagonal son las correlaciones de una variable con ella misma que no revisamos, en el resto encontramos lo siguiente:
- Correlación muy alta positiva entre los establecimientos y las plazas, lo cual tiene todo el sentido.
- Correlación muy alta positiva entre los viajeros y las pernoctaciones, lo cual tiene todo el sentido.
- Correlación media-baja positiva (valores entorno 0,4) entre el grado de ocupación y los viajeros y las pernoctaciones
- Correlación media-baja positiva (valores entorno 0,4) entre los establecimientos y plazas y los viajeros y las pernoctaciones
- Correlación media-baja negativa (valores entorno -0,4) entre el grado de ocupación y los establecimientos y plazas.
- La estancia media tiene una correlación débil con el resto de variables.
Lógicamente el grado de ocupación es un ratio que aumenta al aumentar los viajeros/pernoctaciones y disminuye al aumentar las plazas/establecimiento. Por otro lado al crecer el número de viajeros/pernoctaciones se tiende a aumentar la capacidad de la infraestructura turística y por ello aumenta las plazas/establecimiento
2.2 Análisis infraestructura turística¶
Este análisis se basa en los datos de infraestructura turística del sistema SIE del portal de datos abiertos de la Junta de CyL.
Analizamos las principales variables de infraestructura turísticas de CyL: agencias_viaje,albergues_turisticos,alojamientos turismo rural, alojamientos hoteleros, apartamentos turisticos, cafeterias, restaurantes, campings, empresas turismo activo, otras actividades turisticas y viviendas_turisticas
La información está obtenida a Diciembre de 2022. Hay datos más recientes, pero tomamos esta fecha de referencia para poder contrastar con los resultados del análisis anterior en el que llegamos hasta 2022.
Tenemos esta información para las diferentes provincias de CyL: Ávila, Segovia, Burgos, León, Valladolid, Palencia, Salamanca, Zamora y Soria.
Esta es una muestra de los datos del fichero:
Añadimos datos de población de cada provincia
Algunas cuestiones interesantes que podemos ver en la tabla:
- León es lider destacado en algergues turísticos, posiblemente a ser punto de paso común en el Camino de Santiago.
- Ávila es lider destacado en alojamientos de turismo rural y en empresas de turismo activo, posiblmente debido a las características de naturaleza de sus pueblos.
- León y Burgos son líderes en alojamientos hoteleros, por encima incluso de provincias con más población como Valladolid.
- En lo relativo a gastronomía León destaca por su alto número de restuarantes y muestra el atractivo gastronómico de la provincia.
- Es notable el número de apartamentos y viviendas turísticas en todo CyL mostrando el desarrollo de este tipo de alojamientos que es generalizado en toda España.
Rentabilidad hotelera (RevPAR)¶
Una métrica muy utilizada en la industria hotelera es el RevPAR, ingresos por habitación disponible que es uno de los indicadores de rentabilidad hotelera.
En el INE tenemos una interesante fuente de datos como es: Ingresos por habitación disponible (RevPAR) por comunidades autónomas y provincias, que vamos a utilizar para conocer la rentabilidad hotelera en CyL. Bajamos los datos con el RevPAR medio de 2022.
Esta es una muestra de los datos del fichero:
Vemos como claramente es Valladolid la provincia con un RevPAR más alto, seguida de Segovia y Burgos
2.3 Análisis demanda turística¶
Este análisis se basa en los datos del boletín de coyuntura Demanda turística del portal de datos abiertos de la Junta de CyL
Los datos del boletín de coyuntura turísticas relativo a la demanda contiene variables ya analizadas previemente tales como: viajeros, pernoctaciones, Grado de ocupación, Estancia media, Establecimientos y Plazas, pero añade también información de los tipos de alojamientos, está desglosada por provincia y además diferencia turistas extranjeros y españoles.
Esta es una muestra de los datos del fichero:
Eliminamos los totales ('Todos alojamientos').
El portal de datos abiertos de la Junta de CyL sobre variables turísticas tiene una serie histórica muy amplia (desde 2000), nos quedamos con el periodo 2012-2022
En primer lugar queremos analizar la evolución de las variables turísticas relacionadas con los viajeros y las pernoctaciones desglosado por provincia
Agregamos la información por provincia y año de los campos 'Viajeros', 'Pernoctaciones'. Los campos que contienen valores medios no los vamos a considerar en la agregación, ya que para calcular valores medios a nivel de año deberíamos saber el peso de cada subgrupo en los valores medios (ejemplo subgrupos: tipo_alojamiento, subtipo_alojamiento).
Analizamos la evolución temporal de viajeros, pernoctaciones, grado de ocupación y estancia media, diferenciada por provincias.
Observamos lo siguiente para el periodo analizado (2012-2022):
- En lo relativo a viajeros y pernoctaciones las tres provincias líderes son: León, Salamanca y Burgos.
- Si nos centramos en viajeros extranjeros el líder destacado de los tres es Burgos, mientras que en viajeros españoles la situación es much más igualada
- Si nos centramos en pernoctaciones el peso relativo en el grupo de Salamanca aumenta.
A continuacion nos interesa profundizar en el turismo extranjero con el objetivo de analizar qué tipo de turismo y provincias de CyL son más atractivas para el turista extranjero.
Primero vamos a analizar la relación entre las provincias y el turismo extranjero.
Agrupamos por provincia para obtener el agregado de viajeros (españoles, extranjeros y total)
Obtenemos el ratio de extranjeros, diviendo el número de viajeros extranjeros por el total de viajeros
Observamos que claramente es Burgos la provincia de CyL que mayor porcentaje de extranjeros recibe sobre el total de viajeros en el periodo 2012-2022
Comprobamos si la tendencia se mantiene a lo largo de los años
Efectivamente Burgos ha sido la provincia con mayor ratio de extranjeros en el periodo 2012 a 2022 seguido de Salamanca, León o Palencia
Es muy posible que la situación geográfica de estas provincias en el entorno del Camino de Santiago (León, Burgos), cerca de Portugal (Salamanca) o en rutas Francia - Portugal influya en este resultado.
Realizamos un análisis similar sobre el turismo extranjero, pero por tipo de alojamiento.
El tipo de alojamiento con mayor porcentaje de extranjeros son los albergues seguramente debido a la influencia del Camino de Santiago, sin embargo encontramos un ratio muy bajo en el turismo rural, atractivo turístico de CyL con gran afluencia de españoles.
Los análisis realizados nos permiten conocer mejor las preferencias de los turistas extranjeros y el papel clave del Camino de Santiago y la cercanía a Portugal y Francia. Volvemos a recurrir a ChatGPT para encontrar claves que ayuden a promocionar el turismo extranjero en CyL.
Generamos las preguntas a realizar a ChatGPT.
pregunta6: "Una vez realizado un análisis del turismo en Castilla y León (CyL), encontramos las siguientes claves respecto
al turismo extranjero:
- La nacionalidad más frecuente en CyL son franceses y portugues, mientras que a nivel de toda España lo son: Reino Unido, Alemania y Francia. Seguramente influya en este hecho la cercanía de CyL a Francia y Portugal.
- El Camino de Santiago es donde más extranjeros encontramos en CyL, siendo Burgos, Salamanca y León las ciudades con mayor ratio de turistas extranjeros frente a los turistas españoles.
- CyL es líder en turismo rural si nos fijamos en el turista español, pero baja notablemente en lo relativo a turistas de extranjeros superado por otras comunidades como: Baleares, Andalucía y Cataluña
- El tipo de turismo que ofrece CyL es turismo rural, cultural, gastronómico, enológico y de naturaleza.
- A nivel de infraestructuras hay una notable capacidad para todos los tipos de alojamiento.
Con toda esta información, me gustaría ver formas de promocionar el turismo de CyL entre los visitantes extranjeros de el Camino de Santiago, ¿qué estrategias podemos seguir?"
A continuación empleamos técnicas estadísticas para analizar la relación entre las variables. Según el análisis anterior hemos podido comprobar que hay provincias y tipos de alojamientos con un mayor porcentaje de extranjeros, concretamente en lo relativo a provincias Burgos y Salamanca tienen un porcentaje mayor y en lo relativo a tipo de alojamientos los albergues y los campings. Vamos a apoyarnos en la prueba estadística Chi Cuadrado para validar de una manera formal que está relación entre variables (porcentaje extranjeros vs provincia y tipo alojamiento) existe.
Nos centramos en los datos de 2022 y generamos un conjunto de datos con las variables de interés: provincia, tipo alojamiento, mes y los datos de viajeros. Añadir el mes nos permitirá ver si el mes tiene algún efecto.
Para realizar la prueba Chi Cuadrado necesitamos convertir las variables de tipo cadena a numérico. Obtenemos unas nuevas variables sintéticas también llamadas variables dummy que toman como posibles valores 0 o 1. Por ejemplo provincia='Burgos' -> Provincia_Burgos = 1.
Sobre la variable que contiene el porcentaje de extranjeros, obtenemos una variable de clasificación con tres posibles valores sobre el nivel de extranjeros:
- 1: nivel bajo, porcentaje inferior al 10%
- 2: nivel medio, porcentaje entre 10% y 25%
- 3 nivel alto, porcentaje superior al 25%.
Necesitamos tener la variable de ratio de extranjeros como variable de clasificación para la prueba Chi Cuadrado
Creamos dos grupos de variables las predictoras (mes, provincia, tipo alojamiento) y las variable a predecir (ratio extranjeros). La prueba Chi cuadrado comprobará si hay dependencia entre la variable a predecir y las predictoras
Obtenemos el resultado de la prueba Chi Cuadrado con los scoring indicando las variables predictoras con mayor relación frente a la variable a predecir.
Obtenemos el P-Value para validar la fiabilidad del resultado, debe tener un valor inferior a 0,05.
El resultado de la prueba Chi Cuadrado cuadra con lo que habíamos visto anteriormente, ya que nos muestra que a nivel de provincia los valores que más importancia tienen para predecir el ratio de extranjeros son: Burgos, Soria y Ávila. Este resultado cuadra con lo analizado anteriormente ya que Burgos es el que tiene un mayor ratio y Soria y Ávila las que menor ratio tienen, de modo que estos valores ayudan a predecir, tanto porque están asociados a ratios altos como a ratios bajos. Algo similar encontramos en los tipos de alojamientos: Albergues, Camping (valores altos del ratio) y Hoteles y turismo rural (valores bajos). De igual modo, la prueba Chi Cuadrado nos muestra que el mes no tiene efecto en el ratio de extranjeros.
Series temporales: predicción viajeros próximos periodos¶
A continuación analizamos la evolución temporal del número de viajeros para el conjunto de CyL.
En primer lugar, agregamos los datos a nivel de 'Fecha' para obtener esta serie temporal. Nos quedamos con los años posteriores a 2019.
En el gráfico se puede ver claramente la estacionalidad del turismo con pico en Julio y Agosto y valle en Enero. Igualmente vemos el descenso provocado por el covid19 (2020 y 2021) y desde 2022 una tendencia alcista clara.
Tomamos esta serie histórica para generar un modelo de series temporales basado en ARIMA para tratar de predecir los viajeros de los próximos meses. Vamos a usar los datos desde 2019 hasta la actualidad.
Vamos a emplear un modelo llamado autoarima que realiza un ajuste automático de coeficientes.
En la serie tenemos hasta 202307, intentamos predecir los próximos 5 periodos: 202308, 202309, 202310, 202311 y 202312.
Esta es la predicción de viajeros para los periodos indicados:
Lo visualizamos en la gráfica con la serie temporal completa
La línea azul es la serie histórica (desde 2019-01 hasta 2023-07) y la línea roja es la predicción (desde 2023-08 hasra 2023-12). El modelo parace haber "pillado" bien la tendencia y estacionalidad en la predicción a primera vista no parece mala. Hay que tener en cuenta que aunque la serie en los últimos dos años tiene una estacionalidad y tendencia clara, al trabajar con datos desde 2019 también intervienen los periodos de los años de covid19, lo cual dificulta obtener un patrón general.
Concretamente los datos de la predicción son:
Esperamos que la predicción realizada se equivoque y sean más los turistas que visiten CyL los próximos meses
Recurrimos a ChatGPT para realizar un último análisis de los datos.
Generamos las preguntas a realizar a ChatGPT.
pregunta7: Adjuntamos los datos de evolución de los turistas en Castilla y León en el periodo de 2019 a 2022. \nMe gustaría que me hicieras un informe sobre los mismos.\nDATOS: Fecha Viajeros\n0 2019-01 387199\n1 2019-02 467211\n2 2019-03 595289\n3 2019-04 788566\n4 2019-05 812511\n5 2019-06 864561\n6 2019-07 867353\n7 2019-08 1199543\n8 2019-09 870060\n9 2019-10 800461\n10 2019-11 639688\n11 2019-12 614484\n12 2020-01 440226\n13 2020-02 530752\n14 2020-03 223135\n15 2020-04 0\n16 2020-05 12656\n17 2020-06 96672\n18 2020-07 437556\n19 2020-08 516707\n20 2020-09 292947\n21 2020-10 205905\n22 2020-11 88453\n23 2020-12 79551\n24 2021-01 57114\n25 2021-02 67786\n26 2021-03 136280\n27 2021-04 157426\n28 2021-05 242658\n29 2021-06 405990\n30 2021-07 644699\n31 2021-08 1012502\n32 2021-09 671496\n33 2021-10 717207\n34 2021-11 454528\n35 2021-12 410167\n36 2022-01 281451\n37 2022-02 389633\n38 2022-03 449376\n39 2022-04 681947\n40 2022-05 692687\n41 2022-06 744246\n42 2022-07 862818\n43 2022-08 1247844\n44 2022-09 805617\n45 2022-10 741718\n46 2022-11 547819\n47 2022-12 478501\n48 2023-01 358730\n49 2023-02 431297\n50 2023-03 561726\n51 2023-04 840546\n52 2023-05 799988\n53 2023-06 836579\n54 2023-07 904171. La variable Fecha contiene el mes en el que se han registrado \nlos datos en formato yyyy-mm y la variable Viajeros los turistas que visitan Castilla y León ese mes
Por último le preguntamos a ChatGPT que otras opciones tenemos para realizar la predicción.
Generamos las preguntas a realizar a ChatGPT.
pregunta8:
Hemos realizado una predicción de los visitantes a Castilla y León generando un modelo de series
temporales basado en el algoritmo ARIMA. ¿Qué otros posibles modelos u algoritmos podemos emplear
para realizar la estimación?. La serie temporal tiene una clara estacionalidad y una tendencia alcista.
Conclusiones análisis actividad turística Castilla y León y uso ChatGPT¶
Como resumen sobre los datos de analizados podemos indicar:
- Hemos analizado la evolución temporal de las principales variables turísticas como: viajeros, pernoctaciones, Grado de ocupación, Estancia media, Establecimientos y Plazas. La mayoría de las variables han tenido una evolución similar con una tendencia alcista en el tiempo con bajada y recuperación postpandemia, por otra parte la estancia media se mantiene constante y es relativamente baja en CyL.
- Se ha analizado la infraestructura turística, viendo las diferencias entre las provincias. León destaca en algergues turísticos (Camino de Santiago), Avila en turismo rural, León y Burgos en alojamientos hoteleros y León en número de restaurantes. Igualmente hemos comprobado que Valladolid es la provincia con RevPAR más alto.
- Hemos analizado las variables de demanda turística analizando viajeros y pernoctaciones diferenciando españoles y extranjeros, vemos una evolución similar con una tendencia alcista en el tiempo con bajada y recuperación postpandemia. Si nos fijamos en provincias hemos visto que: en pernoctaciones las tres provincias líderes son: León, Salamanca y Burgos. En viajeros extranjeros el líder destacado de los tres es Burgos, mientras que en viajeros españoles la situación es much más igualada. Si nos centramos en pernoctaciones el peso relativo en el grupo de Salamanca aumenta.
- Hemos profundizado en el turismo extranjero y vemos que Burgos ha sido la provincia con mayor ratio de extranjeros en el periodo analizado seguido de Salamanca, León o Palencia. El Camino de Santiago y la cercanía a Portugal influye en este resultados. En análisis anteriores ya vimos que las nacionalidades más frecuentes son franceses y portugueses. En lo relativo a alojamiemtos vemos que alguergues y campings son los alojamientos más utilizados por extranjeros.
- Se ha realizado un análisis estadístico para analizar la importancia de las variables provincia y tipo de alojamiento sobre el ratio de extranjeros. Este análisis confirmar mediante pruebas estadísticas lo ya detectado en puntos anteriores.
- Finalmente revisamos la serie histórica de viajeros en CyL y se realiza una estimación para los meses Agosto, Septiembre, Octubre, Noviembre y Diciembre de 2023.
- ChatGPT puede ser un asistente valioso para analizar datos y proponer ideas para seguir investigando.