Cuando se trata de análisis de series de tiempo, el remuestreo es una técnica crítica que le permite definir de manera flexible la resolución de los datos que desea. Puede aumentar la frecuencia, como convertir los datos de 5 minutos en datos de 1 minuto (UPSample, aumento en los puntos de datos), o puede hacer al revés (muestra descendente, disminución en los puntos de datos).
Citando las palabras de la documentación, Reample es un «método conveniente para la conversión de frecuencia y el remuestreo de series de tiempo».
En la práctica, hay 2 razones principales por las cuales el uso de reamualización.
- Para inspeccionar cómo los datos se comportan de manera diferente bajo diferentes resoluciones o frecuencia.
- Para unir tablas con diferentes resoluciones.
Sin más preámbulos, ¡ensuciemos nuestras manos y aprendamos de la práctica práctica!
importar pandas como pd import numpy como np
# Crear un rango de 2 meses, resolución de 1 minuto DatateMe datetime = pd.date_range (inicio = '01 -01-2020 ', end = '02 -28-2020', freq = '1min')# Generar un Randome Integer matriz entre 0 y 100 como valor. # Podría ser cualquier variable en su conjunto de datos rand = np.random.randint (100, size = len (dateTime))# Ponlos como un pandas dataFrame df = pd.dataframe ({'datetime': dateTime, 'value': rand}) df.head (10)
- Para inspeccionar cómo los datos se comportan de manera diferente bajo diferentes resoluciones o frecuencia.
- Para unir tablas con diferentes resoluciones.
¿Qué es una serie de tiempo ejemplos?
Una serie Times es un conjunto de datos registrados en los tiempos regulares. Por ejemplo, puede registrar la temperatura al aire libre al mediodía todos los días durante un año.
El movimiento de los datos a lo largo del tiempo puede deberse a muchos factores independientes.
- Tendencia a largo plazo: el movimiento general o la dirección general de los datos, ignorando cualquier efecto a corto plazo, como variaciones cíclicas o estacionales. Por ejemplo, la tendencia de inscripción en una universidad en particular puede ser una subida estable en promedio en los últimos 100 años. Esta tendencia puede estar presente a pesar de tener unos años de pérdida o inscripción estancada, seguido de años de rápido crecimiento.
- Movimientos cíclicos: patrones de oscilación relativamente a largo plazo en los datos. Estos ciclos pueden tardar muchos años en desarrollarse. Hay varios ciclos en economía empresarial, algunos toman 6 años, otros toman medio siglo o más.
- Variación estacional: patrones predecibles de altibajos que ocurren dentro de un solo año y repetir año tras año. Las temperaturas generalmente muestran una variación estacional, cayendo en otoño e invierno y subiendo nuevamente en primavera y verano.
- Ruido: cada conjunto de datos tiene ruido. Estas son fluctuaciones o variaciones aleatorias debido a factores no controlados.
- Factor de tendencia: TT
- Factor cíclico: CT
- Factor estacional: ST
- Factor de ruido: NT
Finalmente, la serie de datos original, YT, consiste en el producto de los factores individuales.
A menudo, solo se necesita uno de los factores oscilantes, CT o ST.
¿Cómo se hacen las series de tiempo?
Los datos de la serie temporal son una colección de cantidades que se ensamblan a intervalos pares en el tiempo y se ordenan cronológicamente. El intervalo de tiempo en el que se recopila datos generalmente se conoce como la frecuencia de la serie temporal.
Por ejemplo, el gráfico de series temporales anteriores traza a los visitantes por mes al Parque Nacional de Yellowstone con las temperaturas mensuales promedio. Los datos varían entre enero de 2014 y diciembre de 2016 y se recopilan a una frecuencia mensual.
Un gráfico de la serie temporal se observó valores en el eje y contra un incremento de tiempo en el eje X. Estos gráficos destacan visualmente el comportamiento y los patrones de los datos y pueden sentar las bases para construir un modelo confiable.
Esto, a su vez, puede ayudar a guiar los métodos de prueba, diagnósticos y estimación utilizados durante el modelado y el análisis de series de tiempo.
“En nuestra opinión, el primer paso en cualquier investigación de la serie temporal siempre implica un escrutinio cuidadoso de los datos registrados trazados con el tiempo. Este
El escrutinio a menudo sugiere el método de análisis también
como estadísticas que serán útiles para resumir la información
en los datos «.
– Shumay y Stoffer
Los retornos de datos medios de revertir, con el tiempo, a una media invariante en el tiempo. Es importante saber si un modelo incluye una media distinta de cero porque es un requisito previo para determinar los métodos de prueba y modelado apropiados.
Por ejemplo, las pruebas de raíz unitaria utilizan diferentes regresiones, estadísticas y distribuciones cuando una constante no cero se incluye en el modelo.
¿Cómo se representan las series de tiempo?
Por convención, la serie temporal se representan a nivel cartesiano. El clima está representado por el eje de abscisa y se mueve de izquierda a la derecha; El orden de las órdenes, por otro lado, representa el valor representado.
Precisamente porque son gráficos muy comunes, usar diferentes sistemas de representación sería contraproducente: en el mejor de las hipótesis requeriría un esfuerzo cognitivo notable del lector, en lo peor que serían incomprensibles.
Sin embargo, puede haber excepciones: este tipo de representación clásica, de hecho, se refiere a todos los casos en los que el tiempo se trata como una variable continua, mientras que demuestra ser mucho menos adecuado para representar el tiempo cuando se trata, sin embargo, como se trata, como una variable discreta. Antes de continuar, será útil comprender esta diferencia.
Una variable continua es una variable que se refiere a una progresión infinita, medida de acuerdo con los intervalos o relaciones pre -establecidas. En el caso del tiempo, pueden ser los días que fluyen, o los meses que pasan, o los años: todas estas son sin duda variables continuas.
El tiempo «continuo» es, por lo tanto, el tiempo que fluye y que nos preocupa medir.
En el nivel de representación, como ya hemos dicho, generalmente usamos el plan cartesiano. En el eje de abscisa por cada año (o día, o mes, o ahora…) eso pasa un honeCare a nuestra escalera, y así sucesivamente hasta que sea potencialmente infinito.
¿Qué es un gráfico de series de tiempo?
Un gráfico de la serie temporal, también llamada gráfica de la serie Times o gráfico de series de tiempo, es una herramienta de visualización de datos que ilustra los puntos de datos a intervalos de tiempo sucesivos. Cada punto en el gráfico corresponde tanto a un tiempo como a una cantidad que se está mediante.
En general, el eje horizontal de la tabla o gráfico se usa para trazar incrementos del tiempo y el eje vertical señala los valores de la variable que se está midiendo. Cuando los valores están conectados en orden cronológico por una línea recta que crea una serie de picos y valles, un gráfico de series de tiempo también puede denominarse gráfico de fiebre.
Se puede considerar una tabla de series de tiempo como una serie de instantáneas que se han tomado a intervalos regulares. La comparación de manzanas a manzanas proporcionadas por este tipo de gráfico lo convierte en una herramienta ideal para paneles ejecutivos que ayudan a los usuarios finales a identificar rápidamente una tendencia, detectar un valor atípico en un patrón cíclico o analizar cómo una métrica clave está cambiando con el tiempo.
Artículos Relacionados:
