Está en la página 1de 2

Universidad Nacional de Ingeniería

Facultad de ciencias
Área académica de Ingeniería Física

Procesamiento de Señales y Datos


IF3B2 A
Practica Calificada N° 3

1. (5 Puntos) La data IRIS, es bien conocida por los científicos de datos, los cuales a menudo se
usan para ilustrar las técnicas de clasificación, agrupamiento o visualización. Anderson [1935]
recopiló los datos y Fisher [1936] los analizó, por lo que los estadísticos a menudo los llaman
datos IRIS de Fisher. Los datos consisten en 150 observaciones que contienen cuatro
mediciones basadas en los pétalos y sépalos de tres especies de iris. Estas tres especies son Iris
setosa, Iris virginica e Iris versicolor. Para cargar esta data en el WorkSpace puede usar el
comando load fisheriris.mat, cada columna de la data representa: la longitud de sépalo,
anchura del sépalo, la longitud del pétalo y el ancho del pétalo para 150 muestras de iris. Hay
50 especímenes de cada una de las tres especies.
• Muestre en un histograma bidimensional las variables Longitud de sépalo (X) y
Longitud de pétalo (Y).
• Genere un histograma de dispersión con las 4 variables de la data. Inserte Controles
para especificar las variables. Además, use el tipo de especie de iris como como variable
de agrupación.
• Genere un gráfico de dispersión (gplotmatrix) de todas las variables contenidas en la
tabla, use el tipo de especie de iris como como variables de agrupación.
• Genere un diagrama de coordenadas paralelas con 03 de las 04 variables aleatoriamente
seleccionadas, además use el tipo de especie de iris como como variables de agrupación.

2. (5 Puntos) Use la función importFlightsData para importar los datos de vuelos


correspondientes al mes dado por la suma de los dos últimos dígitos numéricos de su código
UNI. Sea Suma = la suma de los dígitos indicado entonces si Suma=1: importe Enero, Suma=2:
importe Febrero, Suma=3: importe Marzo …, Suma=13: importe Enero, Suma=14: importe
Febrero, Suma=15: importe Marzo … y responda lo siguiente:

No llegar a destino en el tiempo planeado es una fuente importante de frustración en los viajes
aéreos. El retraso total en la llegada a destino tiene dos componentes principales: la diferencia
entre el tiempo real y el programado gate-to-gate time (ACTUAL_ELAPSED_TIME -
SCHEDULED_ELAPSED_TIME), y el retraso en la partida del vuelo (DEPARTURE_DELAY). Para poner
esto en términos de las variables de la tabla importada en (1):

ARRIVAL_DELAY = DEPARTURE_DELAY + (ACTUAL_ELAPSED_TIME - SCHEDULED_ELAPSED_TIME)

Usando la data importada, analice ambos componentes del tiempo de retraso de llegada, ¿cuál
es el más importante? Programáticamente (No usar la función rmoutliers), eliminé los valores
que sean menores que el cuartil 1 – 1.5 veces el rango Inter cuartil (Q1-1.5*IQR) y de igual
forma elimine los valores que sea mayores que el cuartil 3 mas 1.5 veces el rango inter-cuartil
(Q3+1.5*IQR). Use la función rmoutliers con los métodos ‘Mean’ y ‘Median’ y muestre cómo
la eliminación de estos valores atípicos afecta su visualización y análisis.

3. (6 Puntos) Use los mismos datos importados en la pregunta 2 y haga lo siguiente:


a. Filtre la tabla para incluir solo vuelos de San Francisco (SFO) a Los Ángeles (LAX).
Considere la columna AIR_TIME que contiene los minutos que estuvo un vuelo en el aire.
Es probable que haya una variación natural en el tiempo de vuelo de SFO a LAX por encima y
por debajo de un promedio, por lo que se puede esperar que estos datos tengan una
distribución normal. Haga un histograma de la columna AIR_TIME, elimine las filas que
contienen valores atípicos, use el método apropiado para este tipo de distribuciones. Rehacer
el histograma sin valores atípicos. Normalice la columna AIR_TIME utilizando el método z-
score. Vuelva a hacer el histograma de los datos normalizados. Repita el mismo
procedimiento y normalice la columna DEPARTURE_DELAY. Observe que el rango de
esta variable, lo que sugiere que la normalización por z-score puede ser inapropiada para
estos datos muy sesgados, evalúe otros métodos.
b. Use la función hour() con la variable de tiempo SCHEDULED_DEPARTURE para obtener
la hora en la que se programó la salida de los vuelos y cree la variable
DEPARTURE_HOUR. La tasa de vuelos es bastante constante durante todo el día, lo que
produce una distribución uniforme. Para una distribución uniforme u otro tipo de
distribución que tenga un máximo y un mínimo bien definidos, el método de "range" es una
buena opción, utilizando este meto normalice la data, grafique en un histograma la data
normalizada.

4. (4 Puntos) Se tiene un conjunto de lecturas de temperatura en grados Celsius tomadas cada


hora en el aeropuerto de Logan durante todo el mes de enero de 2011 (TempLog.mat). De ser
necesario, elimine los datos atípicos. Evalúe los distintos métodos vistos en clase para suavizar
la data y obtenga la temperatura promedio cada 12 horas (muestre gráficamente), evalúe al
menos 03 métodos, cual considera que es el más adecuado.

UNI, 19 de mayo de 2021


Prof. Luis Sánchez

También podría gustarte