Documentos de Académico
Documentos de Profesional
Documentos de Cultura
PC 3
PC 3
Facultad de ciencias
Área académica de Ingeniería Física
1. (5 Puntos) La data IRIS, es bien conocida por los científicos de datos, los cuales a menudo se
usan para ilustrar las técnicas de clasificación, agrupamiento o visualización. Anderson [1935]
recopiló los datos y Fisher [1936] los analizó, por lo que los estadísticos a menudo los llaman
datos IRIS de Fisher. Los datos consisten en 150 observaciones que contienen cuatro
mediciones basadas en los pétalos y sépalos de tres especies de iris. Estas tres especies son Iris
setosa, Iris virginica e Iris versicolor. Para cargar esta data en el WorkSpace puede usar el
comando load fisheriris.mat, cada columna de la data representa: la longitud de sépalo,
anchura del sépalo, la longitud del pétalo y el ancho del pétalo para 150 muestras de iris. Hay
50 especímenes de cada una de las tres especies.
• Muestre en un histograma bidimensional las variables Longitud de sépalo (X) y
Longitud de pétalo (Y).
• Genere un histograma de dispersión con las 4 variables de la data. Inserte Controles
para especificar las variables. Además, use el tipo de especie de iris como como variable
de agrupación.
• Genere un gráfico de dispersión (gplotmatrix) de todas las variables contenidas en la
tabla, use el tipo de especie de iris como como variables de agrupación.
• Genere un diagrama de coordenadas paralelas con 03 de las 04 variables aleatoriamente
seleccionadas, además use el tipo de especie de iris como como variables de agrupación.
No llegar a destino en el tiempo planeado es una fuente importante de frustración en los viajes
aéreos. El retraso total en la llegada a destino tiene dos componentes principales: la diferencia
entre el tiempo real y el programado gate-to-gate time (ACTUAL_ELAPSED_TIME -
SCHEDULED_ELAPSED_TIME), y el retraso en la partida del vuelo (DEPARTURE_DELAY). Para poner
esto en términos de las variables de la tabla importada en (1):
Usando la data importada, analice ambos componentes del tiempo de retraso de llegada, ¿cuál
es el más importante? Programáticamente (No usar la función rmoutliers), eliminé los valores
que sean menores que el cuartil 1 – 1.5 veces el rango Inter cuartil (Q1-1.5*IQR) y de igual
forma elimine los valores que sea mayores que el cuartil 3 mas 1.5 veces el rango inter-cuartil
(Q3+1.5*IQR). Use la función rmoutliers con los métodos ‘Mean’ y ‘Median’ y muestre cómo
la eliminación de estos valores atípicos afecta su visualización y análisis.