Está en la página 1de 9

ANÁLISIS Y PREPROCESAMIENTO DE DATOS

1 DATOS DE MASCOTAS. El siguiente dataset, que llamaremos “mascotas_E1”, es un extracto de un dataset de datos reales de

Nombre Longitud del lomo [c Longitud de la cola [cm] Peso[Kg]


Robert 42.70 6.70 13.86
Vixi 24.30 22.10 4.78
Kira 29.60 25.70 2.26
Estrellita 28.40 18.30 6.12
Yuki 35.50 15.60 6.45
Sofia 19.30 3.20 4.40

a) ¿Cuál cree usted que sea la variable independiente? (NOTA: este dataset es utilizado para entrenar un algoritmo denominad
R: Clase

b) Calcule la media de la variable “Peso” para las mascotas de clase “perro”.

Suma Pesos: 30.83

Media: 7.70825

c) Cree una nueva variable “RatioCL”, en la que ubicará la división entre la longitud de la cola y la longitud del del lomo para
cada animal. Por ejemplo, para Robert el ratio cola/lomo será 6.7/42.7 = 0.1569. ¿Cuál es la media de dicha variable, para los

Suma RatioCL: 1.40651459081508 Perros: 4

Media: 0.351628647703771

d) ¿Cuál es la media de la variable “RatioCL” para los gatos?

Suma RatioCL 1.77770826381938 Gatos: 2

Media: 0.888854131909687

e) Tome el conjunto de todas las mascotas del dataset mascotas_E1. ¿Cuál es la mediana de la variable “Longitud de la cola”?

3.20
6.70
15.60 Mediana:
18.30 16.95
22.10
25.70
f) ¿Qué porcentaje de mascotas tiene un peso menor o igual que Estrellita?

Peso 100% 37.87

60.00 %

g) Ordenando los valores de la variable “Peso” y añadiendo una columna de frecuencia acumulativa, “F”,
se tiene una tabla que se puede usar para el cálculo de los quintiles. A continuación se muestra un extracto de dicha tabla:

Nombre Longitud del lomo [cm] Longitud de la cola [cm]


Robert 42.70 6.70
Vixi 24.30 22.10
Kira 29.60 25.70
Estrellita 28.40 18.30
Yuki 35.50 15.60
Sofia 19.30 3.20

Con esta información, calcule el quintil Q3 de la variable Peso.

Total pesos: 6
Q3
posicion: 3.6 6.12

h) Calcule el rango intercuartil de la variable Peso.

i) Reescriba la tabla de datos de mascotas pero reemplazando la variable categórica por una variable numérica de etiquetas: “

Nombre Longitud del lomo [cm] Longitud de la cola [cm]


Robert 42.70 6.70
Vixi 24.30 22.10
Kira 29.60 25.70
Estrellita 28.40 18.30
Yuki 35.50 15.60
Sofia 19.30 3.20

j) Reescriba la tabla de datos de mascotas pero reemplazando la variable categórica por dos variables dummy “Perro” y “Gato
Nombre Longitud del lomo [cm] Longitud de la cola [cm]
Robert 42.70 6.70
Vixi 24.30 22.10
Kira 29.60 25.70
Estrellita 28.40 18.30
Yuki 35.50 15.60
Sofia 19.30 3.20

2 DATOS DE ESTADOS. El siguiente dataset, que llamaremos “statesx77_E2”, es otro extracto del dataset mencionado en clase

State Popullation Income Illiteracy


Alabama 3615 3624 2.1
Alaska 365 6315 1.5
Arizona 2212 4530 1.8
1.9
1.1
0.7

Media: 1.51666667

a) Media de la variable Income e) Desviación estándar de la variable Income

Media: 4823 ds=

b) Media de la variable Murder f) Desviación estándar de la variable Murder

Media: 11.4 ds=

c) Varianza de la variable Income g) Coeficiente de correlación de Pearson entre las variables In


Media income: 4823
Media: 4823 Income
3624
v= 1249838 6315
4530
d) Varianza de la variable Murder
Media: 11.4

v= 8.88666666666667

r=

h) Normalice la variable Income, creando una nueva variable “Income(norm) ”

4823 Income
3624
6315
4530

i) Estandarice la variable Life Exp, creando una nueva variable “Life Exp(stand) ”

Life Exp Life Exp Stand


69.05 -0.896373608520041
69.31 -0.499117122925928
70.55 1.39549073144595

69.6366666666667

0.428355555555554 0.654488774201326
acto de un dataset de datos reales de mascotas de sus compañeros de semestres pasados:

Clase RatioCL
perro 0.15690867
gato 0.90946502
gato 0.86824324
perro 0.6443662
perro 0.43943662
perro 0.16580311

ara entrenar un algoritmo denominado “de clasificación”)

cola y la longitud del del lomo para


s la media de dicha variable, para los perros?

de la variable “Longitud de la cola”?


cumulativa, “F”,
uestra un extracto de dicha tabla:

Peso[Kg] F
2.26 0
4.40 0.2
4.78 0.4
6.12 0.6
6.45 0.8
13.86 1

una variable numérica de etiquetas: “1” para gatos y “2” para perros.

Peso[Kg] Clase
13.86 2
4.78 1
2.26 1
6.12 2
6.45 2
4.40 2

dos variables dummy “Perro” y “Gato”


Peso[Kg] perro gato
13.86 1 0
4.78 0 1
2.26 0 1
6.12 1 0
6.45 1 0
4.40 1 0

acto del dataset mencionado en clase:

Murder Dx Dy Prod1 Dx2 Dy2


15.1 0.5833333 4.866667 2.83888889 0.34027778 23.684444
11.3 -0.0166667 1.066667 -0.01777778 0.00027778 1.137778 16
7.8 0.2833333 -2.433333 -0.68944444 0.08027778 5.921111 14
10.1 0.3833333 -0.133333 -0.05111111 0.14694444 0.017778 12
10.3 -0.4166667 0.066667 -0.02777778 0.17361111 0.004444
10
6.8 -0.8166667 -3.433333 2.80388889 0.66694444 11.787778
8
4.85666667 1.40833333 42.553333
10.2333333 7.741400247 6
num den 4
2
r= 0.62736282 efecto grande 0
0.6 0.8
e la variable Income

1117.96153779994

e la variable Murder

2.98105126870818

ción de Pearson entre las variables Income y Murder


Media Murder: 11.4
Murder Dx Dy Prod1 Dx2 Dy2
15.1 -1199 3.7 -4436.3 1437601 13.69
11.3 1492 -0.1 -149.2 2226064 0.01
7.8 -293 -3.6 1054.8 85849 12.96

-3530.7
3749514 26.66
9998.10198

-0.353137026047556

norm
Xi
-0.445559271646228
0.554440728353772
-0.108881456707544
Murder
16
14
12
10
8
6
4
2
0
0.6 0.8 1 1.2 1.4 1.6 1.8 2 2.2

Murder

También podría gustarte