Está en la página 1de 52

¿TIENE ARETES

MEDIDA MANO ¿TIENE Longitud oreja


NOMBRE O
DERECHA HERMANOS? (cm)
EXPANSIONES ?

Agudelo Luisa 16.4 1 SI 64


arango jesus 20.4 3 no 66,4
arias esteban 17.3 1 NO 63,3
ayala luis 17.9 2 no 64,7
bernal juan 19.5 2 no 64,05
carvajal felipe 18.7 1 no 62,3
carvajal kevin 18.7 3 no 64,65
castrillon edwin 17.5 2 no 61,91
chavarro cristian 18 3 no 60,6
correa mario 18.3 1 no 65,8
gil jhon freddy 18.6 1 no 64,45
ibarra sebastian 18 2 NO 74,2
mafla bryan 17.2 1 no 59,9
martinez alonso 18.5 1 no 60,5
molina nicolas 18.5 2 no 55,9
muñoz gustavo 17.3 2 no 60,4
pinzon omar 19.2 0 no 67,05
ramirez sarah 16.3 1 si 63,3
rincon cristian 17.7 3 SI 60,95
rubiano mauricio 18.2 2 si 64
sanchez kevin 17.5 3 NO 60,25
sierra juan 17.5 2 si 55,2
herrera jorge 17 1 no 63,6
Genero

TALLA
Mascota?/ RELOJ ESTADO CIVIL PANTALON Peso(kg) femenino
Color capilar
cuál? (CM)

Si/gato Rubio SI EN RELACION 81 62 X


si/gato negro NO SOLTERO 77 60
No Negro SI SOLTERO 88 64
no castaño NO SOLTERO 88 65
No Negro SI SOLTERO 81 68
castaño NO SOLTERO 86 72
si/perro
oscuro
No Negro NO EN RELACION 84 77
Castaño NO SOLTERO 97 75
Si/perro
claro
Gato Negro NO SOLTERO 100 81
Castaño SI EN RELACION 98 83
Si/gato
claro
Si/perro Castaño SI NOVIAZGO 83 66
si/perro negro SI SOLTERO 84 83
Si/perro-gato Negro NO SOLTERO 92 65
Si/perro Negro NO SOLTERO 84 79
No Negro SI SOLTERO 96 70
No Negro NO NOVIAZGO 105 77
Si/peces Negro SI SOLTERO 83 97
Si/perro-gato Negro NO SOLTERO 90 49 X
Si/gato Negro NO SOLTERO 89 60
No Negro NO SOLTERO 92 75
si/lora castaño NO EN RELACION 75 49
si/perro negro NO SOLTERO 81 65
Castaño NO SOLTERO 100 61
Si/perro
oscuro
Genero Nivel de ingles

masculino A1 A2 B1 B2 Gafas Estatura Edad(Años)

X si 1,61 26
X X no 1,80 20
X X si 1,68 18
X X si 1,73 22
X X no 1,71 18
X X no 1,85 18
X X no 1,77 22
X X no 1,73 20
X X no 1,70 27
X X no 1,80 21
X X no 1,68 20
X X si 1,75 20
X X no 1,69 19
X X no 1,82 29
X X no 1,77 18
X X no 1,71 28
X X si 1,85 28
X no 1,60 22
X X no 1,65 24
X X no 1,75 21
X X no 1,69 19
X X no 1,70 18
X X no 1,65 22
TAMAÑO PIE
ESTATURA PROMEDIO BARBA (SI/NO) COLOR OJOS (cm)

HECTOR ALONSO 1.87 3.8 NO CAFÉ OSCURO 30


ESTEVAN ASCUNTAR 1.68 3.8 NO CAFÉ OSCURO 27
DIEGO ATEHORTUA 1.74 3.6 NO CAFÉ OSCURO 28
PABLO BUITRAGO 1.74 4.1 NO CAFÉ CLARO 26
RAFAEL CADENA 1.83 3.8 SI CAFÉ CLARO 31
WILSON CHARHFELAN 1.6 3.6 NO NEGRO 26
SANTIAGO GALLEGO 1.75 3.5 NO CAFÉ CLARO 28
LUIS GRANDAS 1.72 3.7 NO CAFÉ CLARO 27
ESTEPHAN GRISALES X X X
SEBASTIAN HINCAPIE 1.77 3.4 SI CAFÉ OSCURO 27
JUAN DAVID JARAMILLO 1.63 4 NO NEGRO 26
MANUELA MARIN 1.6 4 NO CAFÉ OSCURO 25
SALOMON MARTINEZ 1.68 3.9 NO CAFÉ OSCURO 28
KEVIN MUÑOZ 1.75 3.8 SI CAFÉ OSCURO 28
ALEJANDRO ORDOÑEZ 1.86 3.7 NO CAFÉ OSCURO 31
DANIEL OROZCO X X X
JUAN ORTEGA 1.72 3.6 SI NEGRO 28
CARLOS PESCADOR 1.7 3.7 NO NEGRO 25
JOSEPH RAMIREZ 1.65 3.5 SI CAFÉ CLARO 28
JESUS ROMERO 1.75 3.6 SI CAFÉ CLARO 28
RICHARD RUANO 1.85 3.5 SI CAFÉ OSCURO 29
SEBASTIAN SANCHEZ 1.73 3.8 NO NEGRO 28
JUAN VASCO 1.74 3.4 SI CAFÉ CLARO 29
DANIEL VASQUEZ 1.58 3.5 NO CAFÉ CLARO 26
AZARIAS CARMONA 1.76 3.8 SI CAFÉ CLARO 30
19
DE PIEL (ESCALA MEDIDA DE LA
DEPORTE SEMESTRE GÉNERO PESO [kg] COLOR PALMA DE LA MASCOTA
FITZPATRICK) MANO (cm)

BALONCESTO 5 Masculino 80.2 III 17.5 NO


FUTBOL 6 Masculino 84.9 VI 18 NO
FUTBOL 5 Masculino 91.6 IV 18 GATO
TEKENDO 7 Masculino 57.4 III 17.5 NO
TEJO 6 Masculino 88.5 II 19 NO
FUTBOL 4 Masculino 53.7 III 16 PERRO
ULTIMATE 6 Masculino 59.1 III 20 PERRO
FUTBOL 7 Masculino 63 II 19.5 GATO
X X X
NADA 4 Masculino 91.9 II 18 NO
NATACION 7 Masculino 53 III 18 GATO
FUTBOL 5 Femenino 62.2 III 18 GATA
CICLISMO 4 Masculino 62 III 18 PERRO
GIMNASIO 6 Masculino 81 III 19 PERRO
FUTBOL 6 Masculino 75.6 III 20 NO
X X X
FUTBOL 5 Masculino 82 III 17 PERRO
FUTBOL 7 Masculino 46.8 IV 17 PERRO
FUTBOL 4 Masculino 56.2 II 16.5 PERRO
FUTBOL 4 Masculino 64.3 II 18 NO
MOTOCROSS 7 Masculino 71.1 III 19 PERRO
FUTBOL 5 Masculino 67.3 III 19 GATO
NATACION 5 Masculino 96 III 19 GATO
CICLISMO 6 Masculino 56 III 16 PERRO
FUTBOL 5 Masculino 60.8 II 19 PERRO
MEDIDAS
CONTEXTURA EDAD lentes temperatura© pulso hermanos
(CADERA) cm

delgado 19 89 no 37.2 76 1
grueso 21 100 no 37.6 76 3
grueso 19 103 no 37.1 73 1
delgado 22 80 no 37 74 1
delgado 21 94 no 37.7 70 5
delgado 18 78 no 37.3 72 1
delgado 25 88 no 37 74 1
delgado 21 85 no 37.7 70 3

grueso 23 98 si 37.3 72 2
delgado 20 80 si 37.7 70 1
delgado 20 92 si 37.2 76 2
delgado 21 78 no 37.7 70 2
grueso 21 95 no 37 74 2
delgado 20 88 no 37.4 82 5

grueso 22 92 no 37.1 73 1
delgado 20 61 si 37.1 73 4
delgado 21 69 si 37.2 76 1
delgado 20 82 si 37.7 70 4
delgado 32 85 si 37.7 70 5
delgado 19 80 si 37.2 77 7
grueso 21 100 no 37.7 70 1
delgado 20 84 no 37.6 86 8
delgado 21 84 no 37.3 72 4
GRÁFICOS

1. DIAGRAMA DE FRECUENCIAS (cuali y cuanti discreta)/ HISTOGRAMA (cuanti continua): Gráfico de la representació
de distribuciones de frecuencias de una variable en forma de barras, donde la superficie de cada barra es proporcional a la
frecuencia de los valores representados. Son útiles para obtener un panorama o perfil general de la distribución de la població
la muestra e identificar patrones o tendencias respecto a una característica.

NOTA: Se dice que una distribución es simétrica si se puede doblar a lo largo de un eje vertical de manera que ambos lados
coincidan. Si una distribución carece de simetría respecto de un eje vertical, se dice que está sesgada.
(a) se dice que está sesgada a la derecha porque tiene una cola derecha larga y una cola izquierda mucho más corta. En la fig
(b) observamos que la distribución es simétrica; mientras que en la cigura (c) está sesgada a la izquierda.

1. DIAGRAMA DE SECTORES- GRÁFICO CIRCULAR- GRÁFICO TIPO PASTEL: Los datos se representan en un círculo, d
modo que el ángulo de cada sector es proporcional a la frecuencia absoluta correspondiente. se puede utilizar para
todo tipo de variables, pero se usa frecuentemente para las variables cualitativas.

3. GRÁFICO DE DISPERSIÓN O NUBE DE PUNTOS: son los puntos correspondientes a los pares (xi, yi), que representan las
observaciones de dos variables, en un plano cartesiano. Sirven para tener una idea estimada del grado de correlación de dos
variables.

4. POLÍGONO DE FRECUENCIAS: se obtiene uniendo con segmentos de rectas los puntos medios de la base superior de los
rectángulos del histograma. Para cerrar el polígono se hará necesario localizar en los extremos del eje X el punto medio anterio
la primera clase y el punto medio posterior a la última clase.

GRÁFICO DE CAJA Y BIGOTES O BOXPLOT

Los histogramas transmiten impresiones un tanto generales sobre un conjunto de datos, mientras que un resumen único tal co
la media o la desviación estándar se enfoca en sólo un aspecto de los datos. En años recientes, se ha utilizado con éxito un
resumen gráfico llamado gráfica de caja para describir varias de las características más prominentes de un conjunto de datos.
Estas características incluyen 1) el centro, 2) la dispersión, 3) el grado y naturaleza de cualquier alejamiento de la simetría y 4) l
identificación de las observaciones “extremas o apartadas” inusualmente alejadas del cuerpo principal de los datos. Como incl
un solo valor extremo puede afectar drásticamente los valores de x y s, una gráfica de caja está basada en medidas “resistente
a la presencia de unos cuantos valores apartados, la mediana y una medida de variabilidad llamada dispersión de los cuartos.
¿TIENE ¿TIENE
HERMANOS? G3 HERMANOS? G4
E
1 frecuencia Frecuencia
1 número hermanos G3 G4
3 3 0 1 0
1 1 1 9 9
2 1 2 8 4
2 5 3 5 2
1 1 4 0 3
3 1 5 0 3
2 3 6 0 0
3 2 7 0 1
1 1 8 0 1 EN REL
1 2 23 23
2 2
1 2
1 5
Hermanos Grupo 3 y Grupo 4
2 1 18
2 4
16
0 1
14
1 4
3 5 12

2 7 10
3 1 8
2 8 6
1 4 4
PROMEDIO
2
1.7391304348 2.8260869565
0
DESVIACION ESTANDAR 0 1 2 3 4 5 6 7 8
0.8643121966 2.0813495166 Herma nos G3 Hermanos G4
CV
50% 74%
Diagrama de frecuencia Número de hermanos G3

10
9
9
8
8
7
6
5
5
4
3
2
1
1
0
0 1 2 3
4
3
2
1
1
0
0 1 2 3
ESTADO CIVIL ESTADO CIVIL
Estado civil G3
8.70% 17.39% EN RELACION EN RELACION

SOLTERO SOLTERO
SOLTERO NOVIAZGO
SOLTERO
SOLTERO
SOLTERO
EN RELACION
73.91% SOLTERO
SOLTERO
EN RELACION SOLTERO NOVIAZGO EN RELACION
NOVIAZGO
SOLTERO
SOLTERO
po 4 SOLTERO
SOLTERO
NOVIAZGO
SOLTERO
SOLTERO
SOLTERO
SOLTERO
EN RELACION
SOLTERO
SOLTERO

6 7 8
4

ermanos G3

3
3
FRECUENCIA Mascota?/
cuál?
mascota
4 gato gato
si no si
17 si gato 7 16 5
2 no No
no no no no 7
no No si gato 5
si perro si perro 7
no No si peces 1
si perro si perro-gato 2
si gato si lora 1
si gato
si perro
si perro
si perro-gato
si perro
no No
no No
si peces
si perro-gato
si gato
no No
si lora
si perro
si perro

Mascotas G3

no si gato perro
peces perro-gato l ora
perro peces perro-gato lora

7 1 2 1

Chart Title
1
2

1 7

no gato perro peces perro-gato l ora

Mascotas G3

si gato perro
s perro-gato l ora
Construyamos un diagrama circular y uno de frecuencias para algu
de las variables
o de frecuencias para alguna
s
Construyamos un histograma para las estaturas

Estaturas Intervalos de clase

1.61 1.69 1.87 1.77 Límite inf.


1.8 1.82 1.68 1.63
1.68 1.77 1.74 1.6 1 1.580
1.73 1.71 1.74 1.68 2 1.622
1.71 1.85 1.83 1.75 3 1.664
1.85 1.6 1.6 1.86 4 1.706
1.77 1.65 1.75 1.72 5 1.748
1.73 1.75 1.72 1.7 6 1.790
1.7 1.69 1.73 1.65 7 1.832
1.8 1.7 1.74 1.75 8
1.68 1.65 1.58 1.85 Total
1.75 1.76
Cantidad de datos 46.0 Clase Frecuencia
Máximo 1.87 1.58 1
Mínimo 1.58 1.67666667 8
Rango 0.29 1.77333333 28
# Clases Sturges 6.52 Aproximación y mayor... 9
# Clases raíz 6.78 7
Longitud de clase 0.0414286 0.042

• Paso 1: Determinar el rango de los datos. Rango es igual al dato mayor menos el dato menor.
• Paso 2: Obtener el número de clases, existen varios criterios para determinar el número de clases (o barras), sin embargo
ninguno de ellos es exacto.
• Paso 3: Establecer la longitud de clase: es igual al rango dividido por el número de clases.
• Paso 4: Construir los intervalos de clases.
• Paso 5: Graficar el histograma: las bases de las barras son los intervalos de clases y la altura es la frecuencia de las clases. Si
se unen los puntos medios de la base superior de los rectángulos se obtiene el polígono de frecuencias.

Reglas para obtener el número de clases para los histogramas

Regla de Sturges
c=1+3.322 x log N siendo N la cantidad de datos.
El valor de c (número de clases) es común redondearlo al entero más cercano.
• Algunos autores recomiendan de cinco a quince clases o de diez a veinte clases, dependiendo de cómo estén los
datos y cuántos sean.
• Un criterio usado frecuentemente es que el número de clases debe ser aproximadamente la raíz cuadrada del
número de datos.
Marca de
Intervalos de clase Frecuencia
Frecuencia Frecuencia Frecuencia clase: Punto
relativa
absoluta relativa acumulada medio del
acumulada intervalo histograma edades
Límite sup.
12

Frecuencia absoluta
1.622 5 11% 1.60 10
1.664 4 9% 1.64 8

1.706 9 20% 1.69 6


4
1.748 10 22% 1.73
2
1.790 9 20% 1.77
0
1.832 4 9% 1.81 1.60 1.64 1.69 1.73 1.77 1.8
1.874 5 11% 1.85 Punto medio intervalo (metros)

46 1

Clase Frecuencia
Histograma
1.622 5
30
1.664 4 25
20
1.706 9 15
10
1.748 10 5

Frecuencia
0
1.790 9
58 67 33
1.832 4 1. 6 3
66 33
1.874 5 6 6 3 3 ym
6 76 7 73
y mayor... 0 1. 1.

Clase

Histograma
s (o barras), sin embargo 12
10
8
6
Frecuencia

frecuencia de las clases. Si 4


ncias. 2 Frecuencia
0
2 4 6 8 0 2 4 ...
.62 .66 .70 .74 .79 .83 .87 ayor
1 1 1 1 1 1 1 m
y

Clase

iendo de cómo estén los


te la raíz cuadrada del
histograma edades

1.60 1.64 1.69 1.73 1.77 1.81 1.85


Punto medio intervalo (metros)

Histograma

Frecuencia
58 7 3 ...
1. 66 33 or
66 33 ay
66
6
33
3 ym
67 77
1. 1.

Clase
Estaturas
Estaturas
1.61 1.69 1.87 1.77 1 1.58
1.8 1.82 1.68 1.63 2 1.6 histograma edades
1.68 1.77 1.74 1.6 3 1.6 12
1.73 1.71 1.74 1.68 4 1.6 10

Frecuencia absoluta
1.71 1.85 1.83 1.75 5 1.61
8
1.85 1.6 1.6 1.86 6 1.63
6
1.77 1.65 1.75 1.72 7 1.65
4
1.73 1.75 1.72 1.7 8 1.65
1.7 1.69 2
1.73 1.65 9 1.65
1.8 1.7 1.74 1.75 10 1.68 0
1.60 1.64 1.69 1.73 1.77 1.81 1.85
1.68 1.65 1.58 1.85 11 1.68
Punto medio intervalo (metros)
1.75 1.76 12 1.68
13 1.68
Distancia de los datos respecto a la media 14 1.69
-0.1159 -0.0359 0.1441 0.0441 15 1.69
0.0741 0.0941 -0.0459 -0.0959 16 1.7
-0.0459 0.0441 0.0141 -0.1259 17 1.7
0.0041 -0.0159 0.0141 -0.0459 18 1.7
-0.0159 0.1241 0.1041 0.0241 19 1.71
0.1241 -0.1259 -0.1259 0.1341 20 1.71
0.0441 -0.0759 0.0241 -0.0059 21 1.72
0.0041 0.0241 -0.0059 -0.0259 22 1.72
-0.0259 -0.0359 0.0041 -0.0759 23 1.73
0.0741 -0.0259 0.0141 0.0241 24 1.73
-0.0459 -0.0759 -0.1459 0.1241 25 1.73
0.0241 0.0341 26 1.74
Sumatoria de las distancias 0.0000 27 1.74
28 1.74
Distancia de los datos respecto a la media al 1.75
cuadrado 29
0.01342576 0.00128663 0.02077358 0.0019475 30 1.75
0.00549532 0.00886054 0.00210402 0.00919097 31 1.75
0.00210402 0.0019475 0.00019967 0.01584315 32 1.75
1.706E-05 0.00025184 0.00019967 0.00210402 33 1.75
0.00025184 0.01540836 0.01084315 0.00058228 34 1.76
0.01540836 0.01584315 0.01584315 0.01799097 35 1.77
0.0019475 0.00575619 0.00058228 3.4452E-05 36 1.77
1.706E-05 0.00058228 3.4452E-05 0.00066923 37 1.77
0.00066923 0.00128663 1.706E-05 0.00575619 38 1.8
0.00549532 0.00066923 0.00019967 0.00058228 39 1.8
0.00210402 0.00575619 0.02127793 0.01540836 40 1.82
0.00058228 0.00116489 41 1.83
42 1.85
43 1.85
44 1.85
45 1.86
46 1.87
a edades PROMEDIO MEDIANA MODA RANGO VARIANZA (S^2) DESVIACION ESTANDAR (S)
1.7259 1.73 1.75 0.29 0.0054025047 0.0735017328
1.7259 1.73 �^2
(𝑚^2) 0.0735017328
0.0054025047

1.73 1.77 1.81 1.85


intervalo (metros)
NOMBRE Edad(Años)

arias esteban 18 1 CUARTIL 1


DESVIACION ESTANDAR (S) COEFICIENTE DE VARIACION bernal juan 18 2 6
0.0735017328 0.0425882316 carvajal felipe 18 3
0.0735017328 molina nicolas 18 4
sierra juan 18 5
mafla bryan 19 6
sanchez kevin 19 7
arango jesus 20 8
castrillon edwin 20 9
gil jhon freddy 20 10
ibarra sebastian 20 11
correa mario 21 12
rubiano mauricio 21 13
ayala luis 22 14
carvajal kevin 22 15
herrera jorge 22 16
ramirez sarah 22 17
rincon cristian 24 18
Agudelo Luisa 26 19
chavarro cristian 27 20
muñoz gustavo 28 21
pinzon omar 28 22
martinez alonso 29 23
MEDIDAS
PESO [kg] (CADERA)
cm
CUARTIL 2 CUARTIL 3 46.8 61
14 19 53 69
EDAD EDAD 53.7 78
22.8 26.2 56 78 MEDIDAS (CADERA
56.2 80
120
57.4 80
59.1 80 100
60.8 82
62 84 80
62.2 84
63 85 60
64.3 85
40
67.3 88
71.1 88
20
75.6 89
80.2 92 0
40 50 60 70
81 92
82 94
84.9 95
88.5 98
91.6 100
91.9 100
96 103
MEDIDAS (CADERA) cm

50 60 70 80 90 100
MEDIDAS DE TENDENCIA CENTRAL

MEDIA O PROMEDIO: Es la suma de los valores del conjunto


dividida por el número total de observaciones (n) la media se
denota con x ̅ (x barra).
- Es sensible a datos extremos.
- No tiene sentido calcularla en variables cualitativas.
- Puede o no coincidir con alguno de los datos recolectados.
-La suma de las desviaciones de un conjunto de datos con
respecto a su media es cero.

MEDIANA: Es la observación que ocupa el lugar central cuando


todas las observaciones están ordenadas en sentido ascendente (o
descendente). El propósito de la mediana de la muestra es reflejar
la tendencia central de la muestra, de manera que no esté influida
por los valores extremos

NOTA: La media es muy sensible a la presencia de valores extremos, mientras la mediana es una medida más robusta. Cuando hay valo
extremos, la mediana puede ser preferible a la media como medida de tendencia central.

MODA: es el valor de la observación que ocurre con mayor


frecuencia en el conjunto de datos.

MEDIA PONDERADA: Pone diferente peso o importancia a las


distintas observaciones.
w: ponderador (número entre 0 y 1 que sumados da 1)

MEDIA RECORTADA: Se calcula “quitando” cierto porcentaje de


los valores mayores y menores del conjunto. Por ejemplo, la
media recortada al 10% se encuentra eliminando tanto el 10% de
los valores mayores como el 10% de los menores, y calculando el
promedio de los valores restantes.

Todo conjunto de datos tiene al menos dos características


principales: CENTRO Y DISPERSIÓN

MEDIDAS DE DISPERSIÓN O VARIABILIDAD


RANGO: Por su simplicidad, proporciona una rápida indicación de
la variabilidad existente entre las observaciones de un conjunto de
datos.
VARIANZA: Es el promedio del cuadrado de las distancias entre
cada observación y la media del conjunto de observaciones.
NOTA: Cuando la muestra es pequeña, n menor a 30, se divide por n- 1 en lugar
de por n, como una forma de penalización porque trabajamos con muestra chica.
Si tenemos una muestra grande se divide por n.

DESVIACIÓN ESTÁNDAR: Si bien la varianza es una medida de


dispersión, resulta difícil interpretar su valor porque las unidades
están al cuadrado. Una forma sencilla de volver a las unidades de
medida originales es tomar la raíz cuadrada positiva de la varianza
y esto es lo que se conoce como el desviación estándar.

COEFICIENTE DE VARIACIÓN: Es una medida de dispersión que se


utiliza fundamentalmente para comparar la variabilidad entre dos
o más conjuntos de datos con distintas unidades de medida o
distintas medias.
Por lo general se multiplica por 100 para expresarlo en términos
porcentuales.

CUARTILES, DECILES, PERCENTILES


Ordenando los datos en forma ascendente (o descendente), se pueden calcular las siguientes medidas de posición:
CUARTILES: son los 3 valores de la variable que dividen al conjunto
de datos en 4 partes iguales (cada parte representa el 25%).

DECILES: son los 9 valores de la variable que dividen al conjunto


de datos en 10 partes iguales (cada parte representa el 10%).

PERCENTILES: son los 99 valores de la variable que dividen al


conjunto de datos en 100 partes iguales (cada parte representa el
1%). En algunas aplicaciones, especialmente cuando hay una gran
cantidad de datos, es preferible usar percentiles.

�=𝐿𝑜𝑐𝑎𝑙𝑖𝑧𝑎𝑐𝑖ó𝑛 𝑑𝑒𝑙 𝑝𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙=(𝑛+1) 𝑃/100

NOTA: Si la localización no da un número entero, entonces el percentil se calcula teniendo en cuenta los dos datos en que s
encuentra L y encontrando proporcionalmente la distancia decimal entre esos dos datos.
RELACIÓN ENTRE DOS VARIABLES
Usualmente podemos estar interesados en medir la fuerza de la relación entre dos conjuntos de datos.

Para calcular el coeficiente de correlación (rXY) necesitamos


calcular la covarianza (SXY). La COVARIANZA es una medida que
indica el co-movimiento de dos variables respecto a su media.
NOTA: si trabajo en muestra <30, dividir por n- 1 en vez de por n.

COEFICIENTE DE CORRELACIÓN DE PEARSON: mide la


relación lineal entre dos conjuntos de datos

NOTA: Encontrar correlación no implica que haya causalidad entre estas variables.
Entrar a la página: tylervigen.com

OTRAS MEDIDAS DE FORMA

CURTOSIS

El apuntamiento o curtosis de una distribución de frecuencias no


tiene un referente natural como en el caso de la simetría, sino que
se sustenta en la comparación respecto a una distribución de
referencia, en concreto, la distribución normal o campana de
Gauss. En consecuencia, su obtención sólo tendrá sentido en
variables cuya distribución de frecuencias sea similar a la de la
curva normal –en la práctica ello se reduce, básicamente, a que
sea unimodal y más o menos simétrica.
La curtosis caracteriza la elevación o la planeidad de una
distribución comparada con la distribución normal, una curtosis
positiva indica una distribución relativamente elevanda, mientras
una curtosis negativa indica una distribución relativamente planta.

ASIMETRÍA

Si media=moda=mediana, la distribución es simétrica


• Si media > mediana, la distribución es asimétrica con cola a la
derecha (sesgada a la derecha-asimetría positiva).
• Si media < mediana, la distribución es asimétrica con cola a la
izquierda (sesgada a la izquierda- asimetría negativa).

Coeficiente de asimetría de Fischer: se basa en las desviaciones de


los valores observados respecto a la media.
Los valores menores que 0 indican asimetría negativa; los
mayores, asimetría positiva y cuando sea cero, o muy próximo a
cero, simétrica.

ERROR TÍPICO
Es el error típico de la media y se basa en el teorema del límite
central. Suponiendo que tus datos son una muestra aleatoria de
una población con media desconocida (que no necesariamente se
tiene que distribuir normalmente), el error típico de la media te da
intervalos de confianza para estimar la media poblacional (qué tan
cerca está tu media muestral de la media poblacional).

La fórmula para obtenerla se basa en en que la varianza de las


medias muestrales (error típico de la media) es igual a la varianza
muestral sobre el tamaño de la muestra. Teniendo la varianza
muestral y el tamaño de la muestra, tienes que el error típico es
igual a la desviación muestral sobre la raiz cuadrada de n.

Cuando estimamos la media a partir de una muestra de un


determinado tamaño (n) los valores que toma la media en las
diferentes muestras varía, a la desviación típica de los valores que
toma el estadístico se le denomina error típico de la media. Da
una idea de la variabilidad del estadístico (No de la distribución de
la variable).
S DE TENDENCIA CENTRAL
Hay por tanto, una diferencia conceptual entre la media y la media
que la media es el CENTRO DE GRAVEDAD de los datos. En cierto s
un fulcro (apoyo) para equilibrar un sistema de “pesos”, que son la
se observa en la figura a conti

LA MEDIA es donde el diagrama de puntos se equilibra. Es decir, l


respecto a ella es igual a

extremos, mientras la mediana es una medida más robusta. Cuando hay valores
preferible a la media como medida de tendencia central.

La moda es relevante solamente en algunos casos ya que puede que:


• no exista (no haya observaciones que se repitan),
• no está ubicada en el centro de la distribución, o
• haya más de una.

0 25 75
datos tiene al menos dos características
ales: CENTRO Y DISPERSIÓN
48 49 51
DISPERSIÓN O VARIABILIDAD

Rango= Xmáx - Xmín.


TILES, DECILES, PERCENTILES
escendente), se pueden calcular las siguientes medidas de posición:

P48= es un valor tal que aproximadamente el 48% de las


observaciones están a su izquierda

𝑑𝑒𝑙 𝑝𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙=(𝑛+1) 𝑃/100

ntonces el percentil se calcula teniendo en cuenta los dos datos en que se


rcionalmente la distancia decimal entre esos dos datos.
N ENTRE DOS VARIABLES
en medir la fuerza de la relación entre dos conjuntos de datos.

• SXY > 0 indica dependencia lineal directa entre las dos variables
• SXY < 0 indica dependencia lineal inversa entre las dos variables

La magnitud de SXY no indica nada respecto a la fuerza de la relac

Sxy=covarianza entre x y y
Sx=desviación estándar de x
Sy= desviación estándar de y

o implica que haya causalidad entre estas variables.


a la página: tylervigen.com

RAS MEDIDAS DE FORMA

Coeficiente de apuntamiento de Fisher para variables


cuantitativas: se basa en las desviaciones de los valores
observados respecto a la media.

El valor de este coeficiente para la


distribución normal será igual a 0, o sea que
cualquier distribución para la que se obtenga
un valor de K igual o próximo a 0 significará
que su nivel de apuntamiento es como el de
la distribución normal (mesocúrtica). Valores
mayores que 0, expresan que la distribución
es leptocúrtica, mientras que si son menores
que 0 ponen de manifiesto que la
distribución es platicúrtica. No está limitado a
un rango de valores.
cualquier distribución para la que se obtenga
un valor de K igual o próximo a 0 significará
que su nivel de apuntamiento es como el de
la distribución normal (mesocúrtica). Valores
mayores que 0, expresan que la distribución
Formula que usa Excel es leptocúrtica, mientras que si son menores
que 0 ponen de manifiesto que la
distribución es platicúrtica. No está limitado a
un rango de valores.

Formula que usa Excel

ERROR TÍPICO
�/√𝑛

Es el error máximo que un intervalo de confianza podría tener


con relación a la media poblacional.
tual entre la media y la mediana. En términos de ingeniería, se podría decir
EDAD de los datos. En cierto sentido es el punto en el cual se puede colocar
istema de “pesos”, que son las ubicaciones de los datos individuales, como
se observa en la figura a continuación.

puntos se equilibra. Es decir, la suma de las desviaciones de los valores con


respecto a ella es igual a cero.

100
50
52 50
ecta entre las dos variables
versa entre las dos variables

specto a la fuerza de la relación

• Distribución platicúrtica (apuntamiento negativo): indica que en sus colas hay


más casos acumulados que en las colas de una distribución normal.
• Distribución leptocúrtica (apuntamiento positivo): justo lo contrario.
• Distribución mesocúrtica (apuntamiento normal): como en la distribución
normal.
Calculemos el coeficiente de variación y analicemos

Semana 1 2 3 4 5 6 7 8
Temperatura (°C) 31 29 27 23 21 12 25 18
Cantidad de lluvia (mm) 12 11 6 6 6 14 6 3

Observación:

Compare la variabilidad entre dos variables de los datos tomados del grupo
Compare la variabilidad entre una misma variable de los dos grupos
9 10 Media Var S CV
22 25 23.3 30.4556 5.51866 24%
3 2 6.9 16.7667 4.09471 59%
9 10 10 12 12 13 13

Calcular Localización Valor del percentil

Q1=P25 L25= (13+1)(0.25)=3.5 10+0.5(12-10)= 11


Q2=
Q3=
D8=
P55

Calcule Q1, D4 y P80 para alguna de las variables del grupo

NOMBRE Peso(kg)

ramirez sarah 49 1 CUARTIL 1 (Q1) CUARTIL 2 (D4) CUARTIL 3 (P80)


sanchez kevin 49 2 6 9.6 20.64
arango jesus 60 3 63 PESO PESO
rincon cristian 60 4 78.2 65 82.28
herrera jorge 61 5
Agudelo Luisa 62 6
arias esteban 64 7
ayala luis 65 8
mafla bryan 65 9
sierra juan 65 10
gil jhon freddy 66 11
bernal juan 68 12
molina nicolas 70 13
carvajal felipe 72 14
castrillon edwin 75 15
rubiano mauricio 75 16
carvajal kevin 77 17
muñoz gustavo 77 18
martinez alonso 79 19
chavarro cristian 81 20
correa mario 83 21
ibarra sebastian 83 22
pinzon omar 97 23
13 14 15 18 19 20

GRUPO 1 GRUPO 2

MEDIDA
NOMBRE MANO BOX PLOT NOMBRE
DERECHA

ramirez sarah 16.3 Min 16.3 WILSON CHARHFELAN


Agudelo Luisa 16.4 Q1 17.3 DANIEL VASQUEZ
herrera jorge 17 Q2 18 JOSEPH RAMIREZ
mafla bryan 17.2 Q3 18.6 JUAN ORTEGA
arias esteban 17.3 Max 20.4 CARLOS PESCADOR
muñoz gustavo 17.3 RIC (Q3-Q1) 1.3 HECTOR ALONSO
castrillon edwin 17.5 LIm inferior 15.4 PABLO BUITRAGO
sanchez kevin 17.5 LIm superior 20.55 ESTEVAN ASCUNTAR
sierra juan 17.5 DIEGO ATEHORTUA
rincon cristian 17.7 SEBASTIAN HINCAPIE
ayala luis 17.9 JUAN DAVID JARAMILLO
chavarro cristian 18 MANUELA MARIN
ibarra sebastian 18 SALOMON MARTINEZ
rubiano mauricio 18.2 JESUS ROMERO
correa mario 18.3 RAFAEL CADENA
martinez alonso 18.5 KEVIN MUÑOZ
molina nicolas 18.5 RICHARD RUANO
gil jhon freddy 18.6 SEBASTIAN SANCHEZ
carvajal felipe 18.7 JUAN VASCO
carvajal kevin 18.7 AZARIAS CARMONA
pinzon omar 19.2 LUIS GRANDAS
bernal juan 19.5 SANTIAGO GALLEGO
arango jesus 20.4 ALEJANDRO ORDOÑEZ
GRUPO 2
MEDIDA DE
LA PALMA BOX PLOT
DE LA
MANO (cm)

16 Min 16
16 Q1 17.5
16.5 Q2 18
17 Q3 19
17 Max 20
17.5 RIC (Q3-Q1) 1.5
17.5 LIm inferior 15.25
18 LIm superior 21.25
18
18
18
18
18
18
19
19
19
19
19
19
19.5
20
20
Cada uno construya 2 ejemplos de variables que como ingeniero quisiera medir la fuerza de su
relación
1.
2.

Mida la correlación entre dos variables del grupo. Haga un gráfico de dispersión y halle una línea
Variable X: Variable Y:
TALLA
Peso(kg) PANTALON
(CM) Coeficiente de correlación r 0.26536995
62 81 Covarianza 22.6975425
Coeficiente de determinacion
60 77 Rcuadrado
7%
64 88
65 88 Conclusión: podemos evidenciar en la
68 81 grafica que los puntos estan dispersos pero
en la linea de tendencia podemos observar
72 86 que da una correlación debil
77 84
75 97
81 100
83 98
66 83
83 84 0.26536995
65 92 7%
79 84
70 96
77 105
97 83
49 90
60 89
75 92
49 75
65 81
61 100
69.6956522 88.43478261
10.9878778 7.784187355
En cierto
tipo de
espécimen
de prueba
metálico se
sabe que la
tensión
normal
sobre un
espécimen
se relaciona
funcionalm
ente con la
resistencia
al corte. El
siguiente es
un conjunto
de datos
experiment
ales
codificados
para las dos
variables.

Tensión Resistencia al
normal, x corte, y
26.8 26.5
25.4 27.3
28.9 24.2
a) Realice una gráfica que le permita ver si las variables
23.6 27.1 se relacionan. Qué observa en la gráfica?
27.7 23.6 b) Cuantifique la relación lineal que hay entre estas
23.9 25.9 variables y concluya.
c) ¿Cuál de las dos variables tiene una mayor
24.7 26.3 variabilidad?
28.1 22.5
26.9 21.7
27.4 21.4
22.6 25.8
25.6 24.9
edir la fuerza de su

ón y halle una línea de tendencia

(Xi-Xbarra)*(Yi-
Xi-Xbarra Yi-Ybarra Ybarra)
120
-7.6956522 -7.4347826 57.2155009452

-9.6956522 -11.434783 110.8676748582


100

-5.6956522 -0.4347826 2.4763705104


-4.6956522 -0.4347826 2.0415879017
80
-1.6956522 -7.4347826 12.606805293
2.30434783 -2.4347826 -5.6105860113
7.30434783 -4.4347826 -32.393194707
60
5.30434783 8.56521739 45.4328922495
11.3043478 11.5652174 130.7372400756
13.3043478 9.56521739 127.258979206 40
-3.6956522 -5.4347826 20.0850661626
13.3043478 -4.4347826 -59.0018903592
-4.6956522 3.56521739 -16.741020794 20
9.30434783 -4.4347826 -41.2627599244
0.30434783 7.56521739 2.3024574669
7.30434783 16.5652174 120.9981096408 0
40 50 60
27.3043478 -5.4347826 -148.393194707
-20.695652 1.56521739 -32.393194707
-9.6956522 0.56521739 -5.4801512287
5.30434783 3.56521739 18.9111531191
-20.695652 -13.434783 278.0415879017
-4.6956522 -7.4347826 34.9111531191
-8.6956522 11.5652174 -100.5671077505
522.0434782609
22.6975425331
Chart Title

50 60 70 80 90 100

También podría gustarte