Documentos de Académico
Documentos de Profesional
Documentos de Cultura
TALLA
Mascota?/ RELOJ ESTADO CIVIL PANTALON Peso(kg) femenino
Color capilar
cuál? (CM)
X si 1,61 26
X X no 1,80 20
X X si 1,68 18
X X si 1,73 22
X X no 1,71 18
X X no 1,85 18
X X no 1,77 22
X X no 1,73 20
X X no 1,70 27
X X no 1,80 21
X X no 1,68 20
X X si 1,75 20
X X no 1,69 19
X X no 1,82 29
X X no 1,77 18
X X no 1,71 28
X X si 1,85 28
X no 1,60 22
X X no 1,65 24
X X no 1,75 21
X X no 1,69 19
X X no 1,70 18
X X no 1,65 22
TAMAÑO PIE
ESTATURA PROMEDIO BARBA (SI/NO) COLOR OJOS (cm)
delgado 19 89 no 37.2 76 1
grueso 21 100 no 37.6 76 3
grueso 19 103 no 37.1 73 1
delgado 22 80 no 37 74 1
delgado 21 94 no 37.7 70 5
delgado 18 78 no 37.3 72 1
delgado 25 88 no 37 74 1
delgado 21 85 no 37.7 70 3
grueso 23 98 si 37.3 72 2
delgado 20 80 si 37.7 70 1
delgado 20 92 si 37.2 76 2
delgado 21 78 no 37.7 70 2
grueso 21 95 no 37 74 2
delgado 20 88 no 37.4 82 5
grueso 22 92 no 37.1 73 1
delgado 20 61 si 37.1 73 4
delgado 21 69 si 37.2 76 1
delgado 20 82 si 37.7 70 4
delgado 32 85 si 37.7 70 5
delgado 19 80 si 37.2 77 7
grueso 21 100 no 37.7 70 1
delgado 20 84 no 37.6 86 8
delgado 21 84 no 37.3 72 4
GRÁFICOS
1. DIAGRAMA DE FRECUENCIAS (cuali y cuanti discreta)/ HISTOGRAMA (cuanti continua): Gráfico de la representació
de distribuciones de frecuencias de una variable en forma de barras, donde la superficie de cada barra es proporcional a la
frecuencia de los valores representados. Son útiles para obtener un panorama o perfil general de la distribución de la població
la muestra e identificar patrones o tendencias respecto a una característica.
NOTA: Se dice que una distribución es simétrica si se puede doblar a lo largo de un eje vertical de manera que ambos lados
coincidan. Si una distribución carece de simetría respecto de un eje vertical, se dice que está sesgada.
(a) se dice que está sesgada a la derecha porque tiene una cola derecha larga y una cola izquierda mucho más corta. En la fig
(b) observamos que la distribución es simétrica; mientras que en la cigura (c) está sesgada a la izquierda.
1. DIAGRAMA DE SECTORES- GRÁFICO CIRCULAR- GRÁFICO TIPO PASTEL: Los datos se representan en un círculo, d
modo que el ángulo de cada sector es proporcional a la frecuencia absoluta correspondiente. se puede utilizar para
todo tipo de variables, pero se usa frecuentemente para las variables cualitativas.
3. GRÁFICO DE DISPERSIÓN O NUBE DE PUNTOS: son los puntos correspondientes a los pares (xi, yi), que representan las
observaciones de dos variables, en un plano cartesiano. Sirven para tener una idea estimada del grado de correlación de dos
variables.
4. POLÍGONO DE FRECUENCIAS: se obtiene uniendo con segmentos de rectas los puntos medios de la base superior de los
rectángulos del histograma. Para cerrar el polígono se hará necesario localizar en los extremos del eje X el punto medio anterio
la primera clase y el punto medio posterior a la última clase.
Los histogramas transmiten impresiones un tanto generales sobre un conjunto de datos, mientras que un resumen único tal co
la media o la desviación estándar se enfoca en sólo un aspecto de los datos. En años recientes, se ha utilizado con éxito un
resumen gráfico llamado gráfica de caja para describir varias de las características más prominentes de un conjunto de datos.
Estas características incluyen 1) el centro, 2) la dispersión, 3) el grado y naturaleza de cualquier alejamiento de la simetría y 4) l
identificación de las observaciones “extremas o apartadas” inusualmente alejadas del cuerpo principal de los datos. Como incl
un solo valor extremo puede afectar drásticamente los valores de x y s, una gráfica de caja está basada en medidas “resistente
a la presencia de unos cuantos valores apartados, la mediana y una medida de variabilidad llamada dispersión de los cuartos.
¿TIENE ¿TIENE
HERMANOS? G3 HERMANOS? G4
E
1 frecuencia Frecuencia
1 número hermanos G3 G4
3 3 0 1 0
1 1 1 9 9
2 1 2 8 4
2 5 3 5 2
1 1 4 0 3
3 1 5 0 3
2 3 6 0 0
3 2 7 0 1
1 1 8 0 1 EN REL
1 2 23 23
2 2
1 2
1 5
Hermanos Grupo 3 y Grupo 4
2 1 18
2 4
16
0 1
14
1 4
3 5 12
2 7 10
3 1 8
2 8 6
1 4 4
PROMEDIO
2
1.7391304348 2.8260869565
0
DESVIACION ESTANDAR 0 1 2 3 4 5 6 7 8
0.8643121966 2.0813495166 Herma nos G3 Hermanos G4
CV
50% 74%
Diagrama de frecuencia Número de hermanos G3
10
9
9
8
8
7
6
5
5
4
3
2
1
1
0
0 1 2 3
4
3
2
1
1
0
0 1 2 3
ESTADO CIVIL ESTADO CIVIL
Estado civil G3
8.70% 17.39% EN RELACION EN RELACION
SOLTERO SOLTERO
SOLTERO NOVIAZGO
SOLTERO
SOLTERO
SOLTERO
EN RELACION
73.91% SOLTERO
SOLTERO
EN RELACION SOLTERO NOVIAZGO EN RELACION
NOVIAZGO
SOLTERO
SOLTERO
po 4 SOLTERO
SOLTERO
NOVIAZGO
SOLTERO
SOLTERO
SOLTERO
SOLTERO
EN RELACION
SOLTERO
SOLTERO
6 7 8
4
ermanos G3
3
3
FRECUENCIA Mascota?/
cuál?
mascota
4 gato gato
si no si
17 si gato 7 16 5
2 no No
no no no no 7
no No si gato 5
si perro si perro 7
no No si peces 1
si perro si perro-gato 2
si gato si lora 1
si gato
si perro
si perro
si perro-gato
si perro
no No
no No
si peces
si perro-gato
si gato
no No
si lora
si perro
si perro
Mascotas G3
no si gato perro
peces perro-gato l ora
perro peces perro-gato lora
7 1 2 1
Chart Title
1
2
1 7
Mascotas G3
si gato perro
s perro-gato l ora
Construyamos un diagrama circular y uno de frecuencias para algu
de las variables
o de frecuencias para alguna
s
Construyamos un histograma para las estaturas
• Paso 1: Determinar el rango de los datos. Rango es igual al dato mayor menos el dato menor.
• Paso 2: Obtener el número de clases, existen varios criterios para determinar el número de clases (o barras), sin embargo
ninguno de ellos es exacto.
• Paso 3: Establecer la longitud de clase: es igual al rango dividido por el número de clases.
• Paso 4: Construir los intervalos de clases.
• Paso 5: Graficar el histograma: las bases de las barras son los intervalos de clases y la altura es la frecuencia de las clases. Si
se unen los puntos medios de la base superior de los rectángulos se obtiene el polígono de frecuencias.
Regla de Sturges
c=1+3.322 x log N siendo N la cantidad de datos.
El valor de c (número de clases) es común redondearlo al entero más cercano.
• Algunos autores recomiendan de cinco a quince clases o de diez a veinte clases, dependiendo de cómo estén los
datos y cuántos sean.
• Un criterio usado frecuentemente es que el número de clases debe ser aproximadamente la raíz cuadrada del
número de datos.
Marca de
Intervalos de clase Frecuencia
Frecuencia Frecuencia Frecuencia clase: Punto
relativa
absoluta relativa acumulada medio del
acumulada intervalo histograma edades
Límite sup.
12
Frecuencia absoluta
1.622 5 11% 1.60 10
1.664 4 9% 1.64 8
46 1
Clase Frecuencia
Histograma
1.622 5
30
1.664 4 25
20
1.706 9 15
10
1.748 10 5
Frecuencia
0
1.790 9
58 67 33
1.832 4 1. 6 3
66 33
1.874 5 6 6 3 3 ym
6 76 7 73
y mayor... 0 1. 1.
Clase
Histograma
s (o barras), sin embargo 12
10
8
6
Frecuencia
Clase
Histograma
Frecuencia
58 7 3 ...
1. 66 33 or
66 33 ay
66
6
33
3 ym
67 77
1. 1.
Clase
Estaturas
Estaturas
1.61 1.69 1.87 1.77 1 1.58
1.8 1.82 1.68 1.63 2 1.6 histograma edades
1.68 1.77 1.74 1.6 3 1.6 12
1.73 1.71 1.74 1.68 4 1.6 10
Frecuencia absoluta
1.71 1.85 1.83 1.75 5 1.61
8
1.85 1.6 1.6 1.86 6 1.63
6
1.77 1.65 1.75 1.72 7 1.65
4
1.73 1.75 1.72 1.7 8 1.65
1.7 1.69 2
1.73 1.65 9 1.65
1.8 1.7 1.74 1.75 10 1.68 0
1.60 1.64 1.69 1.73 1.77 1.81 1.85
1.68 1.65 1.58 1.85 11 1.68
Punto medio intervalo (metros)
1.75 1.76 12 1.68
13 1.68
Distancia de los datos respecto a la media 14 1.69
-0.1159 -0.0359 0.1441 0.0441 15 1.69
0.0741 0.0941 -0.0459 -0.0959 16 1.7
-0.0459 0.0441 0.0141 -0.1259 17 1.7
0.0041 -0.0159 0.0141 -0.0459 18 1.7
-0.0159 0.1241 0.1041 0.0241 19 1.71
0.1241 -0.1259 -0.1259 0.1341 20 1.71
0.0441 -0.0759 0.0241 -0.0059 21 1.72
0.0041 0.0241 -0.0059 -0.0259 22 1.72
-0.0259 -0.0359 0.0041 -0.0759 23 1.73
0.0741 -0.0259 0.0141 0.0241 24 1.73
-0.0459 -0.0759 -0.1459 0.1241 25 1.73
0.0241 0.0341 26 1.74
Sumatoria de las distancias 0.0000 27 1.74
28 1.74
Distancia de los datos respecto a la media al 1.75
cuadrado 29
0.01342576 0.00128663 0.02077358 0.0019475 30 1.75
0.00549532 0.00886054 0.00210402 0.00919097 31 1.75
0.00210402 0.0019475 0.00019967 0.01584315 32 1.75
1.706E-05 0.00025184 0.00019967 0.00210402 33 1.75
0.00025184 0.01540836 0.01084315 0.00058228 34 1.76
0.01540836 0.01584315 0.01584315 0.01799097 35 1.77
0.0019475 0.00575619 0.00058228 3.4452E-05 36 1.77
1.706E-05 0.00058228 3.4452E-05 0.00066923 37 1.77
0.00066923 0.00128663 1.706E-05 0.00575619 38 1.8
0.00549532 0.00066923 0.00019967 0.00058228 39 1.8
0.00210402 0.00575619 0.02127793 0.01540836 40 1.82
0.00058228 0.00116489 41 1.83
42 1.85
43 1.85
44 1.85
45 1.86
46 1.87
a edades PROMEDIO MEDIANA MODA RANGO VARIANZA (S^2) DESVIACION ESTANDAR (S)
1.7259 1.73 1.75 0.29 0.0054025047 0.0735017328
1.7259 1.73 �^2
(𝑚^2) 0.0735017328
0.0054025047
50 60 70 80 90 100
MEDIDAS DE TENDENCIA CENTRAL
NOTA: La media es muy sensible a la presencia de valores extremos, mientras la mediana es una medida más robusta. Cuando hay valo
extremos, la mediana puede ser preferible a la media como medida de tendencia central.
NOTA: Si la localización no da un número entero, entonces el percentil se calcula teniendo en cuenta los dos datos en que s
encuentra L y encontrando proporcionalmente la distancia decimal entre esos dos datos.
RELACIÓN ENTRE DOS VARIABLES
Usualmente podemos estar interesados en medir la fuerza de la relación entre dos conjuntos de datos.
NOTA: Encontrar correlación no implica que haya causalidad entre estas variables.
Entrar a la página: tylervigen.com
CURTOSIS
ASIMETRÍA
ERROR TÍPICO
Es el error típico de la media y se basa en el teorema del límite
central. Suponiendo que tus datos son una muestra aleatoria de
una población con media desconocida (que no necesariamente se
tiene que distribuir normalmente), el error típico de la media te da
intervalos de confianza para estimar la media poblacional (qué tan
cerca está tu media muestral de la media poblacional).
extremos, mientras la mediana es una medida más robusta. Cuando hay valores
preferible a la media como medida de tendencia central.
0 25 75
datos tiene al menos dos características
ales: CENTRO Y DISPERSIÓN
48 49 51
DISPERSIÓN O VARIABILIDAD
• SXY > 0 indica dependencia lineal directa entre las dos variables
• SXY < 0 indica dependencia lineal inversa entre las dos variables
Sxy=covarianza entre x y y
Sx=desviación estándar de x
Sy= desviación estándar de y
ERROR TÍPICO
�/√𝑛
100
50
52 50
ecta entre las dos variables
versa entre las dos variables
Semana 1 2 3 4 5 6 7 8
Temperatura (°C) 31 29 27 23 21 12 25 18
Cantidad de lluvia (mm) 12 11 6 6 6 14 6 3
Observación:
Compare la variabilidad entre dos variables de los datos tomados del grupo
Compare la variabilidad entre una misma variable de los dos grupos
9 10 Media Var S CV
22 25 23.3 30.4556 5.51866 24%
3 2 6.9 16.7667 4.09471 59%
9 10 10 12 12 13 13
NOMBRE Peso(kg)
GRUPO 1 GRUPO 2
MEDIDA
NOMBRE MANO BOX PLOT NOMBRE
DERECHA
16 Min 16
16 Q1 17.5
16.5 Q2 18
17 Q3 19
17 Max 20
17.5 RIC (Q3-Q1) 1.5
17.5 LIm inferior 15.25
18 LIm superior 21.25
18
18
18
18
18
18
19
19
19
19
19
19
19.5
20
20
Cada uno construya 2 ejemplos de variables que como ingeniero quisiera medir la fuerza de su
relación
1.
2.
Mida la correlación entre dos variables del grupo. Haga un gráfico de dispersión y halle una línea
Variable X: Variable Y:
TALLA
Peso(kg) PANTALON
(CM) Coeficiente de correlación r 0.26536995
62 81 Covarianza 22.6975425
Coeficiente de determinacion
60 77 Rcuadrado
7%
64 88
65 88 Conclusión: podemos evidenciar en la
68 81 grafica que los puntos estan dispersos pero
en la linea de tendencia podemos observar
72 86 que da una correlación debil
77 84
75 97
81 100
83 98
66 83
83 84 0.26536995
65 92 7%
79 84
70 96
77 105
97 83
49 90
60 89
75 92
49 75
65 81
61 100
69.6956522 88.43478261
10.9878778 7.784187355
En cierto
tipo de
espécimen
de prueba
metálico se
sabe que la
tensión
normal
sobre un
espécimen
se relaciona
funcionalm
ente con la
resistencia
al corte. El
siguiente es
un conjunto
de datos
experiment
ales
codificados
para las dos
variables.
Tensión Resistencia al
normal, x corte, y
26.8 26.5
25.4 27.3
28.9 24.2
a) Realice una gráfica que le permita ver si las variables
23.6 27.1 se relacionan. Qué observa en la gráfica?
27.7 23.6 b) Cuantifique la relación lineal que hay entre estas
23.9 25.9 variables y concluya.
c) ¿Cuál de las dos variables tiene una mayor
24.7 26.3 variabilidad?
28.1 22.5
26.9 21.7
27.4 21.4
22.6 25.8
25.6 24.9
edir la fuerza de su
(Xi-Xbarra)*(Yi-
Xi-Xbarra Yi-Ybarra Ybarra)
120
-7.6956522 -7.4347826 57.2155009452
50 60 70 80 90 100