ESTADISTICA Apuntes

ESTADISTICA apuntes
28/3
Clase 1, presentación.
4/4
m= muestra
Variables ej: grupo sanguíneo “nominal” 4 datos
Tabla de frecuencia: número de veces que aparecen los valores de una variable cualitativa.
X: grupo sanguíneo, cualitativa nominal.
X Frecuencia (fi) Frecuencia Relativa Frecuencia Porcentual
A 14 0,35 35
B 7 0,17 7,5
AB 3 0,075 17,5
0 16 0,4 40
40 1 100
Frecuencia relativa: Fi/m

Fp= fr x 100
Tablas de contingencia
Prueba si existe independencia o no entre dos variables.
Se usan para comparar dos variables, para comprobar si hay dependencia o no entre dos variables. Pocos
datos, es bueno para expresarlo en forma porcentual.
Puedo trabajar con porcentajes sobre total de filas, columnas o sobre el total general.
Cruzo sexo y nivel de formación

Tabla de contingencia 2x3
Los números dentro de la tabla se llaman frecuencias dobles porque responden a la categoría de dos
variables.
Ej: 13 sexo femenino, nivel universitario.
Sexo/NF P S U Total
Femenino 5 5 13 23
Masculino 3 8 6 17
Total 8 13 19 40
Tabla de porcentajes sobre total general
Total general: 40 personas
Primario Secundario Universitario
Femenino 12,5 12,5 32,5
Masculino 7,5 20 15
5 dividido 40 x 100 = 12,5
Porcentajes indican “32,5% de ésta muestra es de sexo femenibo y tiene título universitario”
Tabla de porcentajes sobre el total de las filas
P S U
Femenino 21,7333 21,7333 56,5222 100
Masculino 17,6 47,05 35,2 100
Femenino: 5/23 x 100

Masculino: 3/17 x 100
Representa el porcentaje sobre por ejemplo el total de las mujeres en nivel secundario.
X: localidad
Variable cualitativa y nominal
X Frecuencia absoluta (fi)
MDP 17
Batan 3
Mechongue 1
Miramar 8
Necochea 7
Olavarria 1
Otamendi 2
Santa clara 1
40
Gráfico de Barras simples

Cualitativa y nominal
- Se pueden hacer las barras en vertical (las más comunes) o en
horizontal
- Barras del mismo ancho
- Se debe respetar el mismo espacio que se tome del eje a la primera
barra en el espacio con las siguientes barras.
- Respetar el orden decreciente de las frecuencias.
- Si fuera ordinal habría que respetar el orden de las categorías.
Distribución de localidades de residencia de un grupo de 40 personas
Gráfica de Barras Componentes: Lo usamos cuando tenemos dos variables.
- se pueden hacer barras verticales u horizontales

- me separo en el gráfico para la siguiente categoría (en este caso sexo masculino)
Gráfico de barras proporcionales
- comparativa
Pareto
Si tiene un problema que tiene muchas causas, no se puede abordar todo junto.
El principio de pareto dice que el 80% de un problema se resuelve atacando solo el 20% de las causas.
- curva permite graficar las frecuencias acumuladas porcentuales

- resolver un problema es resolver las más importantes causas.
Cuantitativa
- discretas: valores enteros (número de hijos, hermanos)
- continuas: toman infinitos valores dentro de un intervalo (nivel de glucemia, colesterol, altura, peso)
asume muchos valores en un intervalo.
Cuantitativa discreta
Estadística descriptiva: tratar de resumir la información
X variable: número de veces que se practica deporte
X Fi Fr Fp Fa Far Fap
0 15 0,375 37,5 15 0,375 37,5
3 4 0,1 10 19 0,475 47,5
4 7 0,175 17,5 26 0,65 65
5 5 0,125 12,5 31 0,775 77,5
6 3 0,075 7,5 34 0,85 85
7 6 0,15 15
40 1 100 40 1 100
Datos de la tabla:
m = 40
Fr = Fi/m debe dar el total 1
Fp = Fr x 100 debe dar el total 100
Fa = el primero es igual a Fi, el resto es + Fi (diagonal) la última acumulada debe coincidir con el total de la
observación.
Far = el primero es igual a Fr, el resto es + Fr (diagonal) debe dar el total 1
Farp = el primero es igual a Fp, el resto es + Fp (diagonal) también se puede hacer Far x 100. El total debe
dar 100.
Fa= acumulando frecuencias, la primera es la misma que tengo y después voy sumando.
Far= primero es igual, voy sumando far + fr
Fap= fa/m x 100
26 personas realizan deporte 4 veces por semana.

Gráfico de bastones (línea)
11/4
Variables cuantitativas continuas
Los datos se agrupan en intervalos de clase.
Fórmula de Sturges: R = 1 + 3,3 log m (m = cantidad de datos que tengo).

Esta fórmula determina cuántos intervalos se utilizan para la cantidad de datos.
Cuando hay una muestra de 50 o menos, 5 intervalos es ideal.
X: nivel de colesterol (variable cuantitativa continua)

Intervalos regulares: todos de la misma amplitud. Identificar el rango de los datos.
Rango(R) de los datos: (XM - Xm) es la observación mayoor menos la observación menor (distancia entre el
nivel de colesterol más alto y más alto)
Rango de datos: XM -Xm = 230 - 98 = 132 (diferencia entre el que tiene el colesterol más alto y más bajo)
Intervalos (K): 5
debo repartir mi rango total 132 en 5
Amplitud(a)=R/k 132/5= 26,4

Luego hay que redondear para arriba SIEMPRE. En este caso ≈ 27.
Objetivo de la tabla: resumir la info.
Intervalo Fi (cuantos Fr (es Fi / Fp Fa Far Farp

datos para m)
ese
intervalo)
[98 - 125) 6 0,15 15 6 0,15 15
125- 152 8 0,2 20 14 0,35 35
152- 179 11 0,275 27,5 25 0,625 62,5
179- 206 10 0,25 25 35 0,875 87,5
206- 233 5 0,125 12,5 40 1 100
m=40 1 100
No gráfico de torta (cualitativa de menos de 5 valores), ni barras (cualitativa) ni bastones.

Se usa el gráfico con verticales para esta cuantitativa continua. La variable es X en el gráfico.
X: nivel de colesterol (variable cuantitativa continua)
Indicar al lector que el eje lo corte para poder representar //

Histograma= gráfico XY pero de barras juntas.
Histograma: hacer rectángulos de una determinada amplitud con una altura proporcional a lo que me indica
la frecuencia. Rectángulos proporcionales a la altura de las frecuencias y al peso de cada intervalo.
La amplitud de los intervalos es la misma para todos, mi ancho de la base
tiene que ser igual para todos los intervalos y puedo elegir la unidad de
medida. Todas deben ser iguales (mismo ancho) eje numérico.
Hay una continuidad en los valores de la variable.
Puedo usar frecuencia porcentual, relativa o absoluta.

Concentración normal: cuando está concentrada en el centro.
Histograma: me permite ver que pasa con

el comportamiento de una variable.
Polígono de frecuencias: Sobre el techo de cada rectángulo marco el punto

medio, considero un valor anterior y posterior con altura 0. Se borra el
histograma para observar el comportamiento de la linea.
Histograma de frecuencias acumuladas:
Tiene que ser siempre creciente.
Se usa ojiva, se hace uniendo la base inferior izquierda del

primer rectángulo y luego el
extremo superior derecho de
cada rectángulo.
18/4
Estadística descriptiva: Nos sirve para resumir lo que pasa con 1 o más variables.
● Identificar la o las variables. (grupo sanguíneo, nivel de colesterol) Saber de qué estoy hablando
● Clasificar variables en cualitativa o cuantitativa.
● Saber cómo representar / graficar.
● Medidas descriptivas: números que resumen valores, describen lo que pasa con una variable.
Tipos de medidas:
● De tendencia central: las que están en el centro de la distribución. Donde se ubica el promedio.
Promedio o media: m
Está influenciado por valores extremos. Siempre para variables cuantitativas.
Valores de la variable por su correspondiente cantidad (XiFi) se usa para sacar el promedio. Fi
por X (el valor que se repite).
ejemplo:
Resultado: significa que el número de veces que practican deporte es de 3,125 días por semana.
Mediana: me
La que va al medio. No influenciada por los extremos.
Valor que si ordenamos de menor a mayor está en el centro.
Para calcularla se usa la columna de frecuencias acumuladas. Calculamos la mitad de F i y luego
buscamos la primera frecuencia acumulada más grande que esa mitad. Ejemplo: en este caso sería 20
la mitad de Fi y 4 es la mediana porque su frecuencia acumulada es 26.
Modo: mo
Variable que se repite más veces.
Ejemplo: en este caso el 0; porque tiene la frecuencia más alta.
Cuando hay dos que tienen mayor frecuencia, el modo puede ser doble, la serie sería bimodal. Perdería el
sentido del modo, que es destacar del resto.
● de posición: Aquellas que nos dan el posicionamiento, en qué lugar están esas medidas
● De variabilidad: indica como varía los valores de la variable con respecto a algo, nos indica cuán
variable es.
X variable de colesterol
Intervalo Fi Xi XiFi Fa
98-125 6 111,5 669 6
125-152 8 138,5 1108 14
152-179 11 165,5 1820,5 25
179-206 10 192,5 1925 35
206-233 5 219,5 1097,5 40
40 6629
E XiFi 6629
m = —---------- = —---------- = 165,725
n 40
Para que me de Xi hago: suma de intervalos dividido 2.

Para XiFi: multiplico Fi por Xi
Modo:
mo = Xli + di / (di + d2) x a
Xli = límite interior de los intervalos donde esta el limite mas bajo y donde está el modo.
di = Diferencia (resta) entre la frecuencia donde está el modo y la frecuencia anterior.
d2 = diferencia entre la frecuencia del intervalo modal y la posterior
a = amplitud de los intervalos
Faa= Es la frecuencia acumulada anterior

En este caso la Fi es 14 porque es donde está la mediana.
Nunca puede dar negativo.
me: 152 + (( 20 - 14) / 11) x 27

Resultados:
M= 165,25
Mo= 172,5
me= 166,72
25/4
Xi = punto medio del intervalo (suma el intervalo dividido 2)
Intervalo Fi Fa Xi XiFi
50-56 10 10 53 530
56-62 12 22 59 709
62-68 20 42 65 1300
68-74 30 72 71 2130
74-80 8 80 77 616
m=80 5284
m = 66,05
Li= límite inferior del intervalo

Faa= frecuencia acumulada anterior
Fi= frecuencia absoluta de donde está la mediana
Me = 62 + ( (40 -22) / 20 ) * 6 = 67,4

67,4 es el peso máximo de la mitad más liviana, o el peso mínimo de la mitad más pesada.
me = es el intervalo 62 - 68
El modo va a estar en la frecuencia más alta, que esta en el intervalo 68 - 74
Mo= 68 + (10 / (10+22) ) * 6 = 69,87
69,87 es el peso más frecuente

a= amplitud
d1= modo menos anterior
d2 = modo menos el siguiente
Fractiles
Las
sición son los fractiles, es decir partir.
Valores que parten a la distribución en distintas partes.
Pueden ser:
● Cuartiles: 4
● Quintiles: 5
● Deciles: 10
● Percentiles: 100
Son medidas de posición, como la mediana (2).
El numero entre las partes me da el peso maximo y el peso minimo de las partes.
Q1 = peso maximo del 25% y minimo del otro 75%
Q1= está en el intervalo 56 - 62

En Q1 se usa n/4 (no es necesario i * n / 4)
Q1= 56 + ( (20 - 10) / 12 ) * 6
Q1 = 61
El segundo fractil es Q2, que es igual a la mediana.
Q3 deja un 75% abajo y un 25% arriba. Es decir que su valor es el peso máximo del 75%, y el mínimo del
25%.
Ya no se usa n/4 porque sería la primera cuarta parte. Se usa 3*n / 4.
“i” de la formula sería el fractil que quiero.

¿Dónde está Q3?
Fa ≥ i . n / 4 = 3 . 80 / 4 = 60
Entonces está en el intervalo 68 - 74, porque la frecuencia acumulada es 72 (y la anterior 42).
Si hubiera estado en:

- mediana: n / 2
- Cuartiles: i . n / 4
- Deciles: i . n / 10
- Percentiles: i . n / 100
68 + ((60-42) / 30 ) * 6 = 71,6 = Q3
Valor más bajo del gráfico es 50

Valor más alto es 80
Q4= es el valor máximo, 80
¿Peso mínimo del 30% más pesado?

Está dividido en 10
La respuesta es d7
Ecuación de decil:
di = 68 + (( 56 - 42) / 30) * 6 = 70,8

D1 está en el intervalo 68 - 74
Para mirar asimetria de una distribucion, mirar solo 5 números

numero mas bajo
mas alto
la mediana
los 2 cuartiles
Diagrama de Caja y Bigotes

utilizar una misma medida
Caja: entre Q1 y Q3
Bigotes: lo que queda entre la caja y los valores máx y min
Se marca la mediana para saber identificar fácilmente la asimetría
objetivo: ver la asimetría.
Min= 50
Q1= 61
Me= 67,4
Q3= 71,6
Max= 80
1. Se hace la recta marcando en escala los valores de los intervalos.

2. Se marca el valor de Q1 y Q3, y se hace la caja.
3. Se hacen los bigotes (de la caja a los valores max y min)
4. Me marca la mediana.
En este caso es mas grande el bigote de la izq, lo que significa que la caja esta mas sobre la derecha.
Dónde está la caja significa donde está mas los datos.
Cuando la caja queda

- más a la derecha: negativa.
- más a la izq: positiva
- medio: simétrica
Para verificar: con calculadora el min con Q1, el max con Q3.
Semana que viene consultas, el otro TP.
2/5
Datos anómalos: demasiado lejos, se usa la mediana.
Normal: Si la serie es simétrica exacta.
Medidas de variabilidad:
● Desvíos estándar o de … : Me dice cuanto lejos están los datos de la media.

Desviación representada por S.
Ejemplo: Media = 30. S = 1
30 - 3x1 = 27
30 + 3x1= 33
Los datos están entre 27 y 33.
Si trabajo en más de 30 datos: n
Si con menos de 30: n - 1
Si conocemos el tamaño de la población: n
Si es de la muestra: n - 1
X̅ = 66,05 (media)
S = √ 4015,8 / 80 = √50,19 = 7,08
S = desviación = 7,08
Intervalo Fi Xi (xi - X)2 . Fi
50-56 10 53 (53 - 66,05)2 . 10 =

1703,025
56-62 12 59 (59 - 66,05)2 . 12 =

596,43
62-68 20 65 (55 - 66,05)2 . 20 = 22,05
68-74 30 71 (71 - 66,05)2 . 30 =

735,075
74-80 8 77 (77 - 66,05)2 . 8 =

959,22
4015,8
Varianza: S2 No se usa la raíz. NO LA USAMOS.
● Rango: diferencia entre el máximo y el mínimo.

● Coeficiente de variabilidad: porcentaje que indica cuánto varían los datos. Entre mas grande
menos estable los datos, entre mas chiquito mas estables. Se usa para comparar dos series de
datos.
Ejemplo: CV = ( 7,08 / 66,05 ) x 100 = 10,7%
TP:
Preguntas teóricas
Pero no definiciones, con conceptuales.
No hay que graficar pero hay preguntas.
Hay para hacer tablas.
Se calculan medidas.
Multiple choice casi todo (menos la tabla).
Es virtual. Abre a las 10 y cierra 11.30.
Es hasta medidas.
23/5
30/6
INTERVALO PARA UNA PROPORCIÓN POBLACIONAL
π parámetro poblacional
Estimador para π es P es proporción en la muestra

p - 2 √p x (1 - p ) < π < p + 2 x √p x (1 - b)
—----------- —-----------
n n
Punto 7 de la guia:
Muestra = m = 400
P = 250/400 = 0,625 = estimación puntual
1 = α = 0,98
0,625 - 2,33 √0,625x(1-0,625)/400 < π < 0,625 + 2,33 √0,625x(1-0,625)/400
0,568 < π < 0,681
P = 340/500 = 0,68
B) m?
i-
6/6
Tipos de prueba
PASO 1:
Ho: ϴ= ϴo
ϴ > ϴo
ϴ < ϴo
H1 : : ϴ ≠ ϴo BILATERAL
H1 : : ϴ ≥ ϴo UNILATERAL (cola derecha)
H1 : : ϴ ≤ ϴo UNILATERAL (cola izq)
Hipótesis nula siempre planteo lo opuesto a lo que supongo.
PASO 2:
Riesgo de significación (probabilidad de cometer errores) : α
α = numero chiquito (menor al 10%) Lo más común es usar el 5%
Nivel de significacion, si no lo tengo lo invento entre 0 y 10.
PASO 3:
Calcular el valor observado del estimador de la prueba según la muestra.
ϴ obs (fórmula).
PASO 4:
Calcular el valor crítico del estimador de la prueba. Ese valor sale de una tabla.
Tita crítico: ϴcrit = nº
Puede haber dos: cuando es bilateral. Si es unilateral es uno solo.
PASO 5:
Decidir: acepto o rechazo la hipótesis nula (Ho).
de pruebas de hipótesis hacer hasta el 9 inclusive. Puede que en vez de Mu diga Pi
13/6
Prueba para comparar dos medias poblacionales (M1 y M2)
Muestra 1
n1: 24
X̅ 1: 45
g12: 200
Muestra 2:
n2: 36
X̅ 2: 55
g22: 276
α: 1%
α: 0,01%
Paso 1
Ho: M1 = M2
H1: M1 ≠ M2 bilateral
Paso 2
α: 0,01
Paso 3
Aplicar fórmula
= -2,5
Paso 4
Paso 5
Acepto Ho
- No hay diferencia significativa entre los promedios de ambos métodos.
- Los promedios no difieren, son iguales.
Prueba de hipotesis para comparar dos proporciones poblacionales

π1 y π2
Mu es un parámetro desconocido de toda una población. es variable, varia en funcion de la muestra que uno
tome
X̅ es un estimador, permite estimar Mu. Valor que toma ese promedio, pero un grupo
Ejercicio 15 de la guía
1) identifico mis dos poblaciones

- trabajadores del turno dia
- trabajadores del turno noche
Muestra 1 (día)
m1: 500
p1: 14/500 = 0,028
Muestra 2 (noche)
m2: 700
p1: 22/700 = 0,031
- α: 0,05
Paso 1
Observo que M1 es menor que M2 por eso planteo lo opuesto:
Ho: π1 > π2
H1: π1 < π2
Paso 2
α: 0,05
Paso 3
Fórmula = -0,3
Paso 4
Paso 5
Acepto Ho
Acepto que π1 > π2
No tiene que aplicar ningún programa

ESTADISTICA Apuntes

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

ESTADISTICA Apuntes

Cargado por

Copyright:

Formatos disponibles

ESTADISTICA apuntes

X Frecuencia (fi) Frecuencia Relativa Frecuencia Porcentual

Frecuencia relativa: Fi/m

Prueba si existe independencia o no entre dos variables.

Cruzo sexo y nivel de formación

Tabla de porcentajes sobre total general

Total general: 40 personas

Primario Secundario Universitario

Femenino 12,5 12,5 32,5

5 dividido 40 x 100 = 12,5

Tabla de porcentajes sobre el total de las filas

Femenino 21,7333 21,7333 56,5222 100

Masculino 17,6 47,05 35,2 100

Femenino: 5/23 x 100

X Frecuencia absoluta (fi)

Gráfico de Barras simples

Distribución de localidades de residencia de un grupo de 40 personas

Gráfica de Barras Componentes: Lo usamos cuando tenemos dos variables.

- se pueden hacer barras verticales u horizontales

Gráfico de barras proporcionales

- curva permite graficar las frecuencias acumuladas porcentuales

0 15 0,375 37,5 15 0,375 37,5

3 4 0,1 10 19 0,475 47,5

4 7 0,175 17,5 26 0,65 65

5 5 0,125 12,5 31 0,775 77,5

6 3 0,075 7,5 34 0,85 85

26 personas realizan deporte 4 veces por semana.

Los datos se agrupan en intervalos de clase.

Fórmula de Sturges: R = 1 + 3,3 log m (m = cantidad de datos que tengo).

Cuando hay una muestra de 50 o menos, 5 intervalos es ideal.

X: nivel de colesterol (variable cuantitativa continua)

Amplitud(a)=R/k 132/5= 26,4

Intervalo Fi (cuantos Fr (es Fi / Fp Fa Far Farp

[98 - 125) 6 0,15 15 6 0,15 15

125- 152 8 0,2 20 14 0,35 35

152- 179 11 0,275 27,5 25 0,625 62,5

179- 206 10 0,25 25 35 0,875 87,5

206- 233 5 0,125 12,5 40 1 100

No gráfico de torta (cualitativa de menos de 5 valores), ni barras (cualitativa) ni bastones.

X: nivel de colesterol (variable cuantitativa continua)

Indicar al lector que el eje lo corte para poder representar //

Puedo usar frecuencia porcentual, relativa o absoluta.

Histograma: me permite ver que pasa con

Polígono de frecuencias: Sobre el techo de cada rectángulo marco el punto

Se usa ojiva, se hace uniendo la base inferior izquierda del

125-152 8 138,5 1108 14

152-179 11 165,5 1820,5 25

179-206 10 192,5 1925 35

206-233 5 219,5 1097,5 40

Para que me de Xi hago: suma de intervalos dividido 2.

Faa= Es la frecuencia acumulada anterior

me: 152 + (( 20 - 14) / 11) x 27

Li= límite inferior del intervalo

Me = 62 + ( (40 -22) / 20 ) * 6 = 67,4

Mo= 68 + (10 / (10+22) ) * 6 = 69,87

69,87 es el peso más frecuente

Q1= está en el intervalo 56 - 62

El segundo fractil es Q2, que es igual a la mediana.

“i” de la formula sería el fractil que quiero.

Si hubiera estado en:

Valor más bajo del gráfico es 50

Q4= es el valor máximo, 80