Está en la página 1de 20

ESTADISTICA apuntes

28/3
Clase 1, presentación.

4/4
m= muestra
Variables ej: grupo sanguíneo “nominal” 4 datos

Tabla de frecuencia: número de veces que aparecen los valores de una variable cualitativa.
X: grupo sanguíneo, cualitativa nominal.

X Frecuencia (fi) Frecuencia Relativa Frecuencia Porcentual

A 14 0,35 35

B 7 0,17 7,5

AB 3 0,075 17,5

0 16 0,4 40

40 1 100

Frecuencia relativa: Fi/m


Fp= fr x 100

Tablas de contingencia

Prueba si existe independencia o no entre dos variables.

Se usan para comparar dos variables, para comprobar si hay dependencia o no entre dos variables. Pocos
datos, es bueno para expresarlo en forma porcentual.

Puedo trabajar con porcentajes sobre total de filas, columnas o sobre el total general.

Cruzo sexo y nivel de formación


Tabla de contingencia 2x3

Los números dentro de la tabla se llaman frecuencias dobles porque responden a la categoría de dos
variables.
Ej: 13 sexo femenino, nivel universitario.

Sexo/NF P S U Total

Femenino 5 5 13 23
Masculino 3 8 6 17

Total 8 13 19 40

Tabla de porcentajes sobre total general

Total general: 40 personas

Primario Secundario Universitario

Femenino 12,5 12,5 32,5

Masculino 7,5 20 15

5 dividido 40 x 100 = 12,5

Porcentajes indican “32,5% de ésta muestra es de sexo femenibo y tiene título universitario”

Tabla de porcentajes sobre el total de las filas

P S U

Femenino 21,7333 21,7333 56,5222 100

Masculino 17,6 47,05 35,2 100

Femenino: 5/23 x 100


Masculino: 3/17 x 100

Representa el porcentaje sobre por ejemplo el total de las mujeres en nivel secundario.

X: localidad
Variable cualitativa y nominal

X Frecuencia absoluta (fi)

MDP 17

Batan 3

Mechongue 1

Miramar 8

Necochea 7

Olavarria 1

Otamendi 2
Santa clara 1

40

Gráfico de Barras simples


Cualitativa y nominal
- Se pueden hacer las barras en vertical (las más comunes) o en
horizontal
- Barras del mismo ancho
- Se debe respetar el mismo espacio que se tome del eje a la primera
barra en el espacio con las siguientes barras.
- Respetar el orden decreciente de las frecuencias.
- Si fuera ordinal habría que respetar el orden de las categorías.

Distribución de localidades de residencia de un grupo de 40 personas

Gráfica de Barras Componentes: Lo usamos cuando tenemos dos variables.

- se pueden hacer barras verticales u horizontales


- me separo en el gráfico para la siguiente categoría (en este caso sexo masculino)

Gráfico de barras proporcionales

- comparativa

Pareto
Si tiene un problema que tiene muchas causas, no se puede abordar todo junto.
El principio de pareto dice que el 80% de un problema se resuelve atacando solo el 20% de las causas.

- curva permite graficar las frecuencias acumuladas porcentuales


- resolver un problema es resolver las más importantes causas.

Cuantitativa
- discretas: valores enteros (número de hijos, hermanos)
- continuas: toman infinitos valores dentro de un intervalo (nivel de glucemia, colesterol, altura, peso)
asume muchos valores en un intervalo.

Cuantitativa discreta
Estadística descriptiva: tratar de resumir la información
X variable: número de veces que se practica deporte

X Fi Fr Fp Fa Far Fap

0 15 0,375 37,5 15 0,375 37,5

3 4 0,1 10 19 0,475 47,5

4 7 0,175 17,5 26 0,65 65

5 5 0,125 12,5 31 0,775 77,5

6 3 0,075 7,5 34 0,85 85

7 6 0,15 15

40 1 100 40 1 100

Datos de la tabla:
m = 40
Fr = Fi/m debe dar el total 1
Fp = Fr x 100 debe dar el total 100
Fa = el primero es igual a Fi, el resto es + Fi (diagonal) la última acumulada debe coincidir con el total de la
observación.
Far = el primero es igual a Fr, el resto es + Fr (diagonal) debe dar el total 1
Farp = el primero es igual a Fp, el resto es + Fp (diagonal) también se puede hacer Far x 100. El total debe
dar 100.

Fa= acumulando frecuencias, la primera es la misma que tengo y después voy sumando.
Far= primero es igual, voy sumando far + fr
Fap= fa/m x 100

26 personas realizan deporte 4 veces por semana.


Gráfico de bastones (línea)

11/4
Variables cuantitativas continuas

Los datos se agrupan en intervalos de clase.

Fórmula de Sturges: R = 1 + 3,3 log m (m = cantidad de datos que tengo).


Esta fórmula determina cuántos intervalos se utilizan para la cantidad de datos.

Cuando hay una muestra de 50 o menos, 5 intervalos es ideal.

X: nivel de colesterol (variable cuantitativa continua)


Intervalos regulares: todos de la misma amplitud. Identificar el rango de los datos.
Rango(R) de los datos: (XM - Xm) es la observación mayoor menos la observación menor (distancia entre el
nivel de colesterol más alto y más alto)

Rango de datos: XM -Xm = 230 - 98 = 132 (diferencia entre el que tiene el colesterol más alto y más bajo)

Intervalos (K): 5
debo repartir mi rango total 132 en 5

Amplitud(a)=R/k 132/5= 26,4


Luego hay que redondear para arriba SIEMPRE. En este caso ≈ 27.
Objetivo de la tabla: resumir la info.

Intervalo Fi (cuantos Fr (es Fi / Fp Fa Far Farp


datos para m)
ese
intervalo)

[98 - 125) 6 0,15 15 6 0,15 15

125- 152 8 0,2 20 14 0,35 35

152- 179 11 0,275 27,5 25 0,625 62,5

179- 206 10 0,25 25 35 0,875 87,5

206- 233 5 0,125 12,5 40 1 100

m=40 1 100

No gráfico de torta (cualitativa de menos de 5 valores), ni barras (cualitativa) ni bastones.


Se usa el gráfico con verticales para esta cuantitativa continua. La variable es X en el gráfico.

X: nivel de colesterol (variable cuantitativa continua)

Indicar al lector que el eje lo corte para poder representar //


Histograma= gráfico XY pero de barras juntas.

Histograma: hacer rectángulos de una determinada amplitud con una altura proporcional a lo que me indica
la frecuencia. Rectángulos proporcionales a la altura de las frecuencias y al peso de cada intervalo.
La amplitud de los intervalos es la misma para todos, mi ancho de la base
tiene que ser igual para todos los intervalos y puedo elegir la unidad de
medida. Todas deben ser iguales (mismo ancho) eje numérico.
Hay una continuidad en los valores de la variable.

Puedo usar frecuencia porcentual, relativa o absoluta.


Concentración normal: cuando está concentrada en el centro.

Histograma: me permite ver que pasa con


el comportamiento de una variable.

Polígono de frecuencias: Sobre el techo de cada rectángulo marco el punto


medio, considero un valor anterior y posterior con altura 0. Se borra el
histograma para observar el comportamiento de la linea.
Histograma de frecuencias acumuladas:
Tiene que ser siempre creciente.

Se usa ojiva, se hace uniendo la base inferior izquierda del


primer rectángulo y luego el
extremo superior derecho de
cada rectángulo.

18/4
Estadística descriptiva: Nos sirve para resumir lo que pasa con 1 o más variables.
● Identificar la o las variables. (grupo sanguíneo, nivel de colesterol) Saber de qué estoy hablando
● Clasificar variables en cualitativa o cuantitativa.
● Saber cómo representar / graficar.
● Medidas descriptivas: números que resumen valores, describen lo que pasa con una variable.

Tipos de medidas:
● De tendencia central: las que están en el centro de la distribución. Donde se ubica el promedio.
Promedio o media: m
Está influenciado por valores extremos. Siempre para variables cuantitativas.

Valores de la variable por su correspondiente cantidad (XiFi) se usa para sacar el promedio. Fi
por X (el valor que se repite).
ejemplo:
Resultado: significa que el número de veces que practican deporte es de 3,125 días por semana.

Mediana: me
La que va al medio. No influenciada por los extremos.
Valor que si ordenamos de menor a mayor está en el centro.
Para calcularla se usa la columna de frecuencias acumuladas. Calculamos la mitad de F i y luego
buscamos la primera frecuencia acumulada más grande que esa mitad. Ejemplo: en este caso sería 20
la mitad de Fi y 4 es la mediana porque su frecuencia acumulada es 26.

Modo: mo
Variable que se repite más veces.
Ejemplo: en este caso el 0; porque tiene la frecuencia más alta.
Cuando hay dos que tienen mayor frecuencia, el modo puede ser doble, la serie sería bimodal. Perdería el
sentido del modo, que es destacar del resto.

● de posición: Aquellas que nos dan el posicionamiento, en qué lugar están esas medidas
● De variabilidad: indica como varía los valores de la variable con respecto a algo, nos indica cuán
variable es.

X variable de colesterol

Intervalo Fi Xi XiFi Fa
98-125 6 111,5 669 6

125-152 8 138,5 1108 14

152-179 11 165,5 1820,5 25

179-206 10 192,5 1925 35

206-233 5 219,5 1097,5 40

40 6629

E XiFi 6629
m = —---------- = —---------- = 165,725
n 40

Para que me de Xi hago: suma de intervalos dividido 2.


Para XiFi: multiplico Fi por Xi

Modo:
mo = Xli + di / (di + d2) x a

Xli = límite interior de los intervalos donde esta el limite mas bajo y donde está el modo.
di = Diferencia (resta) entre la frecuencia donde está el modo y la frecuencia anterior.
d2 = diferencia entre la frecuencia del intervalo modal y la posterior
a = amplitud de los intervalos

Faa= Es la frecuencia acumulada anterior


En este caso la Fi es 14 porque es donde está la mediana.
Nunca puede dar negativo.

me: 152 + (( 20 - 14) / 11) x 27


Resultados:

M= 165,25
Mo= 172,5
me= 166,72

25/4
Xi = punto medio del intervalo (suma el intervalo dividido 2)

Intervalo Fi Fa Xi XiFi

50-56 10 10 53 530

56-62 12 22 59 709

62-68 20 42 65 1300

68-74 30 72 71 2130

74-80 8 80 77 616

m=80 5284

m = 66,05

Li= límite inferior del intervalo


Faa= frecuencia acumulada anterior
Fi= frecuencia absoluta de donde está la mediana

Me = 62 + ( (40 -22) / 20 ) * 6 = 67,4


67,4 es el peso máximo de la mitad más liviana, o el peso mínimo de la mitad más pesada.

me = es el intervalo 62 - 68
El modo va a estar en la frecuencia más alta, que esta en el intervalo 68 - 74

Mo= 68 + (10 / (10+22) ) * 6 = 69,87

69,87 es el peso más frecuente


a= amplitud
d1= modo menos anterior
d2 = modo menos el siguiente

Fractiles
Las
sición son los fractiles, es decir partir.
Valores que parten a la distribución en distintas partes.
Pueden ser:
● Cuartiles: 4
● Quintiles: 5
● Deciles: 10
● Percentiles: 100
Son medidas de posición, como la mediana (2).

El numero entre las partes me da el peso maximo y el peso minimo de las partes.
Q1 = peso maximo del 25% y minimo del otro 75%

Q1= está en el intervalo 56 - 62


En Q1 se usa n/4 (no es necesario i * n / 4)
Q1= 56 + ( (20 - 10) / 12 ) * 6
Q1 = 61

El segundo fractil es Q2, que es igual a la mediana.

Q3 deja un 75% abajo y un 25% arriba. Es decir que su valor es el peso máximo del 75%, y el mínimo del
25%.
Ya no se usa n/4 porque sería la primera cuarta parte. Se usa 3*n / 4.

“i” de la formula sería el fractil que quiero.


¿Dónde está Q3?
Fa ≥ i . n / 4 = 3 . 80 / 4 = 60
Entonces está en el intervalo 68 - 74, porque la frecuencia acumulada es 72 (y la anterior 42).

Si hubiera estado en:


- mediana: n / 2
- Cuartiles: i . n / 4
- Deciles: i . n / 10
- Percentiles: i . n / 100

68 + ((60-42) / 30 ) * 6 = 71,6 = Q3

Valor más bajo del gráfico es 50


Valor más alto es 80

Q4= es el valor máximo, 80

¿Peso mínimo del 30% más pesado?


Está dividido en 10
La respuesta es d7

Ecuación de decil:

di = 68 + (( 56 - 42) / 30) * 6 = 70,8


D1 está en el intervalo 68 - 74

Para mirar asimetria de una distribucion, mirar solo 5 números


numero mas bajo
mas alto
la mediana
los 2 cuartiles

Diagrama de Caja y Bigotes


utilizar una misma medida
Caja: entre Q1 y Q3
Bigotes: lo que queda entre la caja y los valores máx y min
Se marca la mediana para saber identificar fácilmente la asimetría
objetivo: ver la asimetría.

Min= 50
Q1= 61
Me= 67,4
Q3= 71,6
Max= 80

1. Se hace la recta marcando en escala los valores de los intervalos.


2. Se marca el valor de Q1 y Q3, y se hace la caja.
3. Se hacen los bigotes (de la caja a los valores max y min)
4. Me marca la mediana.

En este caso es mas grande el bigote de la izq, lo que significa que la caja esta mas sobre la derecha.
Dónde está la caja significa donde está mas los datos.

Cuando la caja queda


- más a la derecha: negativa.
- más a la izq: positiva
- medio: simétrica

Para verificar: con calculadora el min con Q1, el max con Q3.

Semana que viene consultas, el otro TP.

2/5
Datos anómalos: demasiado lejos, se usa la mediana.
Normal: Si la serie es simétrica exacta.

Medidas de variabilidad:

● Desvíos estándar o de … : Me dice cuanto lejos están los datos de la media.


Desviación representada por S.
Ejemplo: Media = 30. S = 1
30 - 3x1 = 27
30 + 3x1= 33
Los datos están entre 27 y 33.
Si trabajo en más de 30 datos: n
Si con menos de 30: n - 1
Si conocemos el tamaño de la población: n
Si es de la muestra: n - 1

X̅ = 66,05 (media)
S = √ 4015,8 / 80 = √50,19 = 7,08
S = desviación = 7,08

Intervalo Fi Xi (xi - X)2 . Fi

50-56 10 53 (53 - 66,05)2 . 10 =


1703,025

56-62 12 59 (59 - 66,05)2 . 12 =


596,43

62-68 20 65 (55 - 66,05)2 . 20 = 22,05

68-74 30 71 (71 - 66,05)2 . 30 =


735,075

74-80 8 77 (77 - 66,05)2 . 8 =


959,22

4015,8

Varianza: S2 No se usa la raíz. NO LA USAMOS.

● Rango: diferencia entre el máximo y el mínimo.


● Coeficiente de variabilidad: porcentaje que indica cuánto varían los datos. Entre mas grande
menos estable los datos, entre mas chiquito mas estables. Se usa para comparar dos series de
datos.

Ejemplo: CV = ( 7,08 / 66,05 ) x 100 = 10,7%

TP:
Preguntas teóricas
Pero no definiciones, con conceptuales.
No hay que graficar pero hay preguntas.
Hay para hacer tablas.
Se calculan medidas.
Multiple choice casi todo (menos la tabla).
Es virtual. Abre a las 10 y cierra 11.30.
Es hasta medidas.

23/5
30/6
INTERVALO PARA UNA PROPORCIÓN POBLACIONAL
π parámetro poblacional

Estimador para π es P es proporción en la muestra


p - 2 √p x (1 - p ) < π < p + 2 x √p x (1 - b)
—----------- —-----------
n n

Punto 7 de la guia:
Muestra = m = 400
P = 250/400 = 0,625 = estimación puntual

1 = α = 0,98

0,625 - 2,33 √0,625x(1-0,625)/400 < π < 0,625 + 2,33 √0,625x(1-0,625)/400

0,568 < π < 0,681

P = 340/500 = 0,68

B) m?
i-
6/6

Tipos de prueba

PASO 1:

Ho: ϴ= ϴo
ϴ > ϴo
ϴ < ϴo

H1 : : ϴ ≠ ϴo BILATERAL
H1 : : ϴ ≥ ϴo UNILATERAL (cola derecha)
H1 : : ϴ ≤ ϴo UNILATERAL (cola izq)

Hipótesis nula siempre planteo lo opuesto a lo que supongo.

PASO 2:
Riesgo de significación (probabilidad de cometer errores) : α
α = numero chiquito (menor al 10%) Lo más común es usar el 5%
Nivel de significacion, si no lo tengo lo invento entre 0 y 10.

PASO 3:
Calcular el valor observado del estimador de la prueba según la muestra.
ϴ obs (fórmula).

PASO 4:
Calcular el valor crítico del estimador de la prueba. Ese valor sale de una tabla.
Tita crítico: ϴcrit = nº
Puede haber dos: cuando es bilateral. Si es unilateral es uno solo.
PASO 5:
Decidir: acepto o rechazo la hipótesis nula (Ho).
de pruebas de hipótesis hacer hasta el 9 inclusive. Puede que en vez de Mu diga Pi

13/6
Prueba para comparar dos medias poblacionales (M1 y M2)

Muestra 1
n1: 24
X̅ 1: 45
g12: 200

Muestra 2:
n2: 36
X̅ 2: 55
g22: 276

α: 1%
α: 0,01%

Paso 1
Ho: M1 = M2
H1: M1 ≠ M2 bilateral

Paso 2
α: 0,01

Paso 3
Aplicar fórmula

= -2,5

Paso 4

Paso 5
Acepto Ho
- No hay diferencia significativa entre los promedios de ambos métodos.
- Los promedios no difieren, son iguales.

Prueba de hipotesis para comparar dos proporciones poblacionales


π1 y π2

Mu es un parámetro desconocido de toda una población. es variable, varia en funcion de la muestra que uno
tome
X̅ es un estimador, permite estimar Mu. Valor que toma ese promedio, pero un grupo

Ejercicio 15 de la guía

1) identifico mis dos poblaciones


- trabajadores del turno dia
- trabajadores del turno noche

Muestra 1 (día)
m1: 500
p1: 14/500 = 0,028

Muestra 2 (noche)
m2: 700
p1: 22/700 = 0,031
- α: 0,05

Paso 1
Observo que M1 es menor que M2 por eso planteo lo opuesto:
Ho: π1 > π2
H1: π1 < π2

Paso 2
α: 0,05

Paso 3
Fórmula = -0,3

Paso 4

Paso 5
Acepto Ho
Acepto que π1 > π2
No tiene que aplicar ningún programa

También podría gustarte