Unidad Tematica - 2 - Sesion - 5 PDF

También podría gustarte

Está en la página 1de 53

CONTROL DE

CALIDAD

Ing. Vanessa M. García Díaz


Medidas Estadísticas
Que puede ser:

Univariantes Bivariantes
Como Como:

Medidas de Medidas de Medidas de Regresión y Números


Tendencia Dispersión Asimetría y Correlación Indices
Central: Apuntamiento:

Como Como: Como


Como Como:

•Rango •Regresión •Índices


•Media Lineal Simple Simples
•Mediana •Desviación - Asimetría •Correlación •Índices
•Moda Estándar - Curtosis Lineal. Compuestos
•Deciles •Varianza •Coeficiente
de
•Cuartiles •Desviación Correlación
•Percentiles Media
MUESTREO
Procedimiento por el cual se extrae, de un conjunto de
unidades que constituyen el objeto de estudio (población), un
número de casos reducido (muestra) elegidos con criterios
tales que permitan la generalización a toda la población de
los resultados obtenidos al estudiar la muestra.

Ventajas del Muestreo:


• Disminución de costos (tiempo, personal, material)
• Al disminuir el número de casos disminuyen también los
errores asociados a la manipulación de los datos.
• Puede confiarse en la generalización de los resultados si se
ha tenido cuidado al seleccionar la muestra.
CRITERIOS IMPORTANTES PARA LA SELECCIÓN DE LA
MUESTRA
 Salvo en poblaciones muy pequeñas y accesibles nunca se observan a todas
las unidades de la población.
 Se debe diseñar una muestra que constituya una representación a pequeña
escala de la población a la que pertenece.
 Cualquier diseño muestral comienza con la búsqueda de la información que
ayude a la identificación de las características de la población bajo estudio.
 Que comprendan parte de la población y no la totalidad de ésta.
 Aunque el sentido común pareciera indicar que poblaciones más grandes
deben producir muestras mayores, esto no es siempre cierto ya que:
 La ausencia de distorsión en la elección de los elementos de la muestra.
 Si esta elección presenta alguna anomalía, la muestra resultará por este
mismo hecho viciada.
 Que sea representativa o reflejo fiel de la población, de tal modo que
reproduzca sus características básicas en orden a la investigación.
 Si hay sectores diferenciados en la población que se supone ofrecen
características especiales la muestra también deberá comprenderlos en la
misma proporción.
TAMAÑO DE LA MUESTRA
 Es el número de unidades a incluir en la muestra.
 Existen varios factores que influyen en el:
 Tiempo y recursos disponibles
 Modalidad de Muestreo
 Tipo de Análisis Previsto
 Varianza o heterogeneidad de la población
 Margen de Error máximo admisible
 Nivel de confianza de la estimación muestral
 La técnica de análisis influye en el tamaño de la muestra:
 Comparación de Medias
 Estimación de Proporciones ( parámetros)
 Análisis Univariables
 Análisis Multivariables
HETEROGENEIDAD POBLACIONAL
Cuanto mas heterogénea sea la
población mayor será su varianza
poblacional lo que implicará Es directamente
proporcional al nivel
mayores tamaños muestrales. de confianza Z.
Cuando se desconoce el valor de
la varianza poblacional se recurre
al supuesto mas desfavorable, Es directamente
asumiendo una varianza Es inversamente
proporcional al
proporcional a la
variabilidad del
poblacional igual a 0,5. error estimado. fenómeno a
estudiar.
0,5 significa que una unidad
seleccionada tiene 50 % de
posibilidades de pertenecer o no
a un grupo específico dentro de la
población
CÁLCULO DEL TAMAÑO DE LA MUESTRA PARA
POBLACIONES FINITAS. (F=N/N>0,05)

2
NZ pq
n 2
e ( N  1) Z pq
2

p: proporción de individuos que poseen en la población la característica de


estudio. Este dato es generalmente desconocido y se suele suponer que
p=q=0.5 que es la opción más segura.
q: proporción de individuos que no poseen esa característica, es decir, es
1- p.
Cálculo del Tamaño de la
Muestra
Para comparaciones de
*
Para estimación de
media proporciones

2
 zs  z pq 2
n  n  n 1  2
e e

* Para poblaciones infinitas (donde N>> n )


EJEMPLO DEL CÁLCULO DEL TAMAÑO DE
LA MUESTRA (POBLACIÓN INFINITA)

0 Estimando qué proporción de sujetos poseen una


característica al nivel de confianza del 99.7% (Z=3) y un
error de admitido del 2%, será:

32 x50 x50
n 2
 5625
2
MARGEN DE CONFIANZA EN LA ESTIMACIÓN

NIVEL DE VALOR DE
Expresa el grado de CONFIANZA “Z”
probabilidad que el
75% 1.15
investigador tiene en que su
80% 1.28
estimación se ajuste a la
85% 1.44
realidad.
90% 1.65
Los valores comúnmente 95% 1.96
utilizados son 95, 99, 99,9% 97.5% 2.24
99% 2.58
Margen de error admisible
Los incrementos en el tamaño de la muestra repercuten en
una mayor precisión y por consiguiente en menor error
muestral.
El error muestral interviene en el cálculo del tamaño de la
muestra solo si el diseño es probabilístico.
En el muestreo probabilístico se fija el error máximo
admisible a priori y sobre esa base realiza el cálculo del
tamaño de la muestra.
Error Muestral
El error de muestreo ocurre al estudiar una muestra en lugar de
la población total.
La diferencia entre el valor del parámetro de una población y el
obtenido de una muestra recibe el nombre de error muestral.
Por muy perfecta que sea la muestra siempre habrá grado de
divergencia entre los parámetros estimados usándola y los de la
verdadera población.
En el cálculo del error intervienen:
Tamaño de la muestra
Varianza poblacional
Nivel de confianza
Tipo de muestreo
Estimación del Error
Cuando variable bajo Cuando la variable bajo
estudio es una media. estudio es una proporción
(solo válido para variables (ej, variables nominales u
numéricas) ordinales con pocas
categorías)

s pq
ez 1 f ez 1 f
n n 1
Donde: Donde:
Z: grado de confianza de la estimación Z: grado de confianza de la estimación
s: desviación típica muestral de la variable p: proporción de la muestra a examinar
n: tamaño de la muestra q: 1-p
1-f: Factor de corrección para poblaciones n: tamaño de la muestra
finitas. f= n/N 1-f: Factor de corrección para poblaciones
finitas. f= n/N
Intervalos de Confianza
PRUEBA DE NORMALIDAD
La importancia de esta distribución radica en que permite
modelar numerosos fenómenos naturales, sociales y
psicológicos.

Muchos de los procedimientos estadísticos habitualmente


utilizados asumen la normalidad de los datos observados.
Resulta recomendable contrastar siempre si se puede
asumir o no una distribución normal.

Se pueden aplicar las técnicas del histograma, asimetría y


curtosis, graficas de probabilidad y la prueba de chi-
cuadrado, cabe indicar que ninguna de ellas tiene el 100%
de certeza.
Cuando los datos no son normales, se pude bien transformarlos
o emplear métodos estadísticos que no exijan este tipo de
restricciones (los llamados métodos no paramétricos).

Algunas propiedades de la distribución normal son:


- Es simétrica respecto de su media, u
- Distribución de probabilidad alrededor de su media en una
distribución
- La moda y la mediana son ambas iguales a la media, u.
- Los puntos de inflexión de la curva se dan para:
Generalmente la distribución asumida en la mayoría de las
pruebas estadísticas es la normal.
Una forma de verificar si los datos provienen de una
distribución normal , es la Prueba de Bondad de ajuste de
Anderson – Darling.
PRUEBA DE ANDERSON - DARLING

La prueba de Anderson - Darling, se basa en las desviaciones de


las distribuciones acumuladas experimentales respecto a las
teóricas o supuestas. Si los datos no se distribuyen de acuerdo al
supuesto teórico, las distancias de las distribuciones acumuladas
teórica y experimental crecen y se hacen distintas.

El Estadístico de prueba es:

Donde:
N: es el numero de datos.
Y1: es el valor del resultado
estandarizado.
F: función de probabilidad normal
acumulada.
AD: estadístico de Anderson Darling.
Otra forma de evaluar es con el P-value, si el P-
value es menor que el nivel de significancia (a)
los datos no se distribuyen normalmente
El estadístico de contraste es:

C.V. = 0.752

Si AD > CV
Los datos no se distribuyen normalmente al
95% de confianza, caso contrario estos se
distribuyen normalmente.
PRUEBA DE HIPOTESIS
 Una hipótesis estadística es una afirmación sobre los valores de los
parámetros de una población o proceso, la cual es susceptible de probarse
a partir de la información contenida en una muestra representativa que se
obtiene de la población.
 Por ejemplo, la afirmación “este proceso produce menos de 8% de
defectuosos” se puede plantear estadísticamente, en términos de la
proporción p desconocida de artículos defectuosos que genera el proceso,
como se hace a continuación.
Hipótesis nula H0
Hipótesis alternativa Ha
Afirmación acerca del valor de un
Afirmación que se aceptará si los datos
parámetro poblacional que se considera
muestrales proporcionan evidencia de
valida para desarrollar el
que la hipótesis nula es falsa.
procedimiento de prueba.

H0: p = 0.08 (la proporción de defectuosos Ha: p < 0.08 (la proporción es menor a
es 0.08) 0.08)
Estadístico de Prueba
 Probar una hipótesis consiste en investigar, con base en la evidencia contenida
en una muestra seleccionada de manera adecuada, si lo afirmado por la
hipótesis nula es verdad o no, y en caso de ser falso, se toma como verdadera la
alternativa Ha.
 La estrategia para probar la hipótesis parte del supuesto de que Ho es
verdadera, y si los resultados de la investigación contradicen en forma
suficiente dicho supuesto, entonces se rechaza Ho y se acepta la hipótesis
alternativa.
 En caso de que los resultados de la investigación no demuestren claramente la
falsedad de Ho, esta no se rechaza. Es decir, la hipótesis nula es verdadera
mientras no se demuestre lo contrario.
 Una vez planteada la hipótesis se toma una muestra aleatoria de la población
bajo estudio.
 El estadístico de prueba es una formula que permite calcular un numero a
partir de los datos y la hipótesis nula. La magnitud de este numero permite
discernir si se rechaza o no la hipótesis nula Ho. Al conjunto de posibles
valores del estadístico de prueba que llevan a rechazar Ho se le llama región o
intervalo de rechazo para la prueba, y a los posibles valores donde no se
rechaza Ho se les llama región o intervalo de aceptación.
 El estadistico de prueba, construido bajo el supuesto de que H0 es verdad, es
una variable aleatoria con distribucion conocida. Si en efecto, H0 es verdad, el
valor del estadistico de prueba deberia caer dentro del rango de valores mas
probables de su distribucion asociada, el cual se conoce como region de
aceptacion. Pero si cae en una de las colas de su distribución asociada, fuera
del rango de valores mas probables (en la region de rechazo), es evidencia en
contra de que este valor pertenece a dicha distribucion.
El riesgo de una decisión equivocada:
 Probar una hipótesis estadística es una decisión probabilística, por lo tanto,
existe el riesgo de cometer un error tipo I o un error tipo II.
 Error tipo I, es cuando se rechaza Ho y es verdadera, y el
 Error tipo II, es cuando se acepta Ho y es falsa.
 En toda prueba de hipótesis cada tipo de error tiene una probabilidad de
ocurrir.
 Con α y β se denotan las probabilidades de los errores tipo I y II,
respectivamente.
 Así,
α = P{error tipo I} = probabilidad de rechazar Ho cuando es verdadera
β = P{error tipo II} = probabilidad de aceptar Ho que es falsa
PRUEBA T- STUDENT DE UN GRUPO

La distribución t (de Student) es una distribución de probabilidad que surge del


problema de estimar la media de una población normalmente distribuida cuando el
tamaño de la muestra es pequeño.
Aparece de manera natural al realizar la prueba t de Student para la determinación de
las diferencias entre dos medias muéstrales y para la construcción del intervalo de
confianza para la diferencia entre las medias de dos poblaciones cuando se desconoce
la desviación típica de una población y ésta debe ser estimada a partir de los datos de
una muestra.

Es la distribución de probabilidad del cociente

donde
•Z es una variable aleatoria distribuida según una normal típica (de media nula y
varianza 1).
•V es una variable aleatoria que sigue una distribución χ² con grados de libertad.
•Z y V son independientes
Entre los usos más frecuentes de las pruebas t se encuentran:
 El test de muestra única por el cual se comprueba si la media de una población
distribuida normalmente tiene un valor especificado en una hipótesis nula.
 El test para dos muestras, por el cual se comprueba si las medias de dos
poblaciones distribuidas en forma normal son iguales. Todos estos test son
usualmente llamados test t de Student, a pesar de que estrictamente hablando, tal
nombre sólo debería ser utilizado si las varianzas de las dos poblaciones
estudiadas pueden ser asumidas como iguales; la forma de los ensayos que se
utilizan cuando esta asunción se deja de lado suelen ser llamados a veces como
Prueba t de Welch. Estas pruebas suelen ser comúnmente nombradas como
pruebas t desapareadas o de muestras independientes, debido a que tienen su
aplicación más típica cuando las unidades estadísticas que definen a ambas
muestras que están siendo comparadas no se superponen.
 El test de hipótesis nula por el cual se demuestra que la diferencia entre dos
respuestas medidas en las mismas unidades estadísticas es cero. Por ejemplo,
supóngase que se mide el tamaño del tumor de un paciente con cáncer. Si el
tratamiento resulta efectivo, lo esperable sería que el tumor de muchos pacientes
disminuyera de tamaño luego de seguir el tratamiento. Esto con frecuencia es
referido como prueba t de mediciones apareadas o repetidas.
 El test para comprobar si la pendiente de una regresión lineal difiere
estadísticamente de cero.
PRUEBA de WILCOXON
Es una prueba no paramétrica para comparar la mediana de dos muestras
relacionadas y determinar si existen diferencias entre ellas. Se utiliza como
alternativa a la prueba t de Student cuando no se puede suponer la
normalidad de dichas muestras. Debe cumplir las siguientes características:
 Es libre de curva, no necesita una distribución específica
 Nivel ordinal de la variable dependiente
 Se utiliza para comparar dos mediciones de rangos (medianas) y
determinar que la diferencia no se deba al azar (que la diferencia sea
estadísticamente significativa).

Para comparar dos muestras relacionadas; es decir, para analizar datos


obtenidos mediante el diseño antes-después (cuando cada sujeto sirve
como su propio control) o el diseño pareado (cuando el investigador
selecciona pares de sujetos y uno de cada par, en forma aleatoria, es
asignado a uno de dos tratamientos). Pueden existir además otras formas
de obtener dos muestras relacionadas.
PRUEBA de MANN WHITNEY
Prueba U de Mann-Whitney (también llamada de Mann-Whitney-
Wilcoxon, prueba de suma de rangos Wilcoxon, o prueba de
Wilcoxon-Mann-Whitney) es una prueba no paramétrica aplicada a dos
muestras independientes. Es, de hecho, la versión no paramétrica de la
habitual prueba t de Student.

La prueba de Mann-Whitney se usa para comprobar la heterogeneidad de


dos muestras ordinales. El planteamiento de partida es:
 Las observaciones de ambos grupos son independientes
 Las observaciones son variables ordinales o continuas.
 Bajo la hipótesis nula, la distribución de partida de ambos grupos es la
misma y,
 Bajo la hipótesis alternativa, los valores de una de las muestras tienden
a exceder a los de la otra: P(X > Y) + 0.05 P(X = Y) > 0.05.
PRUEBA de LEVENE
Es una prueba estadística inferencial utilizada para evaluar la igualdad de las
varianzas para una variable calculada para dos o más grupos. Algunos procedimientos
estadísticos comunes asumen que las varianzas de las poblaciones de las que se
extraen diferentes muestras son iguales. La prueba de Levene evalúa este supuesto. Se
pone a prueba la hipótesis nula de que las varianzas poblacionales son iguales
(llamado homogeneidad de varianza ú homocedasticidad).

Si el P-valor resultante de la prueba de Levene es inferior a un cierto nivel de


significación (típicamente 0.05), es poco probable que las diferencias obtenidas en las
variaciones de la muestra se hayan producido sobre la base de un muestreo aleatorio
de una población con varianzas iguales. Por lo tanto, la hipótesis nula de igualdad de
varianzas se rechaza y se concluye que hay una diferencia entre las variaciones en la
población. Algunos de los procedimientos que asumen normalmente
homocedasticidad, para lo cual uno puede utilizar las pruebas de Levene, incluyen
análisis de varianza y pruebas t.

La prueba de Levene se utiliza a menudo antes de que una comparación de medias.


Cuando la prueba de Levene muestra significación, se debe cambiar a pruebas
generalizadas (pruebas no paramétricas), libre de supuestos de homocedasticidad.
La prueba también puede ser utilizada como una prueba principal para responder a
una pregunta independiente de si dos sub-muestras en una población dada tienen
varianzas iguales o diferentes.
PRUEBA F
Se denomina prueba F de Snedecor a cualquier prueba en la que el estadístico
utilizado sigue una distribución F si la hipótesis nula no puede ser rechazada. El
nombre fue acuñado en honor a Ronald Fisher.

Si F_calculado > F_tablas ; el modelo restringido es mejor .

 La hipótesis de que las medias de múltiples poblaciones normalmente


distribuidas y con la misma desviación estándar son iguales. Esta es, quizás, la
más conocida de las hipótesis verificada mediante el test F y el problema más
simple del análisis de varianza.
 La hipótesis de que las desviaciones estándar de dos poblaciones normalmente
distribuidas son iguales, lo cual se cumple.
 En muchos casos, el test F puede resolverse mediante un proceso directo. Se
requieren dos modelos de regresión, uno de los cuales restringe uno o más de
los coeficientes de regresión conforme a la hipótesis nula.

El test entonces se basa en un cociente modificado de la suma de cuadrados de


residuos de los dos modelos como sigue:
COMPARACION DE UN GRUPO CON UN VALOR

PRUEBA T- PRUEBA DE
STUDENT DE WILCOXON
UN GRUPO
PRUEBA T- STUDENT DE UN GRUPO

1. Planteamiento de la Hipótesis

2. Nivel de confianza de la Prueba 3. Estadístico de Prueba


4. P value Probabilidad asociada a los
datos experimentales, bajo la
condición de que la Ho es
verdadera.

5. Región de Decisión

6. Conclusión
PRUEBA de WILCOXON

1. Planteamiento de la Hipótesis

2. Nivel de confianza de 3. Estadístico de Prueba


la Prueba
4. P value Probabilidad asociada a los
datos experimentales, bajo la
condición de que la Ho es
verdadera.

5. Región de Decisión

6. Conclusión
COMPARACION DE DOS GRUPOS

PRUEBA DE
LEVENE

PRUEBA T- PRUEBA DE MANN


STUDENT DE UN WHITNEY
GRUPO
PRUEBA F
ESTADISTICOS DE TENDENCIA CENTRAL
PRUEBA T- STUDENT DE DOS GRUPOS

1. Planteamiento de la Hipótesis

2. Nivel de confianza de la Prueba 3. Estadístico de Prueba


4. P value Probabilidad asociada a los
datos experimentales, bajo la
condición de que la Ho es
verdadera.

5. Región de Decisión

6. Conclusión
PRUEBA de MANN WHITNEY

1. Planteamiento de la Hipótesis

2. Nivel de confianza de 3. Estadístico de Prueba


la Prueba
4. P value Probabilidad asociada a los
datos experimentales, bajo la
condición de que la Ho es
verdadera.

5. Región de Decisión

6. Conclusión
ESTADISTICOS DE MEDIDAS DE DISPERSION
PRUEBA F

1. Planteamiento de la Hipótesis

2. Nivel de confianza de la 3. Estadístico de Prueba


Prueba
4. P value Probabilidad asociada a los
datos experimentales, bajo la
condición de que la Ho es
verdadera.

5. Región de Decisión

6. Conclusión
PRUEBA de LEVENE

1. Planteamiento de la Hipótesis

2. Nivel de confianza de 3. Estadístico de Prueba


la Prueba
4. P value Probabilidad asociada a los
datos experimentales, bajo la
condición de que la Ho es
verdadera.

5. Región de Decisión

6. Conclusión
ANALISIS DE REGRESION
Conjunto de técnicas que son usadas para establecer una
relación entre una variable cuantitativa llamada variable
dependiente y una o mas variables independientes, llamadas
predictores.

Estas también deberían ser


cuantitativas, sin embargo
algunas de ellas podrían
ser cualitativas.

El modelo de regresión, es
una ecuación que
representa la relación entre
las variables
El modelo de Regresión Lineal simple:

𝑌𝑖 = 𝛼 + 𝛽𝑋𝑖 + ei

Suposiciones del modelo:


- La variable X es no aleatoria.
- Los errores ei , son variables aleatorias con media
0 y varianza constante 𝜎2
- Los errores son independientes entre si.
- Si los residuos tienen distribución normal, significa
que la prueba es consistente.
Se debe minimizar:

Derivando se obtiene un par de ecuaciones


normales para el modelo, cuya solución produce:
La pendiente ᵝ indica el cambio promedio en la variable
de respuesta cuando la variable predictora aumenta en
una unidad adicional.

El intercepto a indica el valor promedio de la variable


de respuesta cuando la variable predictora vale 0. Sin
embargo carece de interpretación practica si es
irrazonable pensar que el rango de valores de X incluye
a cero.

ᵝ es la variación que se produce en Y por cada unidad


de incremento en X.
Coeficiente de Correlación
Es una medida de la asociación lineal de las variables X e Y. Indica la
fuerza y la dirección de una relación lineal y proporcionalidad entre dos
variables estadísticas. Se considera que dos variables cuantitativas
están correlacionadas cuando los valores de una de ellas varían
sistemáticamente con respecto a los valores homónimos de la otra: si
tenemos dos variables (A y B) existe correlación si al aumentar los
valores de A lo hacen también los de B y viceversa. La correlación
entre dos variables no implica, por sí misma, ninguna relación de
causalidad

Si r = 1 la relación lineal es positiva perfecta entre X e Y.

Si r = -1 la relación lineal es negativa perfecta entre X e Y.

Si r = 0 no existe relación lineal entre X e Y.


Análisis de la Varianza

La desviación de un valor observado con respecto a la media


se puede describir como:
Coeficiente de Determinación
Estadístico que representa la proporción de variación explicada por
la regresión..
Es una medida relativa del grado de asociación lineal entre X e Y.

Si R2 = 0 El modelo no explica nada de Y a


partir de X.

Si R2 = 1 Ajuste perfecto Y depende funcionalmente


de X.

Un valor de R2 cercano a 0 Baja capacidad explicativa de la recta.

Un valor de R2 cercano a 1 Alta capacidad explicativa de la recta.

También podría gustarte