Está en la página 1de 44

Control estadístico de la calidad

CAPÍTULO I.-
Presentación de los datos.
Estadística.
La ciencia estadística es un cuerpo de principios, axiomas y desarrollos cuantitativos mediante
los cuales los matemáticos han llegado a constituir métodos y técnicas específicas, aplicables al
procesamiento de la información dada por diversos tipos de datos.

Estadística Aplicada.
Es una rama de la ciencia estadística que trata de la aplicación del método científico en el análisis
de datos, con la finalidad de tomar decisiones racionales.

1. Aplicación: se refiere al uso de métodos y técnicas específicas. Se considera una


herramienta.
2. Método científico: metodología fundamentada en principios sólidos y sistemáticos,
dentro de la racionalidad más estricta.
3. Análisis de datos: es el proceso sobre el que actúa la estadística aplicada.
4. Toma de decisiones: es la meta final a la que conduce la estadística aplicada.

Estadística Descriptiva.
Tiene por objeto la recopilación, organización y caracterización de un conjunto de datos, con la
finalidad de describir en la forma más apropiada las cualidades y características este conjunto
especifico de datos. Rama de la estadística que describe conjunto de mediciones, tanto en
muestras como en poblaciones.

Estadística inductiva o inferencial


Tiene por objeto estimar las características de una población, a partir de los datos de una
muestra.

Herramientas Estadística en el diseño de investigación.


Existe una relación entre los diseños de investigación y el uso de herramientas estadísticas
adecuadas a los diseños, tal como se indica en la siguiente tabla:
Tipo de diseño Características Herramientas
1. Muestra aleatoria Estadística descriptiva
Experimental 2. Grupos de contraste
3. Control de variables Estadística inferencial
Quasi-experimental
Falta una de las tres Estadística descriptiva
Estadística inferencial

No experimental Pueden faltar las tres Estadística descriptiva

Tabla 1

Trabajo para el participante Nro.01


1. En que consiste la investigación científica, de ejemplos.
2. De una breve descripción de los métodos de investigación más comunes.
3. Cuando hablamos de “Control de Calidad” de qué tipo de investigación estamos
ablando.
4. Cuales herramientas estadísticas usamos en el control de calidad.
Terminología.
La estadística posee una terminología propia y específica, existe una serie de palabras cuyo
significado cuando se maneja en el contexto de la estadística es diferente al dado en el lenguaje
coloquial o en cualquier otro contexto.
Población o Universo.
Se denomina población o universo a todos los elementos de un conjunto de tipo definido, sobre
el cual queremos investigar una característica o propiedad. Es el conjunto de todas las
mediciones de interés para el investigador. Estos objetos, sucesos y/o personas deberían tener
al menos una característica común observable.
Ejemplo: sacos de cemento la producidos por una planta durante el día dd/mm/aa.
Lote.
Se denomina lote a una población de tamaño finito, constituida generalmente por la producción
lograda en un lapso determinado, o por un área determinada ubicada en una superficie de
mayor extensión.
Ejemplo: sacos de cemento la producidos por una planta entre las 10 am y las 11 am del día
dd/mm/aa.
Tamaño de lote.
Por tamaño de lote debe entenderse la extensión en superficie, el volumen de un material o el
número de unidades que forman parte de una población finita mayor y que ha sido seleccionada
para ser sometida a un proceso de inspección para asegurar la calidad de la misma.
Muestra.
Se denomina muestra al sub conjunto de elementos que se extraen al azar en un lote sometido
a un proceso de inspección. Es una parte de la población que posee los mismos rasgos
característicos que ésta.
Muestra con replica.
Cuando escogemos una muestra de una población y medimos una determinada característica
en cada uno de los elementos, haciendo varias determinaciones de la medida en cada elemento,
decimos que se trata de una muestra de mediciones con replica.
Fases del proceso estadístico.
Las fases del proceso estadístico, dentro del campo de la estadística descriptiva, son las
siguientes:

1. Formulación de la meta a lograr.


2. Búsqueda de fuentes de información.
3. Recopilación de datos.
4. Sistematización de datos, mediante tablas.
5. Producción de gráficos.
6. Análisis cuantitativo de los datos.
7. Producción de conclusiones, de acuerdo a la meta.

Variable.
Es una característica que cambia o se modifica con el tiempo y/o para diferentes individuos u
objetos en consideración.
Ejemplo: en un solo individuo la temperatura corporal es una variable que cambia con el tiempo,
también difiere de una persona a otra.
Unidad experimental.
Es el individuo u objeto en el que se mide una variable. Una medición o dato resulta cuando se
mide una variable en una unidad experimental.
Rango de observación.
Cuando realizamos un experimento y en especial cuando obtenemos datos de mediciones
realizadas en un proceso de inspección, observamos que dichos datos son agrupan en dos
valores extremos, notándose que la agrupación es más concentrada en algunos entornos
limitados ubicados entre los valores extremos. El entorno “total” limitado por los valores
extremos recibe el nombre de rango de la observación.
Intervalo de observación.
Si el entorno total o rango es dividido en varios sub-entornos de igual magnitud, de forma tal de
visualizar mejor como se distribuyen los valores observados, tales sub-entornos reciben el
nombre de intervalo de observación.
Datos cualitativos y cuantitativos.
Los datos son los registros de los resultados de una serie de medidas y/o observaciones de un
fenómeno o evento determinado. La clasificación más elemental de los datos indica que estos
pueden ser cualitativos (o nominales) y cuantitativos. Los datos cualitativos son categóricos, es
decir no se puede realizar operaciones matemáticas con ellos ni se pueden cuantificar
directamente, mientras que los datos cuantitativos se expresan directamente por un número
que indica cantidad y con ellos puedes realizar operaciones matemáticas.
Ejemplos:

 ¿Cuáles materias tomara en el curso de verano? (matemática y estadística). Cualitativa.


 ¿Cuántas materias tomara en el curso de verano? (2 materias). Cuantitativa.

Toma y ordenamiento de datos.


Cualquier serie de datos, cualitativos o cuantitativos, constituyen un flujo de información que
procede de observaciones o mediciones previamente realizadas.
La de información para la toma de datos puede ser directa, es decir mediante la aplicación de
un instrumento de medida y/o de observación que hace el investigador, o bien indirecta, es
decir, utilizando resultados de medidas y/o observaciones ya realizadas por otras personas y/o
entidades y que se encuentran disponibles en archivos, reportes, etc. Por ejemplo, si queremos
saber la edad de los trabajadores de una empresa, una fuente directa será mediante una
encuesta donde se le preguntaría a cada trabajador su edad y la fuente indirecta seria recabar
los datos a partir de los archivos del departamento de talento humano. Una vez localizada la
fuente de datos, la operación siguiente es la preparación de una planilla o tabla que permita
organizar la información.
Partes de una tabla estadística.
Una tabla estadística resulta muy útil como una primera aproximación a la sistematización y
organización de los datos recolectados.
Los elementos que caracterizan a una tabla estadística son:

 Encabezamiento general de la tabla.


 Disposición de las celdas (filas y columnas) en las que se anotaran los datos, cada una
de ellas encabezada por su título correspondiente.
 Unidad de medida, este aspecto es fundamental para efectos de la organización y
coherencia de los datos contenidos en la tabla.
 Aproximación de cifras. Se redondea según la ley del 5, cifra con valor de 5 o mayor se
elimina añadiendo una unidad a la cifra inmediata con orden superior.

Clasificación de las tablas.


No existe un modelo fijo de tablas, algunos autores las han clasificado en tres tipos: simples
agrupadas y combinadas. Supongamos una situación para representar mediante una tabla el
número de accidentes laborales en una empresa. Esta se expresa en la más elemental.
Accidentes laborales en la empresa XX .
Años Número de accidentes
2010 85
2011 76
2012 70
2013 62
2014 55
Tabla 2

A los efectos de comparar entre los diferentes tipos de tablas (simple, agrupada y combinada),
tenemos el siguiente ejemplo:
Ejemplo 1.- Una empresa que ensambla maquinaria posee dos líneas de producción (línea A y
línea B), en cada línea de ensamblaje se seleccionó cinco maquinas con defectos de calidad como
lo son de pintura, de ajuste y de embalaje. La información se representa en las siguientes tablas
estadísticas.

A) Tabla Simple. Representamos la información en la siguiente tabla simple que


constituye una lista de observaciones de diez objetos defectuosos ensamblados por dos
líneas de producción.

DEFECTOS DE PINTURA, DE AJUSTE Y DE EMBALAJE


LÍNEA DE ENSAMBLAJE DEFECTOS DE CALIDAD
A pintura
A ajuste ensamblaje
A ensamblaje
A ensamblaje
A ajuste pintura
B ajuste ensamblaje
B pintura
B ensamblaje
B ajuste pintura
B pintura ensamblaje
Tabla 3

B) Tabla Agrupada. Esta misma información se puede representar de una manera más
elaborada, en forma de tabla agrupada.

DEFECTOS DE PINTURA, DE AJUSTE Y DE EMBALAJE


DEFECTOS DE CALIDAD
LÍNEA DE ENSAMBLAJE Ajuste Pintura Ensamblaje
A X
A X X
A X
A X
A X X
B X X
B X
B X
B X X
B X X
Tabla 4
C) Tabla combinada. Esta información se puede presentar en forma de tabla combinada
de doble entrada, que permite visualizar la cuantificación de los defectos por línea de
producción.

DEFECTOS DE PINTURA, DE AJUSTE Y DE EMBALAJE


DEFECTOS DE CALIDAD
LÍNEA DE ENSAMBLAJE Ajuste Pintura Ensamblaje
A 2 2 3
B 2 3 3
Total 4 5 6
Tabla 5

Los resultados de la tabla 5 se pueden llevar a proporciones porcentuales, que permiten una
representación más precisa de la realidad, según se puede apreciar en la tabla 5a.

DEFECTOS DE PINTURA, DE AJUSTE Y DE EMBALAJE


DEFECTOS DE CALIDAD
LÍNEA DE ENSAMBLAJE Ajuste Pintura Ensamblaje TOTAL %
A 2 2 3 7 46.67
B 2 3 3 8 53.33
TOTAL 4 5 6 15 100
% 26.67 33.33 40.00 100
Tabla 5a

La comparación de los tres tipos de tabla permite apreciar las ventajas que ofrece la tabla
combinada sobre la tabla agrupada y esta última sobre la tabla sencilla, para efectos de producir
un reporte más breve y eficaz.

Ejemplo 2.- Los defectos encontrados en una toma de cien (100) muestras de pantalones,
distribuidos en diez (10) lotes, sometidos a un control de calidad.
Los defectos encontrados son de: longitud (LO), anchura (AN) y acabado (AC), según aparecen
registrados en la tabla 6.

A) Tabla Simple.

DEFECTOS OBSERVADOS EN 10 LOTES DE PANTALONES


Lote Errores observados
1 Anchura
2 Longitud
3 Longitud
4 Longitud Anchura Acabado
5
6 Longitud Acabado
7 Longitud Anchura
8 Longitud Anchura Acabado
9 Anchura Acabado
10 Longitud Anchura Acabado
Tabla 6
B) Tabla agrupada. Esta misma información se puede representar de una manera más
elaborada, en forma de tabla agrupada.

DEFECTOS DE LONGITUD (LO), ANCHURA (AN) Y ACABADO (AC)


OBSERVADOS EN 10 LOTES DE PANTALONES
Errores observados
Grupo LO AN AC
1 X
2 X
3 X
4 X X X
5
6 X X
7 X X
8 X X X
9 X X
10 X X X
Tabla 7

C) Tabla combinada. Esta información se puede presentar en forma de tabla combinada de


doble entrada, que permite visualizar la cuantificación de los tipos de errores
observados.

DEFECTOS DE LONGITUD (LO), ANCHURA (AN) Y ACABADO (AC)


OBSERVADOS EN 10 LOTES DE PANTALONES
Errores observados
LO AN AC
Total 7 6 5
Tabla 8

Los resultados mostrados en la tabla 8 se pueden llevar a proporciones porcentuales, que


permiten una representación más precisa de la información.

DEFECTOS DE LONGITUD (LO), ANCHURA (AN) Y ACABADO (AC)


OBSERVADOS EN 10 LOTES DE PANTALONES
Errores observados
LO AN AC Total
7 6 5 18
% 39 33 28 100
Tabla 8a

Reglas para elaborar tablas estadísticas.

1. Seleccionar el tipo de tabla que más se ajuste a la situación a ser representada.


2. Decidir la orientación (horizontal o vertical) de la tabla para la variedad y volumen de
los datos a representar.
3. Indicar el código numeral (tabla 1…) o literal (tabla A…) correspondiente a la secuencia
e incluir en el titulo una breve explicación del contenido de la tabla, de modo que logre
el objetivo de auto explicarse.
4. Encabezar cada celda con la categoría de datos a representar.
5. Los valores de los datos cuantitativos correspondientes a cada categoría deben ser
expresados en las mismas unidades de medida, las unidades se anotarán en el
encabezamiento correspondiente a cada categoría.
6. Las categorías deben ser homogéneas y mutuamente excluyentes.

Trabajo para el participante. (Nro.02)


En una empresa Constructora se reportaron accidentes laborales en dos diferentes obras (la
construcción de un edificio y la de un puente).
Edificio. Puente.
1. Por Golpe (PG) = 12 1. Por Golpe (PG) = 7
2. Por Contacto (PC) = 0 2. Por Contacto (PC) = 0
3. Por pegar contra (PP) = 5 3. Por pegar contra (PP) = 3
4. Por Contacto con (CC) = 0 4. Por Contacto con (CC) = 0
5. Por Atrapamiento (AT) = 1 5. Por Atrapamiento (AT) = 4
6. Por Prendimiento (P) = 0 6. Por Prendimiento (P) = 0
7. Por Aprisionamiento (AP) = 0 7. Por Aprisionamiento (AP) = 1
8. Por caída a desnivel (CD) = 2 8. Por caída a desnivel (CD) = 1
9. Por caída a nivel (CN) = 1 9. Por caída a nivel (CN) = 1
10. Por Sobreesfuerzo (SE) = 6 10. Por Sobreesfuerzo (SE) = 4
11. Por Exposición a.(PE) = 0 11. Por Exposición a.(PE) = 5

1. Se pide determinar cuál de las dos obras es más peligrosas cualitativamente.


2. Se pide determinar cuál de las dos obras es más peligrosas cuantitativamente.
(justificaría su respuesta en ambos casos)
Nota: cuando hablamos de peligrosa es la que tiene más probabilidad de que sucedan accidentes.
Gráficos estadísticos.
En el contexto de la representación gráfica estadística se usan los ejes cartesianos (X,Y),
generalmente en el primer cuadrante y en algunas ocasiones los cuadrantes I y II.
En los gráficos estadísticos los ejes cartesianos no funcionan a escala única, pudiendo diferir la
escala de X con la de Y de acuerdo a las necesidades del estudio realizado.
Dependiendo de los datos a graficar, tenemos los siguientes tipos de gráficos estadísticos: De
barras. Acumulativos. Circulares. Polígonos de frecuencia. Histogramas.

Pasos del proceso de graficación.

1. Decidir el tipo de grafico dependiendo de los tipos de datos a representar.


2. Crear el marco del gráfico, determinando las longitudes de los ejes X e Y. generalmente
entre los ejes Xe Y hay una relación de longitud de ¾.
3. Trazar los ejes de coordenadas, con las longitudes ya determinadas.
4. Identificar los ejes, anotando en los extremos de cada eje el nombre de las
características o datos a representar. Cuando se representan datos nominales frente a
datos cuantitativos, los primeros se suelen colocar en el eje de las X y los segundos en
el eje de las Y.
5. Anotar los valores en los ejes correspondientes.
6. Una vez señalados los valores extremos en los ejes, se procede a marcar las divisiones
intermedias, de modo que queden los puntos divisorios distribuidos equitativamente.
7. Una vez preparados los ejes, se procede a representarlos datos en el tipo de gráfico.

Tipos de Gráficos.
Diagrama de barras.
El grafico de barras es el indicado para representar situaciones descriptivas de poblaciones y/o
producción, del tipo que se indica en la Tabla 2, que es una tabla simple en la que se representan
datos cuantitativos de poblaciones frente a datos nominales (años).

Gráfico de Barras
Accidentes Laborales en la empresa XX
Otra modalidad de presentación de los gráficos de barras es mediante la presentación vertical
de los mismos.

Gráfico de Barras
Accidentes Laborales en la empresa XX

Trabajo para el participante. (Nro.03)


Represente gráficamente la siguiente información en forma de gráfico de barra (distribución
vertical y horizontal):

Inversiones en el sector publico


Años Millardos
1990 200.000
1991 250.000
1992 350.000
1993 370.000
1994 420.000
Tabla 9

Gráfico de zona circular.


Este tipo de grafico tiene una amplia gama de aplicaciones, especialmente cuando se manejan
datos cualitativos expresados en porcentajes. Tiene, no obstante, la limitación de que no se
puede utilizar para un gran volumen de datos.
Para los mismos datos de los gráficos 1 y 2, la representación circular es la mostrada en el grafico
3.
Diagrama circular o de torta
Accidentes laborales en la Empresa XX

Grafico 3
Representación gráfica del diagrama circular o de torta para los egresados del IUT Los Ilustres
en una carrera determinada como indica en la Tabla 10.

Egresados en el IUT Los Ilustres


Años Millardos
1990 85
1991 99
1992 38
1993 24
1994 52
1995 60
1996 110
1997 126
1998 80
1999 75
Tabla 10

Diagrama Circular o de torta


Egresados en el IUT Los Ilustres

Grafico 4
Para elaborar un gráfico de torta o circular, se debe llevar los datos a porcentaje y este
porcentaje se multiplica por los 360° que tiene la circunferencia, el resultado es el ángulo o
porcentaje de la circunferencia correspondiente al dato determinado. Por ejemplo: Represente
gráficamente la siguiente información en forma de grafico circular.

Años Beneficios Netos (USD)


2000 200.000
2001 250.000
2002 350.000
2003 370.000
2004 420.000
Tabla 11

Para la representación, se requiere realizar unas operaciones matemáticas previas, que se


ejemplifican a continuación anotándose los resultados en la columna “Ángulo del sector”.
Años Beneficio Angulo del sector
1990 200.000 45°
1991 250.000 57°
1992 350.000 79°
1993 370.000 84°
1994 420.000 95°
Total 1.590.000 360°
Tabla 12

Las operaciones matemáticas consisten en dividir cada uno de los datos anuales entre el total y
el resultado se multiplica por 360°.

200.000/1.590.000 x 360° = 45°


250.000/1.590.000 x 360° = 57°

y así sucesivamente hasta agotar los datos. La siguiente operación consiste en trazar un circulo,
tomar en él un radio referencial y, con ayuda de un transportador, trazar las divisiones
correspondientes a cada uno de los valores a representar.

Gráficos de frecuencia.
Este tipo de grafico es usual en estadística para representar “distribuciones de frecuencia”. La
frecuencia, en estadística, hace referencia al número de veces que se presenta un suceso, evento
o fenómeno, en una observación dada. Dependiendo del volumen y variedad de datos, las
distribuciones de frecuencia se representan en las modalidades “para datos no agrupados” y
“para datos agrupados”.

Datos no agrupados.
La información se debe registrar en una tabla sencilla en la que se anotan los datos y la
frecuencia de cada dato. Por ejemplo, un grupo de estudiantes obtienen tienen calificaciones en
una prueba determinada y se presentan en la siguiente tabla:

Distribución de frecuencia
Calificaciones Frecuencia
2 3
3 6
4 8
5 10
6 18
7 11
8 9
9 6
10 4
Tabla 13

El tipo de grafico idóneo para esta situación es el “polígono de frecuencias “mostrado en el


grafico 5.
Poligono de Frecuencia
Distribucion de calificaciones

Grafica 5

Trabajo para el participante. (Nro.04)

Represente gráficamente la siguiente información en forma de gráfico de torta.


Inversiones en el sector publico
Años Millardos
1990 200.000
1991 250.000
1992 350.000
1993 370.000
1994 420.000
Tabla 9
La Tabla 14 corresponde a las calificaciones en escala del 1 al 20 de un examen dado.
Represéntela gráficamente en un polígono de frecuencias.
Calificaciones Frecuencia
2 3
3 6
4 8
5 10
6 18
7 24
8 27
9 29
10 32
11 28
12 26
13 25
14 22
15 19
16 16
17 14
18 12
19 9
20 5
Tabla 14
Datos agrupados.
Cuando los datos están agrupados en distribución de frecuencia por clases, la representación
gráfica apropiada es el histograma.

Histograma
Distribución de calificaciones.

Grafico 6

Agrupación de datos
Los datos se agrupan cuando el número de valores (la frecuencia total) es igual o mayor que 100
y el rango de valores extremos es grande también, como en el caso de los valores representados
en la tabla 14. La agrupación de datos es muy útil pues permite sintetizar la información. En la
agrupación se sustituye cada grupo de datos individuales por un intervalo llamado “intervalo de
clase” que incluye a estos datos. Del mismo modo, las frecuencias correspondientes a los datos
incluidos en cada intervalo se suman.

Calificaciones Frecuencias Clases Frecuencias


02 3
03 6
04 8
05 10 (02 – 05) 3 + 6 + 8 + 10
06 18
07 24
08 27
09 29 (06 – 09) 18 + 24 + 27 + 29
10 32
11 28
12 26
13 25 (10 – 13) 32 + 28 + 26 + 25
14 22
15 19
16 16
17 14 (14 – 17) 22 + 19 + 16 + 14
18 12
19 9
20 5 (18 – 20) 12 + 9 + 5
Tabla 14a
De este modo, los datos no agrupados de la tabla quedan organizados de la siguiente forma:

Clases Frecuencias
(02 – 05) 27
(06 – 09) 98
(10 – 13) 101
(14 – 17) 71
(18 – 20) 26
Tabla 14b

Estos datos se representan en forma de histograma:

Histograma
Distribución de calificaciones por clases.

Grafica 7

Trabajo para el participante. (Nro.05)


En la siguiente tabla se representan las edades de pacientes agrupadas por clases.
Represéntela gráficamente en forma de histograma.

Clases Frecuencias
(19 – 21) 21
(15 - 18) 32
(12 – 15) 37
(10 – 12) 45
(07 – 09) 40
(04 – 06) 35
(01 – 03) 20
Tabla 15
CAPITULO II.-
Medidas descriptivas
Medidas de tendencia central
Las principales medidas de tendencia central utilizadas en estadísticas para una muestra o
población son las denominadas promedios entre las que se encuentran la media aritmética, la
mediana y la moda.
La media aritmética o “media” es una medida muy descriptiva de cualquier característica
cuantificable de una muestra o población. La media se puede denotar con una letra mayúscula
correspondiente a la variable, encima de la cual se coloca una tilde, esto es:

que significa respectivamente la media de los valores de X y la media de los valores de Y. No


obstante, la denotación más práctica es con la letra mayúscula M, seguida del subíndice
indicativo de los valores, de modo que M X denota la media de los valores de la variable X y M Y
la media de los valores de la variable Y.
existen varias maneras de calcular las “medias”, dependiendo de las características de los datos
y del modo como éstos vienen organizados. Así, cuando los datos son equivalentes en peso, se
calcula la media aritmética “simple”, en tanto que cuando los datos tienen diferente
ponderación, lo indicativo es calcular la media aritmética “ponderada”.
Del mismo modo, existe un procedimiento especifico cuando los datos están organizados en
forma de distribución de frecuencias (caso a) y cuando los datos están agrupados por clases
(caso b).
A continuación, veremos cómo se resuelven estos casos mediante el uso de fórmulas específicas:
Notación con subíndice i y notación sumatoria ∑.
La notación con subíndice i, muy utilizada en estadística, en la que se trabaja con varios valores
de una variable, es indicativa de “todos los sucesivos valores de la variable”, de tal modo que:
X1 corresponde al primer valor de la variable X; X2 corresponde al segundo valor de la variable
X; X3 corresponde al tercer valor de la variable X y así sucesivamente, en general, XI se refiere a
todos los valores de X.
La sumatoria es un operador matemático indicativo de la orden de sumar todos los valores. La
notación del operador “sumatoria” es la letra griega sigma mayúscula ∑ de tal modo que la
expresión:

Significa sumar todos los valores de X, desde el primero al enésimo. En la práctica no se utiliza
la notación completa, sino únicamente la notación abreviada:

Media aritmética simple.


Es el caso más elemental, se realiza según la fórmula:

(Fórmula 1)

En donde N es el número de datos. Como ejemplo en la siguiente tabla se presentan las


calificaciones obtenidas por un grupo de estudiantes. A partir de esos valores, calcular la media
de las calificaciones.
Estudiantes Calificaciones
1 12
2 15
3 10
4 20
5 17
6 14
7 11
8 9
9 7
10 8
N = 10 ∑Xi = 123
Tabla 16

Aplicando la fórmula 1 resulta MX = 123/10 → MX = 12,3

Media aritmética ponderada.


Se utiliza esta modalidad para calcular la media cuando los valores no tienen pesos equivalentes,
mediante la fórmula siguiente:

(Fórmula 2)

Donde Pi es el peso de cada uno de los valores de X.


Ejemplo: un estudiante ha calificado 10 puntos en estadística que tiene 4 unidades crédito, 6
puntos en castellano que tiene 5 unidades crédito, 7 puntos en física que tiene 2 unidades
crédito y 8 puntos en matemática que tiene 6 unidades crédito. Cual será su promedio de
calificaciones.

(calificaciones) (Peso)
10 4 40
6 5 30
7 2 14
8 6 48
∑Pi = 17 ∑Xi Pi = 132
Tabla 17
MX = ∑Xi Pi / ∑Pi = 132/17 → MX = 7,76

Media aritmética para distribución de frecuencias


Cuando los datos distribuidos según sus frecuencias, la media se calcula según la siguiente
formula.

Mx = ∑Xi fi / ∑fi (Formula 3)

En donde fi es la frecuencia de cada uno de los X.


Ejemplo: Calcular la media de las calificaciones dadas en la siguiente distribución de frecuencias:

Calificaciones Frecuencias
(X) (f)
10 4
9 6
8 7
7 9
6 10
5 8
4 6
3 4
2 3
1 1
Tabla 18

Para realizar los cálculos, se disponen los datos en una tabla a la que se le añade una tercera
columna (Xi fi) para anotar en ella el producto de cada valor de la variable X por su frecuencia
correspondiente.

Calificaciones Frecuencias Xi fi
(X) (f)
10 4 40
9 6 54
8 7 56
7 9 63
6 10 60
5 8 40
4 6 24
3 4 12
2 3 6
1 1 1
∑ fi = 58 ∑ Xi fi = 356
Tabla 18a

Sustituyendo en la fórmula 3 tenemos MX = 356/58 → MX = 6,13.

Media aritmética para datos agrupados


Cuando los datos de la variable están organizados en forma agrupada, es decir, por clases, los
cálculos para la media se realizan mediante la fórmula siguiente:

Mx = ∑ Mi fi / ∑ fi (fórmula 4)
En donde Mi es la marca de clase.

Ilustraremos la manera de calcular la media en esta situación con un ejemplo, usando la


siguiente base de datos que registra las calificaciones de un grupo de estudiantes.
Clases Frecuencia
(19 – 21) 3
(16 – 18) 5
(13 – 15) 7
(10 – 12) 6
(07 – 09) 4
(04 – 06) 3
(01 – 03) 1
Tabla 19
Para realizar las operaciones, se intercala una columna (marca de clase) y una segunda para
anotar el producto (Mi fi).
Clases Marca Frecuencia Mi fi
(19 – 21) 20 3 60
(16 – 18) 17 5 85
(13 – 15) 14 7 98
(10 – 12) 11 6 66
(07 – 09) 8 4 32
(04 – 06) 5 3 15
(01 – 03) 2 1 2
∑ fi = 29 ∑ Mi fi = 358
Tabla 19a
MX = 358/29 → MX = 12,34

Mediana.
Esta es una medida de tendencia central que indica el punto de división de los datos en la mitad,
es decir “el valor central de una distribución de datos”. Al igual que la media se utiliza
únicamente para datos cuantitativos. Para determinar la mediana, los datos se organizan en
secuencia de valores, anotando también los valores repetidos, se calcula el punto medio
dividiendo entre 2 el número de datos N y se identifica cual es el valor del dato que ocupa el
lugar del punto medio de la secuencia de valores.
Pueden ocurrir dos casos que N sea par o impar.

 Cuando N es impar, el valor de N/2 se redondea al entero superior. Por ejemplo, si N =


19, como 19/2 = 9,5, la mediana se ubicará en el valor de la X que ocupe el décimo lugar.
 Cuando N es par, la mediana es el promedio de los dos valores que ocupan los lugares
centrales. Por ejemplo, si N = 18 y 18/2 = 9, la mediana corresponde al promedio de los
valores que ocupen los lugares noveno y décimo.

La variable X son los valores constituidos por los resultados de la evaluación del desempeño de
un grupo de trabajadores.
Ejemplo A
X 9 8 8 7 7 6 5 4 3 3 2 2 1
Lugar 1° 2° 3° 4° 5° 6° 7° 8° 9° 10° 11° 12° 13°
Tabla 20
Mdn = 5
Ejemplo B
X 9 8 8 7 7 6 4 4 3 3 2 2
Lugar 1° 2° 3° 4° 5° 6° 7° 8° 9° 10° 11° 12°
Tabla 20a
Mdn = (6 + 4)/2 → Mdn = 5
Ejemplo. Calcular la mediana para la base de datos siguientes, en la que la variable X son las
calificaciones de un grupo de estudiantes.

X Frecuencias
10 4
9 6
8 7
7 9
6 10
5 8
4 6
3 4
2 3
1 1
Tabla 21

Para realizar los cálculos, se coloca una columna para anotar las frecuencias acumuladas. Estas
frecuencias se acumulan trabajando de abajo hacia arriba.

X Frecuencias Frec. Acum.


10 4 58
9 6 54
8 7 48
7 9 41
6 10 32
5 8 22
4 6 14
3 4 8
2 3 4
1 1 1
Tabla 21a

Como el número de datos es 58, al dividir 58/2 = 29, el cual se encuentra en 32 frecuencia
acumulada.
Mdn = 6

Cuando los datos están agrupados por clases, la mediana se calcula de manera aproximada, por
ejemplo:

Clases Frecuencias
(19 – 21) 23
(16 – 18) 35
(13 – 15) 47
(10 – 12) 56
(07 – 09) 44
(04 – 06) 33
(01 – 03) 12
Tabla 22
Para esta base de datos, se añade una columna donde anotamos las frecuencias acumuladas.

Clases Frecuencias Frec. Acum.


(19 – 21) 23 250
(16 – 18) 35 227
(13 – 15) 47 192
(10 – 12) 56 145
(07 – 09) 44 89
(04 – 06) 33 45
(01 – 03) 12 12
Tabla 22a

En este caso tenemos 250/2 = 125 el cual corresponde a al lugar de la clase (10 – 12), entonces
la mediana es igual a 11.
La clase mediana es (10 – 12)

Moda.
Medida de tendencia central que puede ser usada tanto en datos cuantitativos como
cualitativos. Se define como el valor más frecuente en una distribución y tiene el significado de
que muestra el valor más característico de una serie de datos.
De las calificaciones de un grupo de estudiantes tenemos:

X 10 10 9 9 9 8 8 7 7 5 5 5 5 4 4 3
Tabla 23
Mod = 5

Hay casos en que encontramos dos valores más frecuentes, los llamamos bimodal, por ejemplo

X 10 10 9 9 8 8 8 7 7 7 5 5 5 4 3 2 1
Tabla 24
Mod = 7 y Mod = 8

Pueden existir distribuciones que presentan más de una, dos, tres modas etc. A estas se las
denomina, en general, multimodal.
A continuación, mostramos un caso especial en donde no existe moda, estos casos son
conocidos como “amodal”

X 17 16 14 12 11 10 9 8 7 6 5 4 3 2 1
Tabla 24
“Amodal”

Cuando los datos vienen dados en forma de distribución de frecuencia no agrupados, la moda
se identifica por ser la variable de más elevada frecuencia, tal como veremos en la siguiente
tabla de edades de un grupo de estudiantes.
Valores de X Frecuencias
13 21
12 25
11 32
10 17
9 21
Tabla 25
Moda = 11

Cuando los datos están agrupados por clases, la moda se calcula de manera aproximada, como
se muestra en el ejemplo siguiente

Clases Frecuencia
(50 – 55) 23
(44 – 49) 25
(38 – 43) 39
(32 – 37) 41
(26 – 31) 39
(20 – 25) 23
Tabla 26

La mayor frecuencia es 41, que corresponde a la clase (32 – 37). Por lo tanto, la moda está
incluida en la clase (32 – 37), por lo cual se denomina clase modal. Asimismo, de modo
aproximado, se puede expresar la moda en función de la marca de clase, que en este caso sería:
Mod = 35,5.
Medidas de dispersión.
Como ya se expresó en el objetivo anterior, la media es utilizada como una medida altamente
descriptiva de la realidad de una muestra o población, aun cuando no tiene un valor absoluto
por si sola, debiendo ser complementada por las medidas de dispersión.
Las medidas de dispersión (o variabilidad) únicamente se aplican a datos provenientes de
variables cuantitativas y expresan hasta qué punto los valores de una distribución de datos se
alejan del punto central o se acercan a él.
Las medidas de dispersión, cumplen con un relevante cometido dentro de la estadística:
complementar la información dada por la media, añadiendo la noción de cuán descriptiva es la
medida de la realidad.
Las medidas de dispersión son: el rango (R); la desviación media (Dm), la varianza (S2), la
desviación estándar (S) y el coeficiente de variación (CV).
Rango es la medida de dispersión más elemental. Se define como la distancia el dato mayor y el
dato menor de una serie de estos y permite ubicar los valores extremos de la distribución de
datos.
El rango se calcula mediante la expresión
Rango = M – m + 1 (fórmula 5)

en donde M es el valor mayor y m el valor menor. Una manera alternativa de expresar el rango
consiste en anotar éste en forma de intervalo:
Rango = (m , M) (fórmula 5a)

Por ejemplo, si en una distribución de edades de una muestra se ha calculado la media que tiene
un valor de 17,5 años, el conocimiento del rango añade una información más sustantiva en torno
a la realidad de la distribución, puesto que permite conocer que el valor de la media está incluido
en un rango (12, 20), es decir R = 9, y permite diferenciar esta situación de otra, en la que existe
el mismo valor para la media, pero el rango es (17 , 18), es decir R = 2.

Desviación media es la medida de dispersión que se fundamenta en las distancias (desviaciones)


respectivas entre cada uno de los datos de una distribución y el valor de la media. Se denota
como Dm y se calcula según la expresión:
∑|𝑋𝑖−𝑀𝑥|
Dm = (formula 6)
𝑁

Para ejemplificar el cálculo de la desviación media tenemos las calificaciones de diez sujetos
presentadas en la tabla 26

Sujeto Notas X
1 17
2 18
3 20
4 9
5 5
6 7
7 18
8 16
9 12
10 15
Tabla 26
Calculamos el valor de MX = 13,7 y determinamos la tabla con los valores del valor absoluto de
la diferencia de la variable X y la media.

X |𝑋𝑖 − 𝑀𝑥|
17 3.3
18 4,3
20 6,3
9 4,7
5 8,7
7 6,7
18 4,3
16 2,3
12 1,7
15 1,3
∑X = 137 ∑|𝑋𝑖 − 𝑀𝑥| = 43,6
MX = 137/10 Dm = 43,6/10
MX = 13,7 Dm = 4,36
Tabla 26ª

Varianza, denotada como S2 o como “Var” se define también en función de las diferencias entre
la media y cada uno de los valores de la X.

∑ (X𝑖 – Mx)2
S2 = (formula 7)
𝑁

Calcular la varianza para una distribución de calificaciones en la evaluación de 10 estudiantes.

Sujeto Notas X
1 17
2 18
3 20
4 9
5 5
6 7
7 18
8 16
9 15
10 12
∑ X = 137
MX = 13,7
Tabla 27
Para el cálculo de la varianza se dispone los datos en columnas como se indica en la tabla 27a.

Notas X (Xi – MX) (Xi – MX)2


17 3.3 10,89
18 4.3 18,49
20 6.3 39,69
9 -4.7 22,09
5 -8.7 75,69
7 -6,7 44,89
18 4,3 18,49
16 2,3 5,29
15 1,3 1,69
12 -1,7 2,89
∑ X = 137 ∑ (XI – MX)2
MX = 13,7 = 240,1
Tabla 27a
S2 = 240,1/10 → S2 = 24,01

La varianza se utiliza en estadística inferencial para el diseño del modelo de análisis de varianza,
especialmente importante en trabajos de investigación experimental en los que se estudia el
efecto diferencial de un determinado tratamiento en varios grupos, en los que se incluye el
grupo experimental, grupo de control y diferentes niveles de tratamiento.

Desviación estándar, también conocida como “desviación típica”, es la medida de dispersión


más frecuentemente utilizada en estadística descriptiva, constituyendo la base para los cálculos
de regresión y de correlación. Se denota como S y se calcula extrayendo la raíz cuadrada del
valor de la varianza. Por ejemplo, en el caso ejemplificado anteriormente, la desviación estándar
seria:
S = 4,90
Coeficiente de variación, denotado como CV, es una medida de dispersión que complementa a
la desviación estándar, puesto que establece una relación porcentual entre la media y la
desviación estándar de una distribución.
Este coeficiente se calcula mediante la expresión:
𝑆
CV = x 100
𝑀𝑥
En el caso anterior el valor del coeficiente de variación seria:
CV = (S / MX) x 100
CV = (4,9 / 13,7) x 100 → CV = 35,76 %

Medidas de ubicación.
Las medidas de ubicación añaden a las ya estudiadas un nuevo factor: conocer el significado de
un valor individual de una distribución dada, con respecto a los valores de un grupo referencial,
sea este la propia distribución o bien una distribución externa, que se toma como referencia.
Existen varias medidas de distribución (cuartiles, deciles, percentiles), sin embargo, nos
limitaremos a los percentiles, pues a partir de ellos se pueden calcular las restantes medidas.
Los percentiles son usados en psicometría para evaluar rasgos utilizando pruebas
estandarizadas, asi como en la gerencia para determinar rendimiento en trabajo y producción,
de acuerdo con un estándar definido por la data registrada de situaciones anteriores. Del mismo
modo, el uso de estas medidas se puede extender a la evaluación del desempeño de
trabajadores y a los criterios para asignar cargos y/o seleccionar personal.
Existen diferentes procedimientos para calcular los percentiles de una distribución de datos. No
obstante, nos centraremos en el método gráfico, el más práctico y sencillo, que se ejemplifica
seguidamente con una distribución de frecuencia de calificaciones procedentes de la evaluación
de desempeño de un grupo.
Calificaciones X Frecuencia
20 12
19 13
18 15
17 17
16 19
15 20
14 16
13 14
12 13
11 12
10 10
09 9
08 7
07 6
06 5
05 4
04 3
03 2
02 2
01 1
Tabla 28
Para construir el grafico de percentiles, añadimos a la derecha de la tabla 28 dos columnas para
anotar en ella la frecuencias acumuladas y frecuencias acumuladas en porcentajes.
Calificaciones X Frecuencia Frec. Acum. Frec. Acum. %
20 12 200 100.00
19 13 100 94.00
18 15 175 87.50
17 17 160 80.00
16 19 143 71.50
15 20 124 62.00
14 16 104 52.00
13 14 88 44.00
12 13 74 37.00
11 12 61 30.50
10 10 49 24.50
09 9 39 19.50
08 7 30 15.00
07 6 23 11.50
06 5 17 8.50
05 4 12 6.00
04 3 8 4.00
03 2 5 2.50
02 2 3 1.50
01 1 1 0.50
Tabla 28a
Una vez calculado los valores, se grafica en forma de ojiva (valores acumulativos), representando
los valores de la variable en el eje de las X y las frecuencias acumuladas porcentuales en el eje
de las Y, como se muestra en el grafico 8.

Gráfico de percentiles

Grafico 8
Aplicación del grafico de percentiles al cálculo de cuartiles y deciles. Para calcular estas medidas
de ubicación se utiliza la misma técnica y el mismo gráfico de percentiles, con las siguientes
transformaciones, derivadas de la relación de equivalencia entre percentil/cuartil y
percentil/decil.

Percentil Cuartil Decil


10 1
20 2
25 1 2.5
30 3
40 4
50 2 5
60 6
70 7
75 3 7.5
80 8
90 9
100 4 10
Tabla 29
Trabajo para el participante. (Nro.06)
Utilizando el grafico 8 de percentiles construido para N = 200, responda las siguientes
preguntas.
1. Calificación correspondiente al percentil 25.
2. Calificación correspondiente al percentil 43.
3. Calificación correspondiente al percentil 98.
4. Calificación correspondiente al percentil 10.
5. Percentil en que se encuentra la nota de 10 puntos.
6. Percentil en que se encuentra la nota de 15 puntos.
7. Percentil en que se encuentra la nota de 18 puntos.
8. Percentil en que se encuentra la nota de 5 puntos.
9. Número de estudiantes que calificaron 10 puntos o más puntos.
10. Número de estudiantes que calificaron 9 puntos o menos puntos.
11. Si la mínima nota aprobatoria es de 10 puntos: ¿cuantos estudiantes aprobaron?
12. Si la mínima nota aprobatoria es de 12 puntos: ¿cuantos estudiantes aprobaron?

Capitulo III
Aplicación de la distribución normal.
Conceptos fundamentales de Probabilidad.
Todos los experimentos o situaciones experimentales, bien sean provenientes de hechos
naturales o producto de la voluntad del experimentador, se pueden dividir en dos clases:

a) Determinísticos
b) Probabilístico o aleatorio

Los experimentos determinísticos son aquellos cuyos resultados se pueden prever en función
de determinadas leyes de la naturaleza, expresadas por una relación matemática y bajo ciertas
condiciones.

Los experimentos o situaciones de naturaleza aleatoria o probabilística, por el contrario, no es


posible conocer la ley determinativa que rige la relación causa-efecto. Ejemplos de este tipo de
situaciones aleatorias son los siguientes: los juegos de azar y situaciones presentadas en
control de calidad, cuando se elige un cierto número de unidades fabricadas, para someterlas
a prueba y observar el número de piezas con defecto.

Probabilidad.

Cundo lanzamos una moneda al aire, puede ocurrir dos casos:

1. Que caiga la cara hacia arriba.


2. Que caiga con el sello hacia arriba.

Si queremos determinar la máxima frecuencia relativa con que la moneda caiga con la cara
hacia arriba, observamos que ésta tiene el valor de 1/2, puesto que el suceso deseado
(favorable) es 1 (cara), frente al número total de los posibles sucesos que son 2 (cara y
escudo). El mismo razonamiento es válido si el suceso deseado es escudo.
Cuando lanzamos un dado que tiene 6 caras, numeradas del 1 al 6, puede ocurrir 6 casos:

Casos 1° 2° 3° 4° 5° 6°
Caras

Tabla 30

Si deseamos que salga el 4: ¿Cuál es la máxima frecuencia relativa que podemos obtener?

Evidentemente la máxima frecuencia relativa posible tiene el valor de 1/6, ya que tenemos 1
suceso favorable (esperado), frente a un total de sucesos posibles que son 6.

Veamos otro ejemplo: tenemos una baraja que tiene 40 cartas, de las cuales hay cuatro que son
reyes. ¿Cuál es la máxima frecuencia relativa en la que se puede presentar el suceso de que al
cortar la baraja nos salga un rey? Ésta será 4/40, ya que hay 4 reyes (sucesos favorables), frente
a 40 cartas (sucesos posibles).

En estos experimentos, en los que el resultado obtenido se debe al azar, ya que no existe una
ley determinante de la relación causa-efecto, se identifica la máxima frecuencia relativa con la
probabilidad teórica, definiéndose la probabilidad teórica como el cociente entre el número de
casos favorables y el de casos posibles, es decir:
𝐶𝑎𝑠𝑜𝑠 𝑓𝑎𝑣𝑜𝑟𝑎𝑏𝑙𝑒𝑠
Probabilidad teórica = (ecuación )
𝐶𝑎𝑠𝑜𝑠 𝑝𝑜𝑠𝑖𝑏𝑙𝑒𝑠

Trabajo para el participante. (Nro.07)


1) Los estudiantes de estadística general han organizado una rifa, con el objeto de recabar
fondos para la fiesta de fin de año. Han puesto a la venta 200 papeletas y las han
vendido todas.
1. El profesor ha comprado 10 papeletas. ¿Qué probabilidad tiene de ganar el premio?
2. Un estudiante ha comprado 2 papeletas ¿Qué posibilidad tiene de ganar el premio?

2. Echen una moneda al aire 50 veces y anoten la frecuencia de cara (C) y escudo (E) para
cada prueba.
i) ¿Que observa en el resultado?
ii) ¿Cuál es la probabilidad teórica?
iii) ¿Cuál es la probabilidad experimental o real?
iv) ¿Qué conclusión se puede extraer?

Ley de los grandes números


La ley de los grandes números de modo informal, se enuncia de la siguiente forma: “Si un
ensayo se repite una y otra vez, la proporción de aciertos resultantes se aproximará a la
probabilidad teórica”
Curva de probabilidad.
Veamos un experimento clásico en estadística, realizado por Weldon en 1932. Éste consistió
en echar al aire 2 dados a la vez, 4.096 veces. Cada combinación de caras con los valores de
cuatro, cinco o seis puntos se consideraba como “éxito”, es decir: lo esperado, mientras que
cada combinación de uno, dos y tres puntos se consideraba como “fracaso”.
Weldon obtuvo los siguientes resultados:
Numero de éxitos Frecuencia
0 1
1 50
2 94
3 200
4 450
5 700
6 850
7 650
8 500
9 300
10 200
11 100
12 1
Tabla 31

La grafica de esta base de datos experimentales nos indica que es una curva en forma de
campana. A este tipo de figuras se les denomina “curva de probabilidad” y representa una
“distribución de probabilidad”. La curva obtenida experimentalmente por Weldon es una
aproximación a la denominada “distribución normal de Gauss”, curva normal, o “campana de
Gauss”.

La curva normal
Muchos de los sucesos aleatorios que ocurren en diferentes campos de la realidad, objeto de
estudio de la estadística, siguen la ley de distribución normal y, por lo tanto, la curva normal es
descriptiva de las frecuencias de ocurrencia de dichos sucesos. Entre ellos las mediciones de
errores en observaciones realizadas en grandes segmentos de poblaciones, tales como: medidas
de alturas, de velocidades, de rasgos físicos y mentales, de elementos defectuosos en un proceso
de producción, etc.
Propiedades de la curva normal
Simetría. La curva normal es simétrica con respecto a un eje vertical.
Coincidencia de medidas de tendencia central. En una distribución normal, las medidas de
tendencia central coinciden en valor numérico, es decir, la media, la mediana y la moda tienen
el mismo valor.
Relación con las medidas de dispersión. En una distribución normal, se encuentran las siguientes
relaciones:

 Entre la media y ± (más o menos) una desviación estándar, se incluyen 68,26% de los
valores centrales de la distribución.
 Entre la media y ± (más o menos) dos desviaciones estándar, se encuentra 95%
(aproximado) de los valores centrales de la distribución.
 Entre la media y ± (más o menos) tres desviaciones estándar, se encuentra 99%
(aproximado) de los valores de la distribución.

Medidas de forma de una distribución dada


Para identificar si una distribución dada se ajusta o no a la curva normal, se tienen unos valores
referenciales (criterios) que permiten distinguir cuanto se aproxima o se aleja de la “normalidad”
una distribución de datos. Estos criterios se denominan “medidas de forma”, siendo los
principales la asimetría (también denominada “sesgo”) y la kurtosis.
Asimetría
Para determinar analíticamente en qué medida coincide con la curva normal una distribución,
se utilizan expresiones matemáticas. Para calcular la asimetría (As) se utiliza la siguiente
formula:
𝟑(𝑴𝒆𝒅𝒊𝒂−𝑴𝒆𝒅𝒊𝒂𝒏𝒂)
As =
𝑺

Teniendo en cuenta el criterio de que la curva normal es simétrica, si el valor de asimetría es


mayor o menor que cero, la distribución no es estrictamente normal.
Ejemplo. Calcular la asimetría para una distribución con los siguientes valores.
Valores Caso 1 Caso 2 Caso 3 Caso 4
Media 7.6 7.5 7.5 7.6
Mediana 7.6 7.35 7.5 7.8
S 1.05 1.02 1.3 1.22
As 0 0.14 0 -0.16
simétrica Asimétrica simétrica Asimétrica
positiva negativa
Tabla 32
Los casos de asimetría (positiva y negativa) se ilustran en el siguiente gráfico:

Kurtosis
Para el cálculo de la kurtosis (K) de una distribución, se utilizan los valores de los percentiles,
según la siguiente expresión
𝑃75−𝑃25
Kurtosis =
2 (𝑃90−𝑃10)

en donde P75, P25, P90 y P10 son los respectivos percentiles.


Teniendo en cuenta que la curva normal tiene una kurtosis cuyo valor K = 0.263, el criterio es:

 Si la K calculada es K ˃ 0.263, la distribución es platikúrtica, es decir, aplanada.


 Si la K calculada es K < 0.263, la distribución es leptokúrtica, es decir, alargada.
 Si la K calculada es K = 0.263, la distribución es mesocrática.

Ejemplo

Valores Caso 1 Caso 2 Caso 3 Caso 4


P75 17 17 17 17
P25 12 15 16 15
P90 19 21 19 19
P10 8 13 9 10
Resultados K = 0.22 K = 0.50 K = 0.05 K = 0.11
Lepto Plati Lepto Lepto
Tabla 33

Ejemplos gráficos de kurtosis


Trabajo para el participante. (Nro.08)
En una distribución normal de calificaciones, cuya media tiene un valor X = 7.5 y la
desviación estándar S = 1.07, siendo N = 500, calcular:
a) El número de sujetos que calificó entre (7.5 + 1.07 y 7.5 – 1.07)
b) El número de sujetos que calificó entre (7.5 + 2x1.07 y 7.5 – 2 x 1.07)

Aplicación de la curva normal a situaciones de investigación. (En el futuro desarrollo este


tema.)

CAPÍTULO 4
MODELOS DE CORRELACIÓN
El significado de la correlación.
Podemos decir que existe relación entre dos sucesos o series de sucesos cualesquiera, cuando
uno de ellos tiene que ver con los otros: tales son las relaciones entre personas (amistad,
parentesco); las relaciones entre números o cantidades (mayor que, menor que, múltiplo de);
las relaciones de causalidad; las relaciones de funcionabilidad entre dos o más variables, etc.
La palabra “correlación” es utilizada frecuentemente en estadística y en el lenguaje ordinario.
No obstante, usualmente se maneja de manera inadecuada, identificándola como sinónima de
“relación”. En este sentido la correlación, considerada bajo el punto de vista estadístico, se
entiende más allá del alcance de una simple relación, es decir, transciende a la relación,
incluyendo las nociones de cuantificación del grado de relación y de la direccionalidad en que se
presenta esta relación.

Método grafico para el cálculo de la correlación entre dos variables.


Para operacionalizar el concepto de correlación entre dos variables, de modo empírico,
utilizaremos tres ejemplos, en los que asumimos que se va a cuantificar la relación entre dos
variables y su direccionalidad: es decir, la correlación en el sentido estadístico.
Ejemplo 1.- Supongamos que un docente desea hallar la correlación que existe entre las
variables “rendimiento en matemáticas” y “rendimiento en física”, en una muestra de 25
estudiantes.
Los datos obtenidos se muestran en la tabla siguiente:
Estudiante Matemática(X) Física(Y)
1 10 9
2 9 7
3 8 6
4 7 6
5 6 6
6 5 5
7 4 4
8 3 3
9 2 1
10 1 2
11 10 9
12 8 8
13 7 8
14 6 7
15 5 5
16 9 7
17 8 7
18 9 6
19 10 10
20 10 9
21 8 7
22 5 6
23 6 5
24 3 2
25 1 1
Tabla 34
El modo más elemental de visualizar la correlación entre las dos variables X e Y es el método
gráfico, que nos permite trazar un Scattergrama, nombre que recibe este tipo de gráfico. El
procedimiento es sencillo, basta con representar los datos de las variables en las coordenadas X
e Y, y trazar los puntos correspondientes. Así obtenemos una nube de puntos, que siluetaremos
y podremos atravesar con una recta auxiliar en los casos en que exista correlación, como ocurre
en este ejemplo.
La direccionalidad (tendencia) de la nube de puntos permite identificar si la correlación es
positiva o negativa, de tal modo que si es creciente (hacia arriba) como ocurre en este caso la
correlación es positiva.

Ejemplo 2.- El docente desea conocer la correlación entre las variables “rendimiento en
lenguaje” (X) y “rendimiento en educación física” (Y).
Los datos de este ejercicio se muestran a continuación:

Estudiante Lenguaje (X) Ed. Física


1 1 9
2 2 2
3 3 3
4 3 3
5 3 10
6 3 6
7 4 4
8 4 9
9 4 2
10 4 5
11 5 5
12 6 3
13 6 2
14 6 7
15 6 8
16 6 9
17 6 10
18 6 1
19 6 5
20 7 2
21 7 3
22 7 6
23 8 4
24 9 3
25 9 6
Tabla 35
Con los datos de la tabla se construye el respectivo Scattergrama:
Al igual que en el ejemplo 1, se puede apreciar la existencia de una nube de puntos, pero a
diferencia del caso anterior no se advierte tendencia alguna en la silueta de la nube de puntos.
En este caso, puede concluirse que no existe correlación entre las variables “rendimiento en el
lenguaje” y “rendimiento en educación física”.

Trabajo para el participante. (Nro.09)


Ejemplo 3: el docente desea conocer la correlación que existe entre las variables “rapidez
lectora” (X) y “tiempo necesario para aprender una lección” (Y).
Los datos se muestran en la tabla siguiente:
Sujeto Rap. Lectora (X) Tiempo (Y)
1 1 10
2 2 9
3 3 8
4 4 7
5 5 6
6 6 5
7 7 4
8 8 3
9 9 2
10 10 1
11 9 1
12 8 3
13 7 4
14 6 5
15 5 6
16 4 7
17 3 8
18 2 9
19 1 10
20 2 9
21 3 8
22 4 7
23 5 5
24 6 6
25 7 4
Tabla 36
Del mismo modo como se realizó en los ejemplos 1 y 2, el participante debe trazar el
correspondiente Scattergrama, cuya nube de puntos presenta la tendencia de la correlación
que existe entre ambas variables.
El estudiante debe interpretar {a direccionalidad de la nube de puntos e indicar la correlación
entre ambas variables.
Métodos analíticos para calcular la correlación entre dos variables.
La ventaja del método grafico aplicado en los ejemplos anteriores es la rapidez, en tanto que no
haya mucho volumen de datos. No obstante, únicamente permite apreciar si existe o no
correlación y cuál es su direccionalidad (positiva o negativa). Su desventaja principal, por tanto,
se expresa en términos de que no permite cuantificar el grado de correlación existente.
Para efectos de mayor exactitud y precisión, existen dos vías analíticas principales para efectuar
el cálculo de la correlación entre dos variables, en función de la naturaleza de las variables. La
primera vía es la denominada “método de Pearson”, y la segunda es la conocida por “método
del rango” o “Spearman rango”.
El método de Pearson se utiliza específicamente cuando los datos de las variables son
cuantitativos, medidos en escala de intervalo o razón, mientras que el método de Spearman se
utiliza exclusivamente cuando al menos una de las variables es categórica o nominal, o bien
cuando el número de datos es muy pequeño y/o el investigador desea solamente hacer una
primera aproximación no muy exacta.
Es preciso señalar que el método de Spearman tiene la limitación de que no es muy exacto, en
especial cuando hay datos que se presentan con valores repetidos, por lo cual se aconseja
utilizarlo cuando hay poco volumen de datos y el rango de estos no involucra, por tanto, un
excesivo número de repeticiones.
El método de Pearson tiene serias limitaciones para su uso en el caso de que la distribución de
los valores de las variables se aleje mucho de la curva normal. Cuando se utiliza el método de
Pearson, el resultado obtenido es el valor del coeficiente de correlación (r). Los valores de este
coeficiente se presentan en un continuum real comprendido en el intervalo (-1, +1).
Cuando se utiliza el método de Spearman, el resultado obtenido es el valor del coeficiente de
correlación (rho), en el mismo intervalo de valores que “r”. no obstante, por ser ambos
coeficientes idénticos a nivel conceptual, se interpretan del mismo modo y tienen el mismo
significado, en lo único en que difieren es en la naturaleza de las variables a que se refieren y en
el modo de realizar los cálculos.
A continuación, se desarrollan ejemplos de aplicación de ambos métodos.

Método de Pearson
Los cálculos para hallar el coeficiente “r” de Pearson vienen determinados por la siguiente
expresión matemática:

∑𝑿 𝒀
⁄𝑵−𝑴𝒙 𝑴𝒚
r= ( )
𝑺𝒙 𝑺𝒚
siendo: Mx = media de la variable X
My = media de la variable Y
Sx = desviación estándar de X
Sy = desviación estándar de Y
Se ilustra un ejemplo cuyos datos se refieren a las variables X (motivación) e Y (desempeño
laboral).
Sujeto Motivación Des. laboral
1 7 10
2 8 6
3 4 4
4 8 9
5 6 7
6 7 5
7 8 4
8 9 5
9 10 9
10 10 10
11 3 3
12 7 8
13 8 9
14 6 7
15 5 6
16 6 6
17 4 5
18 5 5
19 9 9
20 8 7
Tabla 37
Para la aplicación de la formula se calculan previamente Sx y Sy, siguiendo el procedimiento ya
visto en el capítulo (?). En este caso, los valores obtenidos son Sx = 1,94, Sy = 2,07.
A continuación, se dispone una columna a la derecha, encabezada por X e Y, en la que se irán
anotando los productos XY, como se puede ver en la tabla 37a.

Sujeto Motivación (X) Des. Laboral (Y) XY


1 7 10 70
2 8 6 48
3 4 4 16
4 8 9 72
5 6 7 42
6 7 5 35
7 8 4 32
8 9 5 45
9 10 9 90
10 10 10 100
11 3 3 9
12 7 8 56
13 8 9 72
14 6 7 42
15 5 6 30
16 6 6 36
17 4 5 20
18 5 5 25
19 9 9 81
20 8 7 56
∑X = 138 ∑ Y = 134 ∑ XY = 977
Tabla 37a
De este modo se obtienen los siguientes valores:
Mx = 138/20 → Mx = 6,90; My = 134/20 → My = 6,70
∑ XY / N = 977 / 20 → ∑ XY / N = 48,85
Teniendo en cuenta que Sx = 1,94 y Sy = 2,07, resulta:

48,85−6,90 𝑥 6,70
r= → r = 0,65
1,94 𝑥 2,07

Este resultado indica que el valor del coeficiente de correlación entre las variables “motivación”
y “rendimiento” es de 0,65.

Método de Spearman
Los cálculos para hallar el coeficiente “rho” de Spearman vienen determinados por la siguiente
expresión matemática:

en donde:
D es la diferencia entre los rangos de las variables X e Y (Rx – Ry)
N es el número de sujetos.
Para realizar la aplicación práctica de la formula, a continuación, se plantea un ejemplo en que
se pide calcular la correlación entre las variables nominales “liderazgo” y “dogmatismo”,
medidas en una escala de frecuencia. Designando X a “dogmatismo” e Y a “liderazgo”, para una
muestra de 10 sujetos.

Sujeto Dogmatismo (X) Liderazgo (Y)


1 10 2
2 8 3
3 4 9
4 7 10
5 5 8
6 6 7
7 3 6
8 1 5
9 2 4
10 9 1
Tabla 38
Para aplicar el método, se disponen columnas adicionales en la tabla 38a:

1. Encabezada por Rx para anotar los rangos de la variable X.


2. Encabezado por Ry para anotar los rangos de la variable Y.
3. Encabezada por D para anotar las diferencias de rangos.
4. Encabezada por D2 para anotar los cuadrados de las diferencias.

Acto seguido, se procede a asignar rango a cada valor de la variable X del siguiente modo: al
mayor valor se asigna el rango 1 (el primero); al siguiente, el rango 2 (el segundo) y así hasta
agotar los datos X. cada rango se va anotando en el lugar correspondiente de la columna Rx.

Del mismo modo se procede con los valores de Y.

A continuación, se calcula la diferencia entre los valores correspondientes a cada Rx, Ry,
anotándose en la columna D.
Elevando al cuadrado cada uno de los valores de D, se anotan en la columna de los cuadrados.
Totalizada esta columna, se obtiene ∑D2

sujeto X Rx Y Ry D D2
1 10 1 2 9 8 64
2 8 3 3 8 5 25
3 4 7 9 2 5 25
4 7 4 10 1 3 9
5 5 6 8 3 3 9
6 6 5 7 4 1 1
7 3 8 6 5 3 9
8 1 10 5 6 4 16
9 2 9 4 7 2 4
10 9 2 1 10 8 64
∑ D2 = 226
Tabla 38a

Sustituyendo los valores en la formula se obtiene:


6 𝑥 226
rho = → rho = - 0,36
10 (100−1)

Interpretación de los coeficientes de correlación.


Una vez se ha visto, a través de ejemplos, como se calcula “r” (coeficiente de correlación de
Pearson) y “rho” (coeficiente de correlación de Spearman, “rango de Spearman”), a
continuación, se procede a interpretar el significado de estos coeficientes y de la correlación
indicada entre ellos.
En primer lugar, nos planteamos la pregunta: ¿se puede calcular la correlación entre todo tipo
de variable?
La respuesta es no, pues solamente tiene sentido correlacionar variables que se pueden
correlacionar a nivel teórico.
En este orden de ideas, cabe señalar que el cálculo de correlación entre aquellas variables que
no se puedan relacionar en virtud de supuestos teóricos da lugar a lo que se denominan
“correlaciones espurias”. Tal es el caso, citado en algunos textos de investigación educativa en
el que un investigador calculo la correlación entre los coeficientes intelectuales de un grupo de
estudiantes y sus respectivos números de las planillas de inscripción en la universidad.
Del mismo modo la correlación no se puede interpretar en sentido de casualidad, sino
solamente en el de asociación o de tendencia (la confusión entre “correlación” y “relación causa-
efecto” es conocida como “falacia de la interpretación” por algunos autores).
Por ejemplo, en el primer problema planteado en el que un docente correlacionaba el
rendimiento en matemática con el rendimiento en física, del hecho de haber resultado una
correlacion positiva no se puede interpretar que el rendimiento en una de las dos materias sea
causa o efecto del rendimiento en la otra, sino más bien, al encontrar que existe correlación
positiva entre ambas variables, podemos únicamente afirmar que “los estudiantes que califican
alto en matemática, tienden a calificar alto en física”.
Esta aserción es indicativa de que existen ciertas habilidades o capacidades de los sujetos que
determinan, de alguna manera, la tendencia común al buen o mal rendimiento en dichas
materias.
Por otra parte, en el ejemplo en que se intentaba calcular la correlación entre las calificaciones
en lenguaje y educación física, encontramos que no se presenta correlación, es decir, puede
concluirse que las “habilidades mostradas por los sujetos para el lenguaje no necesariamente
tienden a ir asociadas a las requeridas para el éxito en la práctica deportiva”.
En el tercer ejemplo, en el cual el docente intentaba encontrar la correlación entre la habilidad
de lectura rápida y el tiempo necesario para aprender una lección, se encontró una correlación
negativa, indicativa de que “los estudiantes que son capaces de leer más rápidamente tienen a
invertir menos tiempo en aprender una lección”.
Una vez interiorizado el alcance conceptual de la correlación, pasamos a interpretar, de qué
modo cualitativo-descriptivo, los valores de los coeficientes de correlación, calculados por
cualquiera de los dos métodos estudiados.
Los valores del coeficiente de correlación oscilan entre el valor máximo (+ 1) y el valor mínimo
(- 1), con el punto central (0), pudiendo tomar todos los valores intermedios entre estos límites.

En una primera aproximación, se puede interpretar como correlaciones “altas positivas”


aquellas cuyos valores se aproximan a +1, como “altas negativas” cuando los valores están cerca
del -1 y como “no existencia de correlación” a los casos en que los valores del coeficiente de
correlación se aproximen a 0.
Esta es una alternativa, groso modo, que no permite precisión alguna. Para efectos de lograr un
cierto nivel de precisión, se reportan seguidamente los criterios de Garrett.

Criterios cualitativos para evaluar la correlación


Existe una escala cualitativa, desarrollada por Garrett, que permite evaluar e interpretar los
valores del coeficiente de correlación.
Valores del coeficiente de correlación Interpretación cualitativa
De 0.70 a 1.00 Alta a muy alta (Positiva)
De 0.40 a 0.69 Marcada (Positiva)
De 0.20 a 0.39 Baja (Positiva)
De 0.00 a 0.19 Despreciable (Positiva)
0.00 No hay correlación
De 0.00 a -0.19 Despreciable (Negativa)
De -0.20 a -0.39 Baja (Negativa)
De -0.40 a -0.69 Marcada (Negativa)
De -0.70 a -1.00 Alta a muy alta (Negativa)
Tabla 39
Trabajo para el participante. (Nro.10)
Ejercicio.
Calcular los coeficientes de correlación e interpretar los resultados para los siguientes casos:
A.- Correlación entre variable (“antigüedad del modelo de automóvil”) e Y (“precio promedio
de venta actual”).
B.- Correlación entre las variables x (“inversiones en publicidad”) e Y (“beneficios netos”)

Caso A Caso B
Y X Y
Año Precio en MM Inversiones en MM Beneficio MM
1981 5 1.2 4
1982 4.5 1.3 5
1983 5.3 1.8 3
1984 6 2.1 5
1985 6.2 2 6
1986 6.5 3 2
1987 7 1 3
1988 6.4 10 9
1989 8 7 7
1990 8.3 3 2
1991 9 6 7
1992 8.6 3 8
1993 10 9 9
1994 11 5 2
1995 11.4 7 8
1996 12 2 3
1997 12 3 3

Métodos de muestreo
El muestreo es un proceso de selección o escogencia de una parte de la población para
propósitos investigativos y/o de recolección de información. El muestreo se hace necesario por
motivos de economía de recursos y tiempo, así como de factibilidad.
Si se está realizando un sondeo de opinión, por ejemplo, no es posible preguntar a toda una
población. Si se lleva a cabo un trabajo experimental, no es factible aplicar un tratamiento a
todos los sujetos o elementos que conforman la población. Si se trabaja en control de calidad
mediante ensayos destructivos, sería descabellado aplicar éstos a todos los elementos que
conforman la población en estudio. De ahí deriva la importancia de no trabajar con la población,
sino con una parte de ella, que se denomina muestra y que no es otra cosa que “un subconjunto
del conjunto población”.
La muestra deberá ser lo más parecida posible a la población de donde proviene, debe
representarla, siendo, pues, la característica esencial de una muestra su representatividad. Esta
representatividad no es un concepto absoluto, sino que está vinculada a un referente especifico,
constituido por las características definitorias de la población: pudiera decirse que la muestra es
una reproducción a pequeña escala de la población y que debe reunir todas las características
definitorias de ésta.
El procedimiento de muestreo debe garantizar al máximo la representatividad de la muestra, de
modo que las conclusiones en torno a la muestra sean susceptibles de ser generalizadas a la
población.
Los métodos de muestreo se dividen en dos grandes categorías: (1) no probabilísticos y (2)
probabilísticos.

Métodos no probabilísticos (no aleatorios).


En estos métodos, la selección de la muestra se realiza bajo ciertos criterios que procuran que
la muestra sea lo más representativa posible de la población. Se citan a continuación los mas
usuales.

 Por cuotas: basados en la definición de las características generales de la población, se


selecciona posteriormente un número determinado de individuos que las cumplan.
Un ejemplo de aplicación a las ciencias sociales sería la selección de una muestra: 20
estudiantes de ingeniería, solteros, de edades comprendidas entre 23 y 25 años. Un
segundo ejemplo, de aplicación a las ciencias médicas, sería la selección de 400
pacientes, de edades comprendidas entre 15 y 20 años, a los que se les haya aplicado
determinado tratamiento.
Una variación de este método es el denominado “opinático” o “intencional”, que implica
una selección por expertos, los cuales definen las características que debe tener la
muestra para asegurar la representatividad.
 Casual: en este método se utiliza una muestra constituida por individuos y/o elementos
de la población a los que se les tiene fácil acceso. En este caso, se incluye la selección de
individuos que se prestan como “voluntarios” para realizar sobre ellos determinado
estudio. Como la representatividad no es muy confiable, se toman medidas y pruebas
adicionales para garantizarla.
 Bola de nieve (alud); es el método más típico en la investigación cualitativa,
drogadicción, delincuencia etc., mediante el cual se seleccionan individuos que
conducen a otros y éstos, a su vez, a otros más.
 Polietápico: es una combinación de varios métodos, en secuencia de etapas, de modo
que haya una primera selección de muestra, estratificada por algunas características y
ésta sea ampliada en función de las observaciones realizadas.

Métodos probabilísticos (o aleatorios)


Estos métodos están basados en el principio de la equiprobabilidad; todos los individuos o
elementos de la población tienen la misma probabilidad de entrar en la muestra, y son los que
más aseguran la representatividad de la muestra. No obstante, la selección aleatoria, en especial
la que se hace en muestras pequeñas, no garantiza que la muestra sea perfectamente
representativa, pero si garantiza que la muestra escogida no esté sesgada los propósitos o
intenciones del investigador y que las posibles diferencias entre muestra y población sean
debidas al azar. Así mismo, es preciso considerar que no siempre se pueden realizar una
selección aleatoria, puesto que ella implica tener acceso a todos los elementos de la población.
Los métodos aleatorios se clasifican como sigue:

 Aleatorio simple: la selección de la muestra se realiza asignando un numero secuencial


de registro a cada elemento de la población, escogiendo entre ellos los que
corresponden a los números de la tabla aleatoria o mediante un programa estadístico
(Random).
 Aleatorio sistemático: una vez asignado a cada elemento de la población su número de
registro se calcula c= N/n, en donde N es el tamaño de la población y n, el de la muestra,
siendo c un numero natural.
Seguidamente se elige al azar un número “a”, menor que c. el primer elemento
seleccionado será el que tenga el registro “a”, el segundo el que tenga el registro “a” +
c: el tercero el que tenga el registro “a” + 2c, y así sucesivamente.
 Aleatorio estratificado: la escogencia se realiza dividiendo la población en estratos (por
edades, rasgos, características, etc., de acuerdo con los propósitos del estudio); de cada
estrato se selecciona un número de elementos decididos por tres vías alternativas:
a) Afijación simple, con el mismo número de elementos para cada estrato.
b) Afijación proporcional, con la misma proporción de elementos por estratos.
c) Afijación óptima, teniendo en cuenta la proporción numérica y la dispersión de los
datos.
 Aleatorio por conglomerados: la escogencia se realiza por grupos y no por individuos.
Utilizando en el caso de que existan “grupos naturales” en la población, se procede
como en el caso de la estratificación. En esta situación, el “grupo” juega un rol similar al
del estrato.

Error muestral
Es común que se presenten diferencias entre la muestra seleccionada y la población de
donde ésta proviene. El error muestral expresa estas diferencias y puede ser atribuido al
sesgo, en cuyo caso la muestra no es representativa, o bien a fluctuaciones al azar, en cuyo
caso si es representativa.
Para estimar el error muestral se utilizan las técnicas denominadas de “Jakknife” (navaja),
en las cuales se comparan submuestras no excluyentes de la muestra, y las llamadas “boots-
trap”, basadas en el método de Montecarlo, cuyas aplicaciones se han desarrollado
actualmente mediante programas de computación.

Tamaño de la muestra.
Este aspecto no es fácil de dilucidar, puesto que implica conocer los parámetros de la
población, información que no siempre se tiene disponible.
Por otra parte, los propósitos de cada estudio a realizar sobre la muestra pueden ser
distintos, por lo cual no existe una formula o procedimiento unificado que permita decidir
de manera absoluta el tamaño de una muestra. Usualmente se maneja el criterio de que el
tamaño de la muestra sea de 10% a 20% del tamaño de la población, pero este criterio es
arbitrario y no justifica, por si solo, la representatividad numérica de la muestra.
En este sentido, existen casos históricos, como el proyecto Talent, que se llevó a cabo
exitosamente en Estados Unidos, con una muestra de 5% de la población, así como estudios
de pronostico realizados por Gallup, Crosley y otras, en los que se obtuvieron resultados
satisfactorios con muestras inferiores a 1%.
Los factores a considerar para decidir el tamaño de la muestra son:
La variedad de las características de la población. En el caso de que esta sea muy
homogénea, con pocos elementos se conforma una muestra. Por el contrario, cuando hay
mucha variedad, la muestra deberá ser de mayor tamaño. Por ejemplo, si una empresa
comercializadora de artículos deportivos adquiere balones de basket de un solo tipo a un
fabricante determinado, deberá revisar tres o cuatro para comprobar la calidad. Si adquiere
balones a cinco fabricantes y cada uno de ellos ofrece diferentes tipos, la muestra deberá
ser mayor, para que le permita comparar diferentes calidades dentro de la variedad de la
oferta.
El riesgo en la toma de decisión, que está asociado al nivel de significación. Cuanta más
seguridad se requiera, mayor será el tamaño de la muestra.
La precisión demandada en la estimación, que viene dada por el intervalo de confianza.
El tipo de muestreo utilizado. Una muestra escogida como aleatoria simple deberá ser mayor
que una estratificada, puesto que la estratificada ya ha tenido en cuenta las variaciones.

Indicaciones para calcular el tamaño de una muestra


El cálculo del tamaño de una muestra presenta dificultades, por cuanto es muy posible que
se desconozcan los parámetros poblacionales (en especial la media y la desviación estándar)
o cuando los datos que caracterizan a la población sean cualitativos (total o parcialmente).
En estos casos resulta muy práctico manejar una aproximación, cuya expresión analítica es:

en donde: n = tamaño de la muestra


N = tamaño de la población
K = constante para cada nivel de contabilidad
P = probabilidad de éxito (acierto), cuyo valor se asume sea 0,5 (50%)
q = probabilidad de fracaso (1 – p) por lo tanto es 0,50
e = error admisible.
Con la finalidad de facilitar la selección del tamaño de la muestra, en el siguiente Apéndice
se presentan valores del tamaño de la muestra para diferentes tamaños de población, en
función de niveles de confiabilidad y error permitido. Los valores han sido calculados
mediante el programa Excel.

N Confiabilidad = 0,95 Confiabilidad = 0,90


e = 0,10 e = 0,05 e = 0,10 e = 0.05
1.000 88 278 143 400
1.500 90 306 150 462
2.000 92 322 154 500
2.500 93 333 156 526
3.000 93 341 158 545
4.000 94 351 160 571
5.000 94 357 161 588
10.000 95 370 164 624
100.000 96 383 166 661

También podría gustarte