Documentos de Académico
Documentos de Profesional
Documentos de Cultura
CAPÍTULO I.-
Presentación de los datos.
Estadística.
La ciencia estadística es un cuerpo de principios, axiomas y desarrollos cuantitativos mediante
los cuales los matemáticos han llegado a constituir métodos y técnicas específicas, aplicables al
procesamiento de la información dada por diversos tipos de datos.
Estadística Aplicada.
Es una rama de la ciencia estadística que trata de la aplicación del método científico en el análisis
de datos, con la finalidad de tomar decisiones racionales.
Estadística Descriptiva.
Tiene por objeto la recopilación, organización y caracterización de un conjunto de datos, con la
finalidad de describir en la forma más apropiada las cualidades y características este conjunto
especifico de datos. Rama de la estadística que describe conjunto de mediciones, tanto en
muestras como en poblaciones.
Tabla 1
Variable.
Es una característica que cambia o se modifica con el tiempo y/o para diferentes individuos u
objetos en consideración.
Ejemplo: en un solo individuo la temperatura corporal es una variable que cambia con el tiempo,
también difiere de una persona a otra.
Unidad experimental.
Es el individuo u objeto en el que se mide una variable. Una medición o dato resulta cuando se
mide una variable en una unidad experimental.
Rango de observación.
Cuando realizamos un experimento y en especial cuando obtenemos datos de mediciones
realizadas en un proceso de inspección, observamos que dichos datos son agrupan en dos
valores extremos, notándose que la agrupación es más concentrada en algunos entornos
limitados ubicados entre los valores extremos. El entorno “total” limitado por los valores
extremos recibe el nombre de rango de la observación.
Intervalo de observación.
Si el entorno total o rango es dividido en varios sub-entornos de igual magnitud, de forma tal de
visualizar mejor como se distribuyen los valores observados, tales sub-entornos reciben el
nombre de intervalo de observación.
Datos cualitativos y cuantitativos.
Los datos son los registros de los resultados de una serie de medidas y/o observaciones de un
fenómeno o evento determinado. La clasificación más elemental de los datos indica que estos
pueden ser cualitativos (o nominales) y cuantitativos. Los datos cualitativos son categóricos, es
decir no se puede realizar operaciones matemáticas con ellos ni se pueden cuantificar
directamente, mientras que los datos cuantitativos se expresan directamente por un número
que indica cantidad y con ellos puedes realizar operaciones matemáticas.
Ejemplos:
A los efectos de comparar entre los diferentes tipos de tablas (simple, agrupada y combinada),
tenemos el siguiente ejemplo:
Ejemplo 1.- Una empresa que ensambla maquinaria posee dos líneas de producción (línea A y
línea B), en cada línea de ensamblaje se seleccionó cinco maquinas con defectos de calidad como
lo son de pintura, de ajuste y de embalaje. La información se representa en las siguientes tablas
estadísticas.
B) Tabla Agrupada. Esta misma información se puede representar de una manera más
elaborada, en forma de tabla agrupada.
Los resultados de la tabla 5 se pueden llevar a proporciones porcentuales, que permiten una
representación más precisa de la realidad, según se puede apreciar en la tabla 5a.
La comparación de los tres tipos de tabla permite apreciar las ventajas que ofrece la tabla
combinada sobre la tabla agrupada y esta última sobre la tabla sencilla, para efectos de producir
un reporte más breve y eficaz.
Ejemplo 2.- Los defectos encontrados en una toma de cien (100) muestras de pantalones,
distribuidos en diez (10) lotes, sometidos a un control de calidad.
Los defectos encontrados son de: longitud (LO), anchura (AN) y acabado (AC), según aparecen
registrados en la tabla 6.
A) Tabla Simple.
Tipos de Gráficos.
Diagrama de barras.
El grafico de barras es el indicado para representar situaciones descriptivas de poblaciones y/o
producción, del tipo que se indica en la Tabla 2, que es una tabla simple en la que se representan
datos cuantitativos de poblaciones frente a datos nominales (años).
Gráfico de Barras
Accidentes Laborales en la empresa XX
Otra modalidad de presentación de los gráficos de barras es mediante la presentación vertical
de los mismos.
Gráfico de Barras
Accidentes Laborales en la empresa XX
Grafico 3
Representación gráfica del diagrama circular o de torta para los egresados del IUT Los Ilustres
en una carrera determinada como indica en la Tabla 10.
Grafico 4
Para elaborar un gráfico de torta o circular, se debe llevar los datos a porcentaje y este
porcentaje se multiplica por los 360° que tiene la circunferencia, el resultado es el ángulo o
porcentaje de la circunferencia correspondiente al dato determinado. Por ejemplo: Represente
gráficamente la siguiente información en forma de grafico circular.
Las operaciones matemáticas consisten en dividir cada uno de los datos anuales entre el total y
el resultado se multiplica por 360°.
y así sucesivamente hasta agotar los datos. La siguiente operación consiste en trazar un circulo,
tomar en él un radio referencial y, con ayuda de un transportador, trazar las divisiones
correspondientes a cada uno de los valores a representar.
Gráficos de frecuencia.
Este tipo de grafico es usual en estadística para representar “distribuciones de frecuencia”. La
frecuencia, en estadística, hace referencia al número de veces que se presenta un suceso, evento
o fenómeno, en una observación dada. Dependiendo del volumen y variedad de datos, las
distribuciones de frecuencia se representan en las modalidades “para datos no agrupados” y
“para datos agrupados”.
Datos no agrupados.
La información se debe registrar en una tabla sencilla en la que se anotan los datos y la
frecuencia de cada dato. Por ejemplo, un grupo de estudiantes obtienen tienen calificaciones en
una prueba determinada y se presentan en la siguiente tabla:
Distribución de frecuencia
Calificaciones Frecuencia
2 3
3 6
4 8
5 10
6 18
7 11
8 9
9 6
10 4
Tabla 13
Grafica 5
Histograma
Distribución de calificaciones.
Grafico 6
Agrupación de datos
Los datos se agrupan cuando el número de valores (la frecuencia total) es igual o mayor que 100
y el rango de valores extremos es grande también, como en el caso de los valores representados
en la tabla 14. La agrupación de datos es muy útil pues permite sintetizar la información. En la
agrupación se sustituye cada grupo de datos individuales por un intervalo llamado “intervalo de
clase” que incluye a estos datos. Del mismo modo, las frecuencias correspondientes a los datos
incluidos en cada intervalo se suman.
Clases Frecuencias
(02 – 05) 27
(06 – 09) 98
(10 – 13) 101
(14 – 17) 71
(18 – 20) 26
Tabla 14b
Histograma
Distribución de calificaciones por clases.
Grafica 7
Clases Frecuencias
(19 – 21) 21
(15 - 18) 32
(12 – 15) 37
(10 – 12) 45
(07 – 09) 40
(04 – 06) 35
(01 – 03) 20
Tabla 15
CAPITULO II.-
Medidas descriptivas
Medidas de tendencia central
Las principales medidas de tendencia central utilizadas en estadísticas para una muestra o
población son las denominadas promedios entre las que se encuentran la media aritmética, la
mediana y la moda.
La media aritmética o “media” es una medida muy descriptiva de cualquier característica
cuantificable de una muestra o población. La media se puede denotar con una letra mayúscula
correspondiente a la variable, encima de la cual se coloca una tilde, esto es:
Significa sumar todos los valores de X, desde el primero al enésimo. En la práctica no se utiliza
la notación completa, sino únicamente la notación abreviada:
(Fórmula 1)
(Fórmula 2)
(calificaciones) (Peso)
10 4 40
6 5 30
7 2 14
8 6 48
∑Pi = 17 ∑Xi Pi = 132
Tabla 17
MX = ∑Xi Pi / ∑Pi = 132/17 → MX = 7,76
Calificaciones Frecuencias
(X) (f)
10 4
9 6
8 7
7 9
6 10
5 8
4 6
3 4
2 3
1 1
Tabla 18
Para realizar los cálculos, se disponen los datos en una tabla a la que se le añade una tercera
columna (Xi fi) para anotar en ella el producto de cada valor de la variable X por su frecuencia
correspondiente.
Calificaciones Frecuencias Xi fi
(X) (f)
10 4 40
9 6 54
8 7 56
7 9 63
6 10 60
5 8 40
4 6 24
3 4 12
2 3 6
1 1 1
∑ fi = 58 ∑ Xi fi = 356
Tabla 18a
Mx = ∑ Mi fi / ∑ fi (fórmula 4)
En donde Mi es la marca de clase.
Mediana.
Esta es una medida de tendencia central que indica el punto de división de los datos en la mitad,
es decir “el valor central de una distribución de datos”. Al igual que la media se utiliza
únicamente para datos cuantitativos. Para determinar la mediana, los datos se organizan en
secuencia de valores, anotando también los valores repetidos, se calcula el punto medio
dividiendo entre 2 el número de datos N y se identifica cual es el valor del dato que ocupa el
lugar del punto medio de la secuencia de valores.
Pueden ocurrir dos casos que N sea par o impar.
La variable X son los valores constituidos por los resultados de la evaluación del desempeño de
un grupo de trabajadores.
Ejemplo A
X 9 8 8 7 7 6 5 4 3 3 2 2 1
Lugar 1° 2° 3° 4° 5° 6° 7° 8° 9° 10° 11° 12° 13°
Tabla 20
Mdn = 5
Ejemplo B
X 9 8 8 7 7 6 4 4 3 3 2 2
Lugar 1° 2° 3° 4° 5° 6° 7° 8° 9° 10° 11° 12°
Tabla 20a
Mdn = (6 + 4)/2 → Mdn = 5
Ejemplo. Calcular la mediana para la base de datos siguientes, en la que la variable X son las
calificaciones de un grupo de estudiantes.
X Frecuencias
10 4
9 6
8 7
7 9
6 10
5 8
4 6
3 4
2 3
1 1
Tabla 21
Para realizar los cálculos, se coloca una columna para anotar las frecuencias acumuladas. Estas
frecuencias se acumulan trabajando de abajo hacia arriba.
Como el número de datos es 58, al dividir 58/2 = 29, el cual se encuentra en 32 frecuencia
acumulada.
Mdn = 6
Cuando los datos están agrupados por clases, la mediana se calcula de manera aproximada, por
ejemplo:
Clases Frecuencias
(19 – 21) 23
(16 – 18) 35
(13 – 15) 47
(10 – 12) 56
(07 – 09) 44
(04 – 06) 33
(01 – 03) 12
Tabla 22
Para esta base de datos, se añade una columna donde anotamos las frecuencias acumuladas.
En este caso tenemos 250/2 = 125 el cual corresponde a al lugar de la clase (10 – 12), entonces
la mediana es igual a 11.
La clase mediana es (10 – 12)
Moda.
Medida de tendencia central que puede ser usada tanto en datos cuantitativos como
cualitativos. Se define como el valor más frecuente en una distribución y tiene el significado de
que muestra el valor más característico de una serie de datos.
De las calificaciones de un grupo de estudiantes tenemos:
X 10 10 9 9 9 8 8 7 7 5 5 5 5 4 4 3
Tabla 23
Mod = 5
Hay casos en que encontramos dos valores más frecuentes, los llamamos bimodal, por ejemplo
X 10 10 9 9 8 8 8 7 7 7 5 5 5 4 3 2 1
Tabla 24
Mod = 7 y Mod = 8
Pueden existir distribuciones que presentan más de una, dos, tres modas etc. A estas se las
denomina, en general, multimodal.
A continuación, mostramos un caso especial en donde no existe moda, estos casos son
conocidos como “amodal”
X 17 16 14 12 11 10 9 8 7 6 5 4 3 2 1
Tabla 24
“Amodal”
Cuando los datos vienen dados en forma de distribución de frecuencia no agrupados, la moda
se identifica por ser la variable de más elevada frecuencia, tal como veremos en la siguiente
tabla de edades de un grupo de estudiantes.
Valores de X Frecuencias
13 21
12 25
11 32
10 17
9 21
Tabla 25
Moda = 11
Cuando los datos están agrupados por clases, la moda se calcula de manera aproximada, como
se muestra en el ejemplo siguiente
Clases Frecuencia
(50 – 55) 23
(44 – 49) 25
(38 – 43) 39
(32 – 37) 41
(26 – 31) 39
(20 – 25) 23
Tabla 26
La mayor frecuencia es 41, que corresponde a la clase (32 – 37). Por lo tanto, la moda está
incluida en la clase (32 – 37), por lo cual se denomina clase modal. Asimismo, de modo
aproximado, se puede expresar la moda en función de la marca de clase, que en este caso sería:
Mod = 35,5.
Medidas de dispersión.
Como ya se expresó en el objetivo anterior, la media es utilizada como una medida altamente
descriptiva de la realidad de una muestra o población, aun cuando no tiene un valor absoluto
por si sola, debiendo ser complementada por las medidas de dispersión.
Las medidas de dispersión (o variabilidad) únicamente se aplican a datos provenientes de
variables cuantitativas y expresan hasta qué punto los valores de una distribución de datos se
alejan del punto central o se acercan a él.
Las medidas de dispersión, cumplen con un relevante cometido dentro de la estadística:
complementar la información dada por la media, añadiendo la noción de cuán descriptiva es la
medida de la realidad.
Las medidas de dispersión son: el rango (R); la desviación media (Dm), la varianza (S2), la
desviación estándar (S) y el coeficiente de variación (CV).
Rango es la medida de dispersión más elemental. Se define como la distancia el dato mayor y el
dato menor de una serie de estos y permite ubicar los valores extremos de la distribución de
datos.
El rango se calcula mediante la expresión
Rango = M – m + 1 (fórmula 5)
en donde M es el valor mayor y m el valor menor. Una manera alternativa de expresar el rango
consiste en anotar éste en forma de intervalo:
Rango = (m , M) (fórmula 5a)
Por ejemplo, si en una distribución de edades de una muestra se ha calculado la media que tiene
un valor de 17,5 años, el conocimiento del rango añade una información más sustantiva en torno
a la realidad de la distribución, puesto que permite conocer que el valor de la media está incluido
en un rango (12, 20), es decir R = 9, y permite diferenciar esta situación de otra, en la que existe
el mismo valor para la media, pero el rango es (17 , 18), es decir R = 2.
Para ejemplificar el cálculo de la desviación media tenemos las calificaciones de diez sujetos
presentadas en la tabla 26
Sujeto Notas X
1 17
2 18
3 20
4 9
5 5
6 7
7 18
8 16
9 12
10 15
Tabla 26
Calculamos el valor de MX = 13,7 y determinamos la tabla con los valores del valor absoluto de
la diferencia de la variable X y la media.
X |𝑋𝑖 − 𝑀𝑥|
17 3.3
18 4,3
20 6,3
9 4,7
5 8,7
7 6,7
18 4,3
16 2,3
12 1,7
15 1,3
∑X = 137 ∑|𝑋𝑖 − 𝑀𝑥| = 43,6
MX = 137/10 Dm = 43,6/10
MX = 13,7 Dm = 4,36
Tabla 26ª
Varianza, denotada como S2 o como “Var” se define también en función de las diferencias entre
la media y cada uno de los valores de la X.
∑ (X𝑖 – Mx)2
S2 = (formula 7)
𝑁
Sujeto Notas X
1 17
2 18
3 20
4 9
5 5
6 7
7 18
8 16
9 15
10 12
∑ X = 137
MX = 13,7
Tabla 27
Para el cálculo de la varianza se dispone los datos en columnas como se indica en la tabla 27a.
La varianza se utiliza en estadística inferencial para el diseño del modelo de análisis de varianza,
especialmente importante en trabajos de investigación experimental en los que se estudia el
efecto diferencial de un determinado tratamiento en varios grupos, en los que se incluye el
grupo experimental, grupo de control y diferentes niveles de tratamiento.
Medidas de ubicación.
Las medidas de ubicación añaden a las ya estudiadas un nuevo factor: conocer el significado de
un valor individual de una distribución dada, con respecto a los valores de un grupo referencial,
sea este la propia distribución o bien una distribución externa, que se toma como referencia.
Existen varias medidas de distribución (cuartiles, deciles, percentiles), sin embargo, nos
limitaremos a los percentiles, pues a partir de ellos se pueden calcular las restantes medidas.
Los percentiles son usados en psicometría para evaluar rasgos utilizando pruebas
estandarizadas, asi como en la gerencia para determinar rendimiento en trabajo y producción,
de acuerdo con un estándar definido por la data registrada de situaciones anteriores. Del mismo
modo, el uso de estas medidas se puede extender a la evaluación del desempeño de
trabajadores y a los criterios para asignar cargos y/o seleccionar personal.
Existen diferentes procedimientos para calcular los percentiles de una distribución de datos. No
obstante, nos centraremos en el método gráfico, el más práctico y sencillo, que se ejemplifica
seguidamente con una distribución de frecuencia de calificaciones procedentes de la evaluación
de desempeño de un grupo.
Calificaciones X Frecuencia
20 12
19 13
18 15
17 17
16 19
15 20
14 16
13 14
12 13
11 12
10 10
09 9
08 7
07 6
06 5
05 4
04 3
03 2
02 2
01 1
Tabla 28
Para construir el grafico de percentiles, añadimos a la derecha de la tabla 28 dos columnas para
anotar en ella la frecuencias acumuladas y frecuencias acumuladas en porcentajes.
Calificaciones X Frecuencia Frec. Acum. Frec. Acum. %
20 12 200 100.00
19 13 100 94.00
18 15 175 87.50
17 17 160 80.00
16 19 143 71.50
15 20 124 62.00
14 16 104 52.00
13 14 88 44.00
12 13 74 37.00
11 12 61 30.50
10 10 49 24.50
09 9 39 19.50
08 7 30 15.00
07 6 23 11.50
06 5 17 8.50
05 4 12 6.00
04 3 8 4.00
03 2 5 2.50
02 2 3 1.50
01 1 1 0.50
Tabla 28a
Una vez calculado los valores, se grafica en forma de ojiva (valores acumulativos), representando
los valores de la variable en el eje de las X y las frecuencias acumuladas porcentuales en el eje
de las Y, como se muestra en el grafico 8.
Gráfico de percentiles
Grafico 8
Aplicación del grafico de percentiles al cálculo de cuartiles y deciles. Para calcular estas medidas
de ubicación se utiliza la misma técnica y el mismo gráfico de percentiles, con las siguientes
transformaciones, derivadas de la relación de equivalencia entre percentil/cuartil y
percentil/decil.
Capitulo III
Aplicación de la distribución normal.
Conceptos fundamentales de Probabilidad.
Todos los experimentos o situaciones experimentales, bien sean provenientes de hechos
naturales o producto de la voluntad del experimentador, se pueden dividir en dos clases:
a) Determinísticos
b) Probabilístico o aleatorio
Los experimentos determinísticos son aquellos cuyos resultados se pueden prever en función
de determinadas leyes de la naturaleza, expresadas por una relación matemática y bajo ciertas
condiciones.
Probabilidad.
Si queremos determinar la máxima frecuencia relativa con que la moneda caiga con la cara
hacia arriba, observamos que ésta tiene el valor de 1/2, puesto que el suceso deseado
(favorable) es 1 (cara), frente al número total de los posibles sucesos que son 2 (cara y
escudo). El mismo razonamiento es válido si el suceso deseado es escudo.
Cuando lanzamos un dado que tiene 6 caras, numeradas del 1 al 6, puede ocurrir 6 casos:
Casos 1° 2° 3° 4° 5° 6°
Caras
Tabla 30
Si deseamos que salga el 4: ¿Cuál es la máxima frecuencia relativa que podemos obtener?
Evidentemente la máxima frecuencia relativa posible tiene el valor de 1/6, ya que tenemos 1
suceso favorable (esperado), frente a un total de sucesos posibles que son 6.
Veamos otro ejemplo: tenemos una baraja que tiene 40 cartas, de las cuales hay cuatro que son
reyes. ¿Cuál es la máxima frecuencia relativa en la que se puede presentar el suceso de que al
cortar la baraja nos salga un rey? Ésta será 4/40, ya que hay 4 reyes (sucesos favorables), frente
a 40 cartas (sucesos posibles).
En estos experimentos, en los que el resultado obtenido se debe al azar, ya que no existe una
ley determinante de la relación causa-efecto, se identifica la máxima frecuencia relativa con la
probabilidad teórica, definiéndose la probabilidad teórica como el cociente entre el número de
casos favorables y el de casos posibles, es decir:
𝐶𝑎𝑠𝑜𝑠 𝑓𝑎𝑣𝑜𝑟𝑎𝑏𝑙𝑒𝑠
Probabilidad teórica = (ecuación )
𝐶𝑎𝑠𝑜𝑠 𝑝𝑜𝑠𝑖𝑏𝑙𝑒𝑠
2. Echen una moneda al aire 50 veces y anoten la frecuencia de cara (C) y escudo (E) para
cada prueba.
i) ¿Que observa en el resultado?
ii) ¿Cuál es la probabilidad teórica?
iii) ¿Cuál es la probabilidad experimental o real?
iv) ¿Qué conclusión se puede extraer?
La grafica de esta base de datos experimentales nos indica que es una curva en forma de
campana. A este tipo de figuras se les denomina “curva de probabilidad” y representa una
“distribución de probabilidad”. La curva obtenida experimentalmente por Weldon es una
aproximación a la denominada “distribución normal de Gauss”, curva normal, o “campana de
Gauss”.
La curva normal
Muchos de los sucesos aleatorios que ocurren en diferentes campos de la realidad, objeto de
estudio de la estadística, siguen la ley de distribución normal y, por lo tanto, la curva normal es
descriptiva de las frecuencias de ocurrencia de dichos sucesos. Entre ellos las mediciones de
errores en observaciones realizadas en grandes segmentos de poblaciones, tales como: medidas
de alturas, de velocidades, de rasgos físicos y mentales, de elementos defectuosos en un proceso
de producción, etc.
Propiedades de la curva normal
Simetría. La curva normal es simétrica con respecto a un eje vertical.
Coincidencia de medidas de tendencia central. En una distribución normal, las medidas de
tendencia central coinciden en valor numérico, es decir, la media, la mediana y la moda tienen
el mismo valor.
Relación con las medidas de dispersión. En una distribución normal, se encuentran las siguientes
relaciones:
Entre la media y ± (más o menos) una desviación estándar, se incluyen 68,26% de los
valores centrales de la distribución.
Entre la media y ± (más o menos) dos desviaciones estándar, se encuentra 95%
(aproximado) de los valores centrales de la distribución.
Entre la media y ± (más o menos) tres desviaciones estándar, se encuentra 99%
(aproximado) de los valores de la distribución.
Kurtosis
Para el cálculo de la kurtosis (K) de una distribución, se utilizan los valores de los percentiles,
según la siguiente expresión
𝑃75−𝑃25
Kurtosis =
2 (𝑃90−𝑃10)
Ejemplo
CAPÍTULO 4
MODELOS DE CORRELACIÓN
El significado de la correlación.
Podemos decir que existe relación entre dos sucesos o series de sucesos cualesquiera, cuando
uno de ellos tiene que ver con los otros: tales son las relaciones entre personas (amistad,
parentesco); las relaciones entre números o cantidades (mayor que, menor que, múltiplo de);
las relaciones de causalidad; las relaciones de funcionabilidad entre dos o más variables, etc.
La palabra “correlación” es utilizada frecuentemente en estadística y en el lenguaje ordinario.
No obstante, usualmente se maneja de manera inadecuada, identificándola como sinónima de
“relación”. En este sentido la correlación, considerada bajo el punto de vista estadístico, se
entiende más allá del alcance de una simple relación, es decir, transciende a la relación,
incluyendo las nociones de cuantificación del grado de relación y de la direccionalidad en que se
presenta esta relación.
Ejemplo 2.- El docente desea conocer la correlación entre las variables “rendimiento en
lenguaje” (X) y “rendimiento en educación física” (Y).
Los datos de este ejercicio se muestran a continuación:
Método de Pearson
Los cálculos para hallar el coeficiente “r” de Pearson vienen determinados por la siguiente
expresión matemática:
∑𝑿 𝒀
⁄𝑵−𝑴𝒙 𝑴𝒚
r= ( )
𝑺𝒙 𝑺𝒚
siendo: Mx = media de la variable X
My = media de la variable Y
Sx = desviación estándar de X
Sy = desviación estándar de Y
Se ilustra un ejemplo cuyos datos se refieren a las variables X (motivación) e Y (desempeño
laboral).
Sujeto Motivación Des. laboral
1 7 10
2 8 6
3 4 4
4 8 9
5 6 7
6 7 5
7 8 4
8 9 5
9 10 9
10 10 10
11 3 3
12 7 8
13 8 9
14 6 7
15 5 6
16 6 6
17 4 5
18 5 5
19 9 9
20 8 7
Tabla 37
Para la aplicación de la formula se calculan previamente Sx y Sy, siguiendo el procedimiento ya
visto en el capítulo (?). En este caso, los valores obtenidos son Sx = 1,94, Sy = 2,07.
A continuación, se dispone una columna a la derecha, encabezada por X e Y, en la que se irán
anotando los productos XY, como se puede ver en la tabla 37a.
48,85−6,90 𝑥 6,70
r= → r = 0,65
1,94 𝑥 2,07
Este resultado indica que el valor del coeficiente de correlación entre las variables “motivación”
y “rendimiento” es de 0,65.
Método de Spearman
Los cálculos para hallar el coeficiente “rho” de Spearman vienen determinados por la siguiente
expresión matemática:
en donde:
D es la diferencia entre los rangos de las variables X e Y (Rx – Ry)
N es el número de sujetos.
Para realizar la aplicación práctica de la formula, a continuación, se plantea un ejemplo en que
se pide calcular la correlación entre las variables nominales “liderazgo” y “dogmatismo”,
medidas en una escala de frecuencia. Designando X a “dogmatismo” e Y a “liderazgo”, para una
muestra de 10 sujetos.
Acto seguido, se procede a asignar rango a cada valor de la variable X del siguiente modo: al
mayor valor se asigna el rango 1 (el primero); al siguiente, el rango 2 (el segundo) y así hasta
agotar los datos X. cada rango se va anotando en el lugar correspondiente de la columna Rx.
A continuación, se calcula la diferencia entre los valores correspondientes a cada Rx, Ry,
anotándose en la columna D.
Elevando al cuadrado cada uno de los valores de D, se anotan en la columna de los cuadrados.
Totalizada esta columna, se obtiene ∑D2
sujeto X Rx Y Ry D D2
1 10 1 2 9 8 64
2 8 3 3 8 5 25
3 4 7 9 2 5 25
4 7 4 10 1 3 9
5 5 6 8 3 3 9
6 6 5 7 4 1 1
7 3 8 6 5 3 9
8 1 10 5 6 4 16
9 2 9 4 7 2 4
10 9 2 1 10 8 64
∑ D2 = 226
Tabla 38a
Caso A Caso B
Y X Y
Año Precio en MM Inversiones en MM Beneficio MM
1981 5 1.2 4
1982 4.5 1.3 5
1983 5.3 1.8 3
1984 6 2.1 5
1985 6.2 2 6
1986 6.5 3 2
1987 7 1 3
1988 6.4 10 9
1989 8 7 7
1990 8.3 3 2
1991 9 6 7
1992 8.6 3 8
1993 10 9 9
1994 11 5 2
1995 11.4 7 8
1996 12 2 3
1997 12 3 3
Métodos de muestreo
El muestreo es un proceso de selección o escogencia de una parte de la población para
propósitos investigativos y/o de recolección de información. El muestreo se hace necesario por
motivos de economía de recursos y tiempo, así como de factibilidad.
Si se está realizando un sondeo de opinión, por ejemplo, no es posible preguntar a toda una
población. Si se lleva a cabo un trabajo experimental, no es factible aplicar un tratamiento a
todos los sujetos o elementos que conforman la población. Si se trabaja en control de calidad
mediante ensayos destructivos, sería descabellado aplicar éstos a todos los elementos que
conforman la población en estudio. De ahí deriva la importancia de no trabajar con la población,
sino con una parte de ella, que se denomina muestra y que no es otra cosa que “un subconjunto
del conjunto población”.
La muestra deberá ser lo más parecida posible a la población de donde proviene, debe
representarla, siendo, pues, la característica esencial de una muestra su representatividad. Esta
representatividad no es un concepto absoluto, sino que está vinculada a un referente especifico,
constituido por las características definitorias de la población: pudiera decirse que la muestra es
una reproducción a pequeña escala de la población y que debe reunir todas las características
definitorias de ésta.
El procedimiento de muestreo debe garantizar al máximo la representatividad de la muestra, de
modo que las conclusiones en torno a la muestra sean susceptibles de ser generalizadas a la
población.
Los métodos de muestreo se dividen en dos grandes categorías: (1) no probabilísticos y (2)
probabilísticos.
Error muestral
Es común que se presenten diferencias entre la muestra seleccionada y la población de
donde ésta proviene. El error muestral expresa estas diferencias y puede ser atribuido al
sesgo, en cuyo caso la muestra no es representativa, o bien a fluctuaciones al azar, en cuyo
caso si es representativa.
Para estimar el error muestral se utilizan las técnicas denominadas de “Jakknife” (navaja),
en las cuales se comparan submuestras no excluyentes de la muestra, y las llamadas “boots-
trap”, basadas en el método de Montecarlo, cuyas aplicaciones se han desarrollado
actualmente mediante programas de computación.
Tamaño de la muestra.
Este aspecto no es fácil de dilucidar, puesto que implica conocer los parámetros de la
población, información que no siempre se tiene disponible.
Por otra parte, los propósitos de cada estudio a realizar sobre la muestra pueden ser
distintos, por lo cual no existe una formula o procedimiento unificado que permita decidir
de manera absoluta el tamaño de una muestra. Usualmente se maneja el criterio de que el
tamaño de la muestra sea de 10% a 20% del tamaño de la población, pero este criterio es
arbitrario y no justifica, por si solo, la representatividad numérica de la muestra.
En este sentido, existen casos históricos, como el proyecto Talent, que se llevó a cabo
exitosamente en Estados Unidos, con una muestra de 5% de la población, así como estudios
de pronostico realizados por Gallup, Crosley y otras, en los que se obtuvieron resultados
satisfactorios con muestras inferiores a 1%.
Los factores a considerar para decidir el tamaño de la muestra son:
La variedad de las características de la población. En el caso de que esta sea muy
homogénea, con pocos elementos se conforma una muestra. Por el contrario, cuando hay
mucha variedad, la muestra deberá ser de mayor tamaño. Por ejemplo, si una empresa
comercializadora de artículos deportivos adquiere balones de basket de un solo tipo a un
fabricante determinado, deberá revisar tres o cuatro para comprobar la calidad. Si adquiere
balones a cinco fabricantes y cada uno de ellos ofrece diferentes tipos, la muestra deberá
ser mayor, para que le permita comparar diferentes calidades dentro de la variedad de la
oferta.
El riesgo en la toma de decisión, que está asociado al nivel de significación. Cuanta más
seguridad se requiera, mayor será el tamaño de la muestra.
La precisión demandada en la estimación, que viene dada por el intervalo de confianza.
El tipo de muestreo utilizado. Una muestra escogida como aleatoria simple deberá ser mayor
que una estratificada, puesto que la estratificada ya ha tenido en cuenta las variaciones.