Está en la página 1de 13

Unidad III.

Pruebas estadísticas paramétricas

Introducción

En este bloque nos enfocaremos en el desarrollo de los métodos y/o la pruebas estadísticas
paramétricas, según el tipo de estudio o investigación que se desea realizar.

Las pruebas estadísticas paramétricas implican una estimación de los parámetros de la población
con base en muestras estadísticas, mismas que tienen que repercutir en sus resultados en base
al tamaño de la muestra, por lo que entre más grande sea la muestra más exacta será la
estimación, y viceversa, cuando presentamos tamaños de muestras muy pequeños, tenderá a la
distorsión de los resultados.

Existen diferentes elementos que nacen de las pruebas paramétricas, como:

• La toma de decisiones en cuanto a la variable dependiente.

• Los elementos de la muestra se obtienen de una población normalmente distribuida.

• La varianza de las muestras no es significativamente diferente, permitiendo


homogeneidad en la varianza.

Para este bloque analizaremos algunos métodos como la distribución normal, la T y la F con sus
comparaciones de varianzas y medias, así como el análisis de varianzas y de las medias, y por
último la prueba R de Pearson, las cuales nos permitirán analizar sus ventajas en cuanto a su
poder de eficiencia, la sensibilidad de los datos seleccionados y su robustez en la estimación de
probabilidades exactas. Sin embargo cabe hacer notar que también debemos no dejar de lado las
desventajas que se tienen en la utilización de las pruebas estadísticas paramétricas, ya que el
cálculo es más difícil y no todos los datos pueden ser valuados en este tipo de métodos, haciendo
el uso de las pruebas no paramétricas en cuanto sean necesarios.

Temario

Unidad III. Pruebas estadísticas paramétricas

3.1. Distribución normal o Gaussiana (Z).


3.2. Distribución F.
3.2.1. Diferencias de varianzas.
3.2.2. Diferencias de las medias.
3.3. Análisis de varianza.
3.4. Distribución T.
3.5. Prueba R de Pearson simple

Material compilado con fines académicos, se prohíbe su reproducción total o parcial sin la autorización de cada autor.
Objetivo por bloque:

Emplear bases teóricas, características y funciones de cada una de las pruebas paramétricas
dentro de la estadística, tales como; el análisis y comparación de varianzas que le permitan
solucionar problemas en el desarrollo de muestras psicológicas.

Unidad III. Pruebas estadísticas paramétricas

3.1 Distribución normal o Gaussiana (Z).

Es una de las distribuciones más importantes dentro de la modelación de experimentos, la cual se


obtiene y se desarrolla en base a un número de observaciones más grande, desarrollado en 1733
por De Moivre, que por desgracia se olvidó en el tiempo, hasta que Karl Gauss después de 100
años lo retomó. (Montgomery & Runger, 1996).

La representación gráfica de su función de densidad tiene una forma acampanada y es simétrica


respecto de un determinado parámetro. Esta curva se llama campana de Gauss, misma que es
muy similar a la generada por la t-student.

La importancia de esta distribución radica en que permite modelar numerosos fenómenos


naturales, sociales y psicológicos.

Puede por ejemplo demostrarse que cuando se realiza un experimento aleatorio, este se conforma
por una serie de ensayos independientes, en el cual, cada uno de ellos da resultados de una
observación aleatoria en particular, representando estas, como un promedio total de los n
ensayos, los cuales tienden hacia una distribución con una función de densidad de probabilidad
similar a la ecuación de función de densidad de probabilidad normal, representada como:

−𝒛𝟐
𝟏
𝐥𝐢𝐦 𝑷(𝒛 < 𝒁 < 𝒛 + ∆𝒛) = 𝒆 𝟐 )
𝒏→∞ √𝟐𝝅

Por ejemplo, cuando hablamos del error laboral de una persona, podemos considerar diferentes
observaciones, las cuales dependen de diferentes cambios como el clima, el estrés, el ambiente
laboral, problemas familiares o de salud y muchísimos otros más que pueden afectar en su
rendimiento laboral, los cuales podemos definir que sus errores son independientes a los factores
anteriormente mencionados, pero con la misma probabilidad de ser positivos o negativos,
entonces se puede demostrar que el error total tiene una distribución normal

Material compilado con fines académicos, se prohíbe su reproducción total o parcial sin la autorización de cada autor.
La variable aleatoria X con función de densidad de probabilidad

−(𝒙−𝝁)𝟐
𝟏
𝒇𝒙 (𝒙; 𝝁, 𝝈) = 𝒆 𝟐𝝈𝟐 -<x<
√𝟐𝝅𝝈

La cual tiene una distribución normal con parámetros µ donde - < µ <  y  > 0.

Así mismo

E(X) = µ y v(x) = 2
La deducción de la media y la varianza son términos que se utilizarán para este subtema por ello
revisa el siguiente material.

Da clic en la siguiente imagen para profundizar en las medidas de tendencia central y la varianza
que estaremos utilizando.

* Media Aritmética
Media * Media Aritmética
Ponderada

Mediana

Varianza

Material compilado con fines académicos, se prohíbe su reproducción total o parcial sin la autorización de cada autor.
Media Aritmética:

También conocida simplemente como la media de un conjunto de N números es representada por


̅ , (la cual se lee X barra) y está definida por:
𝑿

𝑿𝟏 + 𝑿𝟐 + 𝑿𝟑 + ⋯ + 𝑿𝑵 ∑𝑵
𝒋=𝟐 𝑿𝒋 ∑𝑿
̅=
𝑿 = =
𝑵 𝑩 𝑵

Por ejemplo: La media de los números 9, 3, 11, 15, 10 es

X= (9+3+11+15+10)/5= 9.6

Media Aritmética Ponderada:

Es muy similar a la media, sin embargo esta medida está relacionada con el peso, la cual se
representa como W, y para este caso se representa como:

𝒘𝟏 𝑿𝟏 + 𝒘𝟐 𝑿𝟐 + ⋯ + 𝒘𝒌 𝑿𝑵 ∑ 𝒘𝑿
̅=
𝑿 =
𝒘𝟏 + 𝒘𝟏 + ⋯ + 𝒘𝒌 ∑𝒘

Mediana:

Se representa por un conjunto de números ordenados en magnitud, el cual es el valor central o la


media de los valores centrales de estudio.

Una forma sencilla de entender cómo obtener la media es:

Clasifiquemos en números impares y pares el grupo de datos representados, por lo que para los
impares, se toma la media como el valor que está al centro, por ejemplo:

El conjunto de datos de número 3, 4, 6, 8, 8, 8, 9 11, 12, entonces la media es 8.

Para el caso de un conjunto de números que en total sean pares, entonces se toman los dos
valores centrales y se obtiene el promedio de ellos para así hacer la representación de la media,
por ejemplo:

El conjunto de datos de números 3, 4, 4, 6, 8, 10, 13, 15 15, 16, entonces, se toman es 8 y 10


que están en el centro y se obtiene el promedio, resultando de este valor el 9 como la media del
conjunto.

Material compilado con fines académicos, se prohíbe su reproducción total o parcial sin la autorización de cada autor.
La varianza:

Es similar a la varianza de la muestra representada por ∑ 2, en donde existe una medida de

variabilidad en la población, conocida como varianza poblacional, y se hará uso de la

representación como 2 para determinar a esta.

La raíz cuadrada de 2 que viene siendo , denota la desviación estándar poblacional. Cuando la
población es finita y está formada por N valores, la varianza poblacional puede entonces definirse
como:

𝒘𝟏 𝑿𝟏 + 𝒘𝟐 𝑿𝟐 + ⋯ + 𝒘𝒌 𝑿𝑵 ∑ 𝒘𝑿
̅=
𝑿 =
𝒘𝟏 + 𝒘𝟏 + ⋯ + 𝒘𝒌 ∑𝒘

-------------

Los valores de µ y , determinan la forma de la función de densidad de probabilidad, la cual es

una curva simétrica en forma de campana, donde el valor de µ determina el centro de la función

y  determinan la dispersión. Gráficamente se vería como:

Si X es la variable aleatoria normal con E(X) = µ y V(X) = 2, entonces la variable aleatoria está
representada matemáticamente como:

Z=(X-µ)⁄ 
Es una variable aleatoria normal con E(Z)=0 y V(Z)=1. Esto es, Z es una variable aleatoria normal
estándar (Montgomery & Runger, 1996).

Material compilado con fines académicos, se prohíbe su reproducción total o parcial sin la autorización de cada autor.
El resultado para la media y la varianza de Z, puede obtenerse de manera directa con la teoría
mostrada anteriormente. La creación de una variable aleatoria nueva con esta transformación se
le conoce como estandarización. La variable Z entonces representa la distancia de X a partir de su
media en términos de desviaciones estándar.

El cálculo de probabilidades en distribuciones normales, está dado por la tabla de probabilidades


de:

P ( z ≤ k ), siendo z la variable tipificada.

Estas probabilidades nos dan la función de distribución Φ( k ), donde:

Φ( k ) = P ( z ≤ k )

Para ello es necesario hacer uso de la tabla de valor de K, donde las unidades y décimas se buscan
en la columna izquierda y las centésimas en la fila superior.

Veamos el siguiente ejemplo para aterrizar la teoría.

Se dice con los test de Inteligencia IQ se han diseñado para analizar el comportamiento humano
y también se sabe que los resultados obtenidos, pueden mostrar una distribución arbitraria, por
lo que cualquier prueba con la suficiente cantidad de preguntas permitirá un buen resultado de la
investigación, la cual permitirá mostrar una distribución normal.

Supongamos que el IQ de los Mexicanos está normalmente distribuida, con un promedio µ= 100

y la desviación estándar  = 15, se requiere el cálculo para 1000 personas mexicanas.

Para µ entre 93 y 108

Como X1 = 93 y X2 = 108

Entonces Z1 = (93-100)/15 = -0.46 y Z2 = (108-100)/15= .53

Redondeando Z1 y Z2 se utilizan para obtener sus valores de la tabla z de distribución normal

De aquí que:

P(Z1≤ X ≤ Z2) = p(-.4 ≤ X ≤ .5) =

P(z≤.5)-[1-p(z≤.4)] =

P(z≤0.5)+p(z≤.4)-1= 0.69146 + 0.65542 – 1 = 0.34688

Por lo que el valor de P se multiplica por la población estudiada, para obtener el resultado.

= 0.34688 * 1000= 346.88

Es decir que de las mil personas, solo 347 de ellas tienen un coeficiente IQ de 100.

Material compilado con fines académicos, se prohíbe su reproducción total o parcial sin la autorización de cada autor.
Distribución F.

En muchas situaciones existe la necesidad de demostrar la significancia de las diferencias entre


tres o más medias muestrales o, de forma similar, la hipótesis nula de que todas las medias
muestrales son iguales.

Como se ha visto en algunas aplicaciones es importante conocer la distribución muestral de:

3.3.1. Diferencias de varianzas

3.3.2. Diferencias de las medias

La diferencia de dos medias y la diferencia de varianzas.

La distribución muestral de las diferencias de dos medias representadas como ( ̅̅̅1 - 𝑋


𝑋 ̅̅̅2y ) de

̅̅̅2 - ̅̅̅
2
forma similar la distribución muestral de la diferencia de varianzas (𝑆 1 𝑆2 − ). Cabe mencionar
2
𝑆
que la distribución es bastante complicada, por lo que se utiliza el estadístico 1⁄ 2 , , ya que un
𝑆 2
cociente grande o pequeño indicaría una fuerza grande, mientras que un cociente casi igual a 1
correspondería a una diferencia pequeña. La distribución muestral en dicho caso se puede calcular
y se le conoce como distribución de F, llamada así en honor de R. A. Fisher. (Spiegel & Stephens,
2002)

Supongamos que tenemos dos muestras denominadas como 1 y 2, de tamaños N1 y N2

respectivamente y sus varianzas son 12 y 22 , por lo que su representación matemática quedaría
como:

𝑺̂𝟐𝟏 𝑵𝟏 𝑺𝟐𝟏
⁄ 𝟐 ⁄
 (𝑵𝟏 −𝟏)𝟐𝟏 ̂𝟐 = 𝑵𝟏 𝑺𝟐𝟏 𝑵𝟐 𝑺𝟐𝟐
𝑭= 𝟏
= 𝑵 𝑺𝟐 donde 𝑺𝟏 y 𝑺̂
𝟐
𝟐𝟏 =
𝑺̂𝟐𝟐 𝟐 𝟐

𝑵𝟏 −𝟏 𝑵𝟐 −𝟏
⁄ 𝟐

𝟐
(𝑵𝟐 −𝟏)𝟐𝟐

Por lo que la distribución muestral de F se denomina distribución muestral de F de Fisher o sólo

distribución de F, con 1= N1-1 y 2= N2-1 grados de libertad

𝑪𝑭(𝟏⁄𝟐)−𝟏
𝒀=
(𝟏 𝑭 + 𝟐 )(𝟏+𝟐)⁄𝟐

Material compilado con fines académicos, se prohíbe su reproducción total o parcial sin la autorización de cada autor.
Donde C es una constante dependiente de 1 y 2 tal que el área total bajo la curva es 1. La

curva, suele variar considerablemente para distintos valores de 1 y 2, y se muestra gráficamente

a continuación:

Recuerda que para la resolución de problemas, en los que se desarrollará la investigación, basada
en la distribución F de Ficher, será necesario, como anteriormente lo manejamos, hacer uso de
las tablas de distribución, la cual, para este tema, las encontrarán dentro de las lecturas base de
este bloque.

Para profundizar en el tema revisa te recomendamos ver el siguiente video:

https://www.youtube.com/watch?v=4uzowtesHds

3.3 Análisis de varianza.

Existen diferentes tipos de estudio en el análisis de varianza, como lo son: La clasificación simple
o de un solo factor y para dos factores, dos factores con réplica, sin embargo, cuando se utiliza la
técnica anova se deben cumplir los siguientes supuestos:

Los elementos de los diversos subgrupos deben seleccionarse mediante el muestreo aleatorio, a
partir de poblaciones normalmente distribuidas.

La varianza de los subgrupos debe ser homogénea.

En un experimento de un factor, las mediciones u observaciones, se obtienen para a grupos


independientes de muestras, donde b es el número de mediciones en cada grupo. Nos referimos
de a como los tratamientos, donde cada uno de ellos tiene b repeticiones.

Los resultados de un experimento de un factor suelen presentarse en una tabla con a renglones y
b columnas, como se indica en la siguiente tabla:

Tratamiento 1 X11, X12, …, X1b


Tratamiento 2 X21, X22, …, X2b

Tratamiento a Xa1, Xa2, …, Xab

Material compilado con fines académicos, se prohíbe su reproducción total o parcial sin la autorización de cada autor.
Donde Xjk denota el j-ésimo renglón y en la k-ésima columna, donde j = 1, 2, …, a y K = 1, 2, …,
b. Por ejemplo si tenemos a X34 se refiere a la cuarta medición del tercer tratamiento.

𝑋̅𝑗 denotará la media de las mediciones en el j-ésimo renglón, Donde:

𝟏
̅̅̅
𝑿𝒋 = ∑𝒃𝒌=𝟏 𝑿𝒋𝒌 siendo j = 1, 2, …, a
𝒃

El punto en 𝑋̅𝑗 se utiliza para señalar que el índice k ha sido sumado. Los valores 𝑋̅𝑗 se denominan
medias grupales, por algunos autores lo podemos encontrar como medias de tratamiento o medias
de fila. La gran media o media total es la media de todas las mediciones en todos los grupos y se

denota por 𝑋̅ :

𝟏
̅=
𝑿 ∑𝒂𝒋=𝟏 ∑𝒃𝒌=𝟏. 𝑿𝒋𝒌
𝒂𝒃
Para profundizar en el tema revisemos el siguiente video:

https://www.youtube.com/watch?v=WVM_jZSCSzE

3.4 Distribución T.

Para poder obtener un buen resultado en cuanto a las investigaciones, siempre es aconsejable
trabajar con muestras de un tamaño grande, por grande debemos entender a mayores de 30
observaciones, y una desviación estándar conocida regularmente. Es bien sabido por todos los
investigadores que en la realidad existen problemas en donde ni el tamaño de la muestra es tan
grande, ni tampoco es posible conocer el valor de la desviación estándar poblacional.

Favorablemente, existe una distribución que se utiliza en estos casos, es decir, para muestras
pequeñas y se le conoce en estadística como "distribución t de Student". A este tipo de teorías en
las que se adecuan tamaños de muestras pequeñas, algunos autores las llaman Teoría de muestras
pequeñas o teoría exacta del muestreo.

Los principios de la distribución t se localizan con labores realizadas por W.S. Gossett (1876-
1937), quien era empleado de la cervecería Guinness Brewery en Dublín, Irlanda, y necesitaba
una distribución que pudiera ser utilizada con muestras pequeñas, en la cual, esta empresa no
consentía que los empleados publicaran resultados de investigaciones con su propio nombre. De
modo que Gossett adoptó el seudónimo de Student para publicar los resultados de sus
descubrimientos de investigación (1908).

Material compilado con fines académicos, se prohíbe su reproducción total o parcial sin la autorización de cada autor.
A Gossett le interesaba el comportamiento exacto de la expresión, donde se define el estadístico
como:

Cuando s debía usarse como estimador de a. En particular le preocupaba la discrepancia entre s


y a cuando se calculaba s a partir de una muestra muy pequeña. La distribución t y la distribución
normal estándar se presentan gráficamente en el siguiente diagrama (Luceño, A. & González, F.,
2004):

Para este caso en especial es de suma importancia, en particular, la distribución que es menos
alta y más extendida que la distribución normal.

Las siguientes características de la distribución t se basan en el supuesto de que la población de


interés es normal y en una muestra es pequeña y se desconoce el valor de a:

• Cada curva t tiene forma de campana con centro en 0.

• Cada curva t, está más dispersa que la curva normal estándar.

• A medida que k aumenta, la dispersión de la curva t correspondiente disminuye.

Para profundizar en el conocimiento de este subtema, revisemos el siguiente video:

https://www.youtube.com/watch?v=cnrpYAsM9kI

Prueba R de Pearson simple.

La prueba R de Pearson está dedicada al estudio entre dos variables medidas en un nivel por
intervalos o de razón y está representada con el símbolo r.

Material compilado con fines académicos, se prohíbe su reproducción total o parcial sin la autorización de cada autor.
Para este tipo de pruebas, el estudio no considera a las variables como independiente y la otra
como dependiente entre ambas, porque no evalúa la causa, sino la relación mutua, a la que llama
correlación.

El coeficiente de correlación se obtiene simplemente considerando los pares (X, Y)


correspondientes a los diferentes tiempos y ejecutando las fórmulas que se vieron en los subtemas
anteriores. Es posible correlacionar valores de una variable X en cierto momento con valores
correspondientes de X en momentos anteriores, y a esto se le llama autocorrelación.

Sus niveles de variable de intervalo o razón, pueden variar de:

+1.00 a -1.00

Es importante hacer notar que cuando estas cantidades, pasan por el cero, corresponde a ausencia
de correlación. En el caso de los primeros dan a entender que existe una correlación directamente
proporcional e inversamente proporcional, respectivamente.

De lo anterior se tiene que:

• +1 ó -1 = Correlación perfecta.

• 0.95 = Correlación fuerte.

• 80% = Correlación significativa.

• 70% = Correlación moderada.

• 50% = Existe una relación parcial.

De forma matemática el coeficiente de correlación lineal de Pearson se define como:

Donde:

r = coeficiente de correlación de Pearson.

Sxy = sumatoria de los productos de ambas variables.

Sx = sumatoria de los valores de la variable independiente.

Sy = sumatoria de los valores de la variable dependiente.

Sx2 = sumatoria de los valores al cuadrado de la variable independiente.

Sy2 = sumatoria de los valores al cuadrado de la variable dependiente.

N = tamaño de la muestra en función de parejas.

Material compilado con fines académicos, se prohíbe su reproducción total o parcial sin la autorización de cada autor.
Cuando tenemos un fenómeno en el que las observaciones se miden según una escala de intervalo,
se puede realizar este procedimiento estadístico, teniendo en cuenta que el fenómeno debe ser
lineal.

Al igual que las otras pruebas paramétricas, la varianza de las variables X y Y deben guardar
homogeneidad.

Todo procedimiento de pruebas estadística y para el caso especial de la prueba R de Pearson, se


deben seguir los siguientes pasos:

1. Ordenar los valores de la variable dependiente (Y) con respecto a los valores de la
variable independiente (X).

2. Elevar al cuadrado cada valor X y de Y.

3. Obtener los productos de X y Y, para lo cual se deben multiplicar independientemente


ambos valores.

4. Efectuar las sumatorias Sx, Sy, Sx2, Sy2, y Sxy.

5. Calcular el tamaño de la muestra en función de parejas de X y Y.

6. Aplicar la ecuación.

7. Calcular los grados de libertad (gl): gl = N parejas -1.

8. Comparar el valor de r calculado en la tabla de valores críticos de t de Kendall en función


de la probabilidad. (Esta tabla r, la podrás localizar en las lecturas base de este bloque)

9. Decidir si se acepta o rechaza la hipótesis.

Revisa el siguiente video, para poder analizar un ejemplo que nos ayude a comprender a detalle
el tema:

https://www.youtube.com/watch?v=JtXeZE7p_LU

Material compilado con fines académicos, se prohíbe su reproducción total o parcial sin la autorización de cada autor.
Referencias Bibliográficas.

Douglas C., y George C., (1996), Probabilidad y estadística aplicadas a la ingeniería. México:
McGraw-Hill, Primera edición.

Gossett, W., (2003), Biografía de William Sealy Gosset, Consultado el 25 de enero de 2016.
Disponible en: http://www-history.mcs.st-andrews.ac.uk/Biographies/Gosset.html

Luceño, A., & González, F., (2004), Métodos Estadísticos para medir, describir y controlar la
variabilidad. España: Universidad de Cantabria, ISBN 84-8102-375-2

Ronald E., Raymond H. y Sharon L., (1998), Probabilidad y estadística aplicadas para ingeniería.
México: Prentice Hall.

Mendenhall, W., (1997), Probabilidad y estadística para ingeniería y ciencia. México: Prentice
Hall,

Murray y Spiegel, (1970), Estadística. México: McGraw-Hill, Serie Schaum,

Material compilado con fines académicos, se prohíbe su reproducción total o parcial sin la autorización de cada autor.

También podría gustarte