Documentos de Académico
Documentos de Profesional
Documentos de Cultura
EN CIENCIAS DEL
COMPORTAMIENTO
PRESENTACIÓN
Ante dificultades que parecen insuperables para encontrar una teoría capaz de
explicar y predecir cualquier fenómeno a partir de los datos de entrada, la física del
siglo XX presenció la confrontación de dos grandes paradigmas. Por un lado, la
relatividad aplicó modelos deterministas para explicar el macrocosmos, y por el otro
la mecánica cuántica partió de la imposibilidad de hacer predicciones deterministas
y desarrolló modelos probabilistas para explicar el microcosmos. Para las ciencias
de la conducta esto resulta importante porque nos permite ver que aun en la física,
paradigma de cualquier otra ciencia, la ciencia determinística por antonomasia, se
ha tenido que recurrir a la teoría de la probabilidad para explicar un enorme sector
de la naturaleza.
Pero, si revisamos la historia, la gran maestra de la humanidad, en el campo de las
ciencias del comportamiento ya se había aplicado el paradigma probabilista desde
el siglo anterior. A partir de los experimentos de Weber, Fechner explicó
matemáticamente la relación entre la fuerza del estímulo y la intensidad de la
sensación y formuló las primeras leyes que dan origen a la psicología científica. Lo
importante aquí es que las leyes de Weber-Fechner tienen un carácter claramente
probabilista y surgen de experimentos, no de especulaciones filosóficas. Los
Elementos de psicofísica de Fechner se publicaron en 1860. La hipótesis cuántica
de Max Planck fue formulada en 1900; el modelo cuántico del átomo fue presentado
por Niels Bohr en 1913. Las fechas son sugerentes.
La complejidad del objeto de estudio de las ciencias del comportamiento hace que
en la actualidad sea difícil encontrar teóricos que defiendan un enfoque determinista
en disciplinas como la psicología o la sociología. En consecuencia, el enfoque
probabilista es tan importante que podríamos afirmar que, hoy por hoy, las define.
En realidad, no conocemos ningún comportamiento de los organismos vivos que
pueda predecirse en forma determinista; pero sí que puede predecirse a partir de
modelos estadísticos, que necesariamente están basados en la probabilidad. De
aquí la importancia que para el estudiante de este campo tienen los métodos
matemáticos que aplican la teoría de la probabilidad a la descripción, explicación,
predicción y control del estudio del comportamiento, en particular, pero no
exclusivamente, del humano. Lo que debería quedar claro desde el principio es que
el estudio científico del comportamiento se realiza a partir de inferencias.
Esta es la razón por la que la estadística inferencial juega un papel de primera
importancia en el estudio científico de la conducta. Hoy por hoy es una de las
herramientas más importantes que tenemos para investigar el comportamiento de
los organismos vivos. Su importancia es tal que su aplicación simplemente
establece una frontera entre la opinión y el conocimiento. Su estudio, entonces,
resulta indispensable en la formación de científicos del comportamiento.
Pero el campo de la inferencia estadística es enorme y día con día se amplía aún
más. Tratar de abarcarlo por completo en un solo curso no sólo sería iluso, con
seguridad resultaría además en una empresa condenada al fracaso. Más aun, no
COMPETENCIAS
Al término del curso el alumno:
SUGERENCIAS
1. Revise continuamente la Estructura conceptual y la Tabla de términos clave para
que vaya construyendo paulatinamente una estructura conceptual del curso.
2. Observe que en la primera lección las secciones están numeradas. Esto nos
permite dirigirnos de forma inequívoca a cualquier parte del texto. Por ejemplo, para
el nivel de significación daremos la dirección: [1: 44-46].
3. En todos los algoritmos se numeran los pasos para facilitar la secuencia y
controlar errores por omisión. Al aplicarlos conviene anotar el número de cada paso
de forma que, si se tienen dudas o se cometieron errores, pueda revisarse
sistemáticamente paso por paso.
4. Para escribir las fórmulas se utiliza una notación lineal que permite introducirlas
directamente en una calculadora común o en programas de computadora; la
estructura de paréntesis funcionará sin importar el sistema de precedencias de
cálculo que aplique el dispositivo de cálculo. Para lograr esto se utilizan paréntesis
que en unas ocasiones podrían eliminarse, pero en otras afectarían a los cálculos,
por lo que se prefirió utilizar los paréntesis necesarios para que la fórmula funcione
sin trastornos en cualquier sistema de cálculo.
5. Las tablas estadísticas necesarias para obtener valores teóricos al estimar
parámetros o probar hipótesis, se identifican con un número y se encuentran al final
de las lecciones. Las tablas están normalizadas para usarse en conjunto con el
algoritmo que las invoca. Las tablas incluyen los niveles de significación (α) más
usados. En el caso de la distribución F solo se incluye un nivel de significación
(α = 0.05). Cuando se requiera trabajar con niveles de significación que no se
incluyen, podrán encontrarse en sitios en línea, ya sea en forma tabular o bien
mediante las ecuaciones aplicables.
6. Es muy importante comprender que este material no pretende sustituir la lectura
de libros y otras fuentes documentales. En el mismo texto se hace referencia a
bibliografía especializada, cuyas fichas se presentan al final con un breve
comentario anexo. Este texto resultará realmente útil cuando impulse al alumno al
estudio independiente, buscando en diversas fuentes para obtener información,
comprender críticamente los temas de estudio y ampliarlos.
7. Conviene, lo antes posible, leer este material por completo. Con esta primera
lectura no se pretende lograr una comprensión cabal del contenido, sino más bien
integrar una visión preliminar, panorámica, que deberá ir ganando precisión
conforme se avance en el curso.
8. Posteriormente, habrá que leer a fondo el material que se discutirá en la
siguiente clase, para lo cual puede apoyarse en diccionarios técnicos, enciclopedias
y, sobre todo, en las fuentes que se refieren aquí mismo. Debe observarse que casi
cualquier libro de estadística propone lo mismo sobre un tema dado, aunque desde
luego varían los enfoques y los matices; esto ampliará la comprensión del tema. De
esta forma el alumno estará desarrollando verdaderos hábitos de estudio
independiente.
9. Una vez que el alumno, por sí mismo, haya estudiado el material, podrá aprove-
charse el tiempo dentro del aula para discusiones que aclaren dudas y profundicen
en los temas de interés para cada estudiante. Estaremos desterrando la exposición
rígida por parte del maestro y se podrá entrar a una auténtica dinámica de
enseñanza-aprendizaje.
10. Deben resolverse los reactivos de la Guía de evaluación que se presentan al
final de cada lección. Para ello hay que notar que también los reactivos se numeran
para que puedan contestarse por separado, identificarse por lección y confrontar las
respuestas en la sección correspondiente. De este modo el estudiante podrá
depurar sus respuestas.
Es muy importante observar que en algunos ejercicios –por ejemplo, los de la
Lección 10, AVAR- se presentan masas de datos muy pequeñas. Esto se hace con
el propósito de que los exámenes (que deben construirse con ejercicios
equivalentes) puedan ser resueltos con una calculadora de bolsillo en el menor
tiempo posible. De lo que se trata es de que el alumno demuestre competencia para
resolver los problemas y no de que sea capaz de realizar cálculos largos y
engorrosos (finalmente, de ello se ocupará la computadora en casos reales). Es
responsabilidad del maestro hacer ver esto y facilitar el tránsito al uso de la
computadora. El principio del que partimos es simple: debe pensar el alumno, el
trabajo de cálculo de deja a la máquina (llámese calculadora o computadora).
11. Pero, lo más importante, como ocurre en cualquier curso de matemáticas, es
que el alumno habrá de esforzarse en resolver los ejercicios, aun cuando tenga
dudas. Cuando posteriormente se resuelvan en el aula, podrá confrontar y corregir
sus respuestas. Esto será decisivo para su aprendizaje y para su rendimiento en los
exámenes de acreditación de la asignatura.
12. La estrategia educativa que aquí se propone se orienta al desarrollo –y, por
supuesto, a la evaluación– de competencias, por lo cual todos los reactivos implican
la solución de problemas, estrictamente del tipo presentados en cada lección. Se
sugiere permitir que el alumno pueda consultar cualquier material durante los
exámenes, pero por supuesto deberá evitarse cualquier comunicación con sus
compañeros. La corrección de los procedimientos y la comprensión del problema
deberán ser los criterios fundamentales para asignar la calificación.
13. Finalmente, en la sección Para aprender más se proponen algunas ideas y retos
para ampliar los contenidos del curso hasta el límite que marque el interés de cada
estudiante. Cuando un alumno presente eficazmente ante el grupo uno de estos
temas, podrá ganar un bono para su puntaje final.
ESTRUCTURA CONCEPTUAL
1. Nociones básicas
2. Proporciones
Puntual 3. Media
Estimación de parámetros 4. Desviación estándar
Intervalar 5. Proporciones
6. Media
No paramétrica 7. k-grupos
Comparación
8. Dos grupos independientes
Prueba de Paramétrica 9. Dos grupos dependientes
hipótesis 10. k-grupos
TÉRMINOS CLAVE
Variable
Dato Redondeo
• Puntual Ajuste de sumas
• Intervalar Tendencia
Nivel de medición Tendencia central
• Nominal Variabilidad
• Ordinal • Desviación estándar
• Intervalar • Varianza
• De razón Correlación
Estadística • Simple
• Descriptiva • Múltiple
• Inferencial • Lineal
o Paramétrica • No lineal
o No paramétrica • Coeficiente de correlación
Población o Negativo
Muestra o Neutro
Parámetro o Positivo
Estadígrafo • Predictor
Masa de datos • Criterio
• Pequeña • Dispersigrama
• Grande • Recta de tendencia
• Cualitativa • Parámetros de la recta
• Cuantitativa • Regresión
• Univariable Estimación
• Bivariable • Puntual
• Multivariable • Intervalar
Grupos Hipótesis
• Independientes • Nula
• Dependientes • Alternativa 1
Frecuencia • Alternativa 2
Distribución • De trabajo
• Empírica Nivel de significación
• Teórica Nivel de confianza
Clasificación Prueba de hipótesis
Plano coordenado • Comparación
• Abscisa • Correlación
• Ordenada • Direccionada
• Punto • No direccionada
• Nube de puntos Error de inferencia
Medida de proporción • Error
• Porcentaje • Error
Dígito Potencia
Cifra Eficiencia
1
Investiguen, ustedes que se afanan en conocer la naturaleza.
10. Conforme al marco teórico, el investigador debe plantear una solución tentativa
(y, por tanto, no probada) a la interrogante. A tal respuesta tentativa se le llama
hipótesis de investigación; más adelante distinguiremos a ésta de la hipótesis
estadística.
11. Una masa de datos es el conjunto de datos crudos, tal como se obtuvieron luego
del proceso de medición, sin aplicarles corrección o modificación alguna. La masa
de datos constituye la evidencia empírica con la que se probará la hipótesis.
12. Debemos tener claro que probar una hipótesis significa determinar su valor de
verdad, decidir si es verdadera o es falsa. Cuando, a partir de la evidencia empírica,
resulta verdadera, hemos encontrado la respuesta a la interrogante de la que
partimos; si se prueba falsa, habrá que buscar en otra dirección la respuesta a la
interrogante.
13. Una ordenación es un arreglo de la masa de datos, ya sea de menor a mayor
o viceversa. La ordenación, puesto que implica un rango de magnitudes, ya tiene
carácter cuantitativo.
14. Una distribución de frecuencias es un arreglo de una masa de datos en una
n-ada de parejas dato-frecuencia.
15. Una medida estadística es una medida de un grupo de datos.
16. Un grupo de datos puede describirse mediante las siguientes medidas
estadísticas: de proporción, de ubicación, de tendencia central, de variabilidad,
de forma y de correlación.
17. Se dice que un grupo de datos es una población (o universo) cuando contiene
las medidas del conjunto completo de elementos bajo estudio. Se dice que es una
muestra cuando constituye un subconjunto de la población.
18. La muestra puede ser extraída de la población con dos criterios básicos:
Primero, buscando los elementos que presenten ciertas características, en cuyo
caso se le llama muestreo intencionado. Segundo, extrayendo los elementos al
azar, en cuyo caso se le llama muestreo aleatorio.
19. En todo proceso estadístico inferencial la masa de datos siempre es una
muestra.
20. En la naturaleza existen fenómenos deterministas (que siempre se comportan
de la misma forma y producen uno y sólo un resultado) y fenómenos aleatorios
(cuyo comportamiento puede variar, pues ofrecen un conjunto de resultados
posibles). Las ciencias del comportamiento estudian fenómenos aleatorios.
21. Los eventos son las ocurrencias posibles de un fenómeno aleatorio. Por
ejemplo, si lanzamos al aire una moneda, existen dos eventos posibles: cara y cruz.
22. La probabilidad es la medida de la posibilidad de que ocurra un evento en
particular. La probabilidad puede medirse matemáticamente y constituye la base de
cualquier inferencia científica sobre el comportamiento de los organismos vivos.
Como ya dijimos, la teoría de la probabilidad es una de las columnas que sostiene
a la estadística inferencial y, en consecuencia, a todas las ciencias del
comportamiento.
23. El axioma de los límites afirma que [0 ≤ P(X) ≤ 1], donde X es un evento
cualquiera.
24. El axioma del espacio muestral afirma que [P(S) = 1], donde S es el espacio
muestral (esto es, el conjunto formado por todos y cada uno de los eventos posibles
del fenómeno aleatorio).
25. Una forma de leer la Ley de los grandes números, fundamental para la
estadística inferencial, es: Conforme aumenta el tamaño de la muestra, se reduce
el error de inferencia.
26. Una forma de leer el Teorema del límite central, que también resulta
fundamental para el estudio de la estadística inferencial, es: Al aumentar el número
de ensayos (en nuestro caso, elementos muestrales extraídos al azar) cualquier
distribución de probabilidad se aproxima a la distribución gaussiana (o normal).
LA INFERENCIA ESTADÍSTICA
27. A partir de este rudimentario marco conceptual, abordemos nuestro objeto de
estudio. En una definición general, la inferencia es un proceso cognitivo en el que
se aplican reglas lógicas bien definidas para que, a partir de proposiciones que se
consideran válidas (premisas), se obtengan proposiciones igualmente válidas
(conclusiones).
28. Es muy importante distinguir entre dos formas de inferencia2: la deducción y la
inducción. La deducción parte de premisas generales, para llegar a conclusiones
particulares. Una característica de la deducción es que, si las premisas son válidas,
entonces las conclusiones necesariamente serán válidas. El ejemplo clásico es:
“Todos los hombres son mortales; Sócrates es un hombre; por tanto, Sócrates es
mortal.” Si es cierto que todos los hombres son mortales (premisa mayor) y también
es cierto que Sócrates es un hombre (premisa menor), entonces necesariamente es
cierto que Sócrates es mortal (conclusión). Suppes y Hill [1979: 44] expresan esta
idea como un axioma lógico: “de premisas verdaderas se obtienen sólo
conclusiones que son verdaderas”.
29. Pero esto no ocurre con la inducción. Aunque todas las premisas de que
dispongamos sean verdaderas, no puede asegurarse en forma determinista que no
pueda llegar a encontrarse una premisa que contradiga a las ya conocidas e invalide
así la conclusión. Es famoso el ejemplo que ofrece Popper3 [2008], quien observó
que en Europa se aceptaba que todos los cisnes son blancos, pues no se conocían
especímenes de otro color; sin embargo, más tarde descubrió que en Australia
existen (aunque son raros) cisnes negros, con lo cual la proposición “Todos los
cisnes son blancos” se demostró falsa.
Sin embargo, lo que aquí nos interesa es que, aun cuando en términos
rigurosamente lógicos la proposición “Todos los cisnes son blancos” es falsa, puede
2
De hecho, existen cuatro formas generales de inferencia: deducción, inducción, abducción y analogía. Pero
aquí solo nos interesan las dos primeras.
3
Karl Raimund Popper, epistemólogo vienés nacido en 1902 y muerto en 1994. Fue uno de los teóricos más
influyentes en la epistemología científica del siglo XX.
Parámetros Población
Inferencia
Muestreo
estadística
Descripción
Estadígrafos Muestra estadística
grupos dependientes.
b) Cuando se trabaja comparando datos correspondientes a dos grupos
formados por sujetos diferentes, se les llama grupos independientes.
EL NIVEL DE SIGNIFICACIÓN
44. Pero aquí conviene recordar que las ciencias del comportamiento tienen una
naturaleza probabilista y no determinista. Esto implica que las conclusiones
obtenidas de una inferencia estadística siempre tienen una probabilidad de acierto
y otra probabilidad de error. Quizá esta sea la característica de mayor complejidad
en las ciencias de la conducta.
El nivel de significación es la probabilidad máxima de que sean falsas las
conclusiones obtenidas de una inferencia estadística.
A su complemento, la probabilidad de que las conclusiones sean verdaderas, se le
llama nivel de confianza.
45. En una prueba estadística, siempre que sea posible, conviene establecer
primero el nivel de significación. Al terminar la prueba, la conclusión debe plantearse
en términos del nivel de confianza.
46. Definamos estos conceptos en términos matemáticos. La teoría de la
probabilidad plantea que el espacio muestral de la conclusión obtenida de una
inferencia estadística está dado por:
Sea
S ≡ Espacio muestral,
c ≡ Nivel de confianza, la probabilidad de la conclusión sea cierta,
α ≡ Nivel de error, la probabilidad de que la conclusión sea falsa,
entonces
S = {c, α}, el espacio muestral de la veracidad de la conclusión.
Ahora, por el axioma del espacio muestral sabemos que
P(S) = 1
por lo que
i) c + α = 1
ii) c = 1 - α
iii) α = 1 - c
Lo que deberá tenerse en cuenta al realizar una prueba de hipótesis. Sin embargo,
debe observarse que esta condición debe considerarla el algoritmo con el que se
trabaje.
INFERENCIA PARAMÉTRICA E INFERENCIA NO PARAMÉTRICA
53. Ahora debemos distinguir entre dos tipos de pruebas de hipótesis: las pruebas
paramétricas y las pruebas no paramétricas. Cada tipo parte de suposiciones
diferentes y, en consecuencia, tiene aplicaciones diferentes.
Las pruebas paramétricas se llaman así porque utilizan estadígrafos (muestrales)
para realizar la inferencia hacia sus correspondientes parámetros (poblacionales).
En términos estrictos, para aplicar una prueba paramétrica deben cumplirse las
siguientes suposiciones [Siegel, 1980]:
a) La variable se midió en el nivel intervalar o superior.
b) El muestreo fue aleatorio.
c) La muestra es suficientemente grande (conforme a la Ley de los grandes
números).
d) Lo más común es suponer que la variable de interés se distribuye normalmente
en la población. En caso de que no sea así, debemos conocer la forma en que
se distribuye.
e) Cuando sólo se involucra una variable, conocemos (al menos por estimación)
su varianza.
f) Cuando se involucran dos o más variables, existe homocedasticidad entre
ambas, esto es, las varianzas son iguales.
54. Las pruebas no paramétricas, en cambio, no utilizan parámetros, sino que
realizan la inferencia directamente a partir de la masa de datos. En consecuencia,
no cumplen ninguna de las condiciones de las pruebas paramétricas. En particular:
a) Aceptan que la variable se haya medido en cualquier nivel, incluso en el
nominal.
b) No se hace suposición alguna sobre la forma de distribución de la población,
por lo que a veces se les llama pruebas de distribución libre.
c) El tamaño de la muestra no es crítico y por ello también se les llama pruebas
de pequeñas muestras.
Veremos más adelante que esta clasificación resulta fundamental para elegir una
prueba estadística.
CONTROL DE VERDAD EN LA PRUEBA DE HIPÓTESIS
55. Hemos insistido en que siempre existe el riesgo de error cuando se prueban
hipótesis y en que lo importante es entender que podemos identificar los errores
posibles y medirlos. Además, debemos recordar que lo que realmente se prueba es
la hipótesis nula. Entonces podemos construir una tabla de verdad para identificar
los errores que pueden cometerse [cf. Méndez, 1976: 87-101; Johnson, 1979: 219-
231; Winkler y Hays, 1975: 402-470].
Situación real
H0 es verdadera H0 es falsa
Decisión Se aceptó H0 ACIERTO ERROR TIPO II ()
tomada Se rechazó H0 ERROR TIPO I (α) ACIERTO
56. Resulta claro que acertamos cuando aceptamos una proposición que es
verdadera, y también cuando rechazamos una que es falsa. Pero es más importante
analizar los errores y aprender cómo medirlos y controlarlos en lo posible.
57. El Error de tipo I (α) consiste en rechazar H0 cuando es verdadera. Este error
es precisamente el nivel de significación, que ya analizamos arriba. Sin duda, este
es el tipo de error más grave y al que mayor atención debemos prestar, ya que
rechazar la hipótesis nula nos conduce necesariamente a aceptar la hipótesis
alternativa, es decir, a afirmar que existe lo que estamos probando. En otras
palabras, cuando rechazamos H0 siendo verdadera, estaremos afirmando una
relación espuria. A este error se le conoce como falso positivo.
58. El Error de tipo II () consiste en aceptar H0 siendo esta falsa. Cuando
cometemos este tipo de error afirmamos que no existe lo que se está probando,
aunque realmente sí existe; esto nos conduce a desperdiciar la información que nos
ofrecen los datos para decidir. Las pruebas de hipótesis están diseñadas para
controlar este tipo de error, que indica su potencia, como veremos más adelante. A
este error se le conoce como falso negativo.
59. ¿Pero por qué el error α es el que más debe preocuparnos al realizar una prueba
de hipótesis? La respuesta es compleja, pues se aleja de la matemática
propiamente dicha e incursiona en el campo de la filosofía. Tratemos de contestar
con una analogía. Si estamos juzgando a un acusado por un delito que se castiga
con la pena de muerte, ¿qué es más grave: condenarlo siendo inocente (error α) o
perdonarlo siendo culpable (error )?
En principio, debe suponerse inocencia hasta demostrar lo contrario, lo que implica
que H0 (no hay culpabilidad) se presume cierta hasta que los datos demuestren lo
contrario. Este, por cierto, es un principio axiológico aceptado universalmente: nadie
está obligado a probar su inocencia, es el que acusa quien debe soportar la carga
de la prueba. A tratar de probar la propia inocencia se le ha llamado la prueba del
diablo. En el campo de la inferencia estadística, el investigador parte del principio
de que no existe la relación que está buscando, y debe demostrar lo contrario con
datos.
El error α consistiría en rechazar H0 siendo verdadera. Es decir, afirmaríamos la
culpabilidad del acusado (lo que implica condenarlo a muerte), siendo éste
realmente inocente. En este caso estaríamos cometiendo una injusticia al castigar
a un inocente. En una prueba estadística, estaríamos afirmando una relación
inexistente: aceptaríamos una relación espuria.
El error consistiría en aceptar H0 siendo falsa; es decir, aceptaríamos la inocencia
del acusado cuando realmente es culpable. Aquí estaríamos ante el caso de
perdonar a un culpable: se dejaría de hacer justicia. En una prueba estadística
dejaríamos de encontrar una relación que existe, lo que es un desperdicio de datos.
Es claro que en los dos casos estamos ante un error, pero el error α debe
preocuparnos más que el error , porque se considera más grave castigar a un
inocente que perdonar a un culpable. En el campo de la axiología, se ha dicho que
es preferible perdonar a diez culpables antes que castigar a un solo inocente. En
Pruebas de hipótesis
Estimación de parámetros Comparación Correlación
Nivel nominal Proporciones Chi-cuadrada Coeficiente de Kendall
Nivel ordinal Mediana Mediana combinada Coeficiente de Spearman
Nivel intervalar Media
t-student Coeficiente de Pearson
Nivel de razón Desviación estándar
Debemos reiterar que éstos no son más que ejemplos. Habría que agregar otras
dimensiones de clasificación, como el tipo de parámetro involucrado (proporción,
ubicación, tendencia central, etc.) o el número de variables que intervienen en la
relación (lineal o no lineal), pero entonces el análisis resultaría excesivamente
extenso.
Para un estudio específico, deben revisarse las pruebas aplicables para decidir cuál
es la mejor en términos de su potencia-eficiencia.
74. Concluiremos esta lección analizando los pasos generales del proceso
estadístico inferencial para estimar parámetros y para probar hipótesis. En las
siguientes lecciones se verá el algoritmo específico de cada prueba.
ALGORITMO GENERAL PARA LA ESTIMACIÓN DE PARÁMETROS
75. Elementos de entrada. Antes de iniciar la estimación se debe tener claro:
a) El marco teórico de la investigación.
b) La pregunta de investigación.
c) La hipótesis de investigación que se quiere probar.
d) La definición operacional de la variable.
e) La forma en que fue obtenida la muestra.
f) La masa de datos.
76. A partir de esta información podrá iniciar el proceso de estimación de
parámetros.
COMIENZA
PASO 1. Seleccionar el parámetro. Debemos elegir el parámetro que necesitamos
inferir para contestar la interrogante de investigación.
PASO 2. Calcular el estadígrafo. A partir de la masa de datos de la muestra, calcular
el estadígrafo correspondiente.
PASO 3. Establecer α. Establecer el nivel de significación a partir de la forma en que
fue obtenida la muestra.
PASO 4. Decidir la forma de estimación. Conforme al marco teórico, la interrogante,
la hipótesis de trabajo y la definición operacional de la variable, decidir si se
realizará una estimación puntual o intervalar.
PASO 5. Estimar el parámetro. Calcular el estimador del parámetro utilizando el
estadígrafo y aplicando la fórmula adecuada.
PASO 6. Concluir. Presentar el parámetro estimado indicando el nivel de confianza.
TERMINA
PARA APRENDER MÁS
1. Sabemos que existen varios tipos de medias. ¿Cómo se estimará la media
ponderada? ¿Y la media geométrica? Proponga una generalización para la
estimación de los diferentes tipos de media.
2. Vimos que la estimación de la media aritmética es directa a partir del estadígrafo
muestral. ¿Qué ocurre con la mediana?
EJERCICIOS
4.1. Considere el ejemplo 3.1. Se encontró una desviación estándar muestral de
7.82. Realice la estimación puntual de la desviación estándar poblacional.
4.2. Considere el ejemplo 3.2. Se encontró una varianza muestral 0.69. Realice la
estimación puntual de la desviación estándar poblacional.
PARA APRENDER MÁS
1. Escriba un ensayo explicando por qué la fórmula para estimar involucra a la
varianza y no trabaja directamente con la desviación estándar.
2. Demuestre que en la fórmula 2 = S2(n(n−1)) se cumple la Ley de los grandes
números.
EJERCICIOS
5.1. A partir del ejemplo 2.1, construya el intervalo de confianza para la categoría
Rechazo.
5.2. A partir del ejemplo 2.2, construya el intervalo de confianza para el Partido A.
PARA APRENDER MÁS
1. Suponga que se demuestra que la población bajo estudio no tiene una
distribución normal, sino que se ajusta al modelo binomial. Ajuste el algoritmo
para construir el intervalo de confianza para la estimación de la media.
PARA APRENDER MÁS
1. Suponga que se demuestra que la población bajo estudio no tiene una
distribución normal, sino que se ajusta al modelo de Poisson. Ajuste el algoritmo
para construir el intervalo de confianza para la estimación de la media.
justificarlo.
PASO 4. Obtener los grados de libertad:
Sea
k ≡ Número de grupos
r ≡ Número de categorías en que se midió la variable
entonces
GL = (k-1) (r-1)
PASO 5. Identificar en la Tabla 2 (Valores críticos para χ2) el valor teórico (χ2T),
conforme a α y GL.
PASO 6. Construir la siguiente nota de cálculo:
Categorías
Oi
1 ... r
Oi Oi
1 Ei ... Ei
2
((Oi-Ei) /Ei) ((Oi-Ei)2/Ei)
Grupos ... ... ... ... ...
Oi Oi
k Ei ... Ei
2
((Oi-Ei) /Ei) ((Oi-Ei)2/Ei)
Oi ... Oi = n
Donde:
n ≡ Número total de casos, por tanto: n = Oi
Oi ≡ Frecuencia observada en la categoría i-ésima
Ei ≡ Frecuencia esperada, que se obtiene multiplicando las sumas marginales de
frecuencias observadas (Oi) y dividiendo el producto entre n.
PASO 7. Calcular el valor de chi cuadrada observado
χ2O = ∑((Oi-Ei)2/Ei)
PASO 8. Aplicar la regla de decisión
• Cuando (χ2O ≤ χ2T) entonces H0 no puede ser rechazada.
• Cuando (χ2O > χ2T) entonces H0 debe rechazarse y se aceptará H1.
PASO 9. Concluir con el nivel de confianza de 1-α.
TERMINA
EJERCICIOS
7.1. Se realizó un estudio con un nivel de confianza del 99% para probar si la
pertenencia a estratos sociales está relacionada con la modalidad de educación
media superior elegida. Fueron seleccionados al azar 390 alumnos de secundaria,
se identificó el estrato social al que pertenecían y la modalidad que eligieron para
estudiar la educación media superior. Se obtuvieron los siguientes datos:
H1: μ1 > μ2. La media de la primera población será mayor que la de la segunda.
H2: μ1 < μ2. La media de la primera población será menor que la de la segunda.
PASO 2. Justificar el uso de la prueba, demostrando que se cumplen las condiciones.
PASO 3. Especificar el nivel de significación (α) con el que se probará la hipótesis.
PASO 4. Obtener los estadígrafos muestrales
Sean:
n1 = Tamaño de la primera muestra.
n2 = Tamaño de la segunda muestra:
1 = Media aritmética de la primera muestra.
2 = Media aritmética de la segunda muestra.
S21 = Varianza de la primera muestra.
S22 = Varianza de la segunda muestra.
PASO 5. Calcular los grados de libertad:
GL = n1+n2-2
PASO 6. Con y GL, identificar el valor teórico (tT) en la Tabla 3, Fractiles de la
distribución T.
PASO 7. Calcular la varianza combinada (S2p) de los dos grupos:
S2p = (((n1-1)S21)+((n2-1)S22))/(n1+n2 -2)
PASO 8. Calcular el valor empírico:
tO = ( 2 2
1- 2)/(((S p/n1)+(S p/n2)))
4
A veces se le encuentra como ANOVA, por sus siglas en inglés (ANalisis Of VAriance).
ALGORITMO
COMIENZA
PASO 1. Plantear el juego de hipótesis:
Sean
μ1, μ2, ..., μk. ≡ Medias aritméticas de las k poblaciones.
Ésta es, necesariamente, una prueba no direccionada, por lo que:
H0: μ1 = μ2 = ... = μk. No existirá diferencia entre las k medias poblacionales.
H1: μ1 μ2 ... μk. Al menos dos medias poblacionales serán diferentes.
PASO 2. Justificar el uso de la prueba.
PASO 3. Especificar el nivel de significación (α) con el que se probará la hipótesis y
justificarlo.
PASO 4. Obtener el valor crítico de prueba (RVT ):
Sean:
k Número de tratamientos
ni Número de observaciones en cada tratamiento.
n Número total de observaciones, dado por nik, ya que aceptamos que los
grupos tienen el mismo tamaño.
entonces, identificar el valor teórico RVT en la Tabla 4, Fractiles de la Distribución
F, correspondiente a α, con:
Grados de libertad en el numerador = k-1
Grados de libertad en el denominador = n-k
PASO 5. Construir la siguiente nota de cálculo:
T1 T2 ... Tk
X11 X12 ... X1k
X21 X22 ... X2k
... ... ... ...
Xi1 Xi2 ... Xik
ni n1 n2 ... nk n = nik = ni
X ... X
X2 ... X2
(X)2/ni ... ((X)2/ni)
1 2 ... k
1 ...
2 ...
... ... ... ... ...
k ...
PASO 10. Calcular el valor crítico, llamado Diferencia Honestamente Significativa
(DHS), para probar la significación de los elementos de la MDEM:
DHS = (RVT) (1/(2)) (((2MCE)/ni))
PASO 11. Aplicar la regla de decisión para cada celda de la MDEM:
• Cuando (|DEM| ≤ DHS) entonces H0 no puede ser rechazada.
• Cuando (|DEM| > DHS) entonces H0 debe rechazarse y se procede a decidir la
hipótesis alternativa conforme al signo de la DEM.
Identificar en la MDEM las celdas en que se aceptó H0.
PASO 12. Puesto que ya estamos probando hipótesis entre dos grupos, aquí ya nos
interesa una prueba direccionada por lo que, para cada celda de la MDEM, las
hipótesis serán:
H0: μA = μB.
H1: μA > μB.
H2: μA < μB.
En consecuencia, en cada elemento de la MDEM se debe concluir con un nivel de
confianza de 1-α
TERMINA
EJERCICIOS
10.1. En un experimento diseñado para estudiar los efectos de una droga sobre el
sueño MOR, se estableció un nivel de confianza del 95%. Se seleccionaron al azar
28 adultos normales. Se aplicaron como tratamientos cuatro dosis de la droga y se
midió el tiempo en minutos que tardó en iniciar la fase MOR. Se obtuvieron los
siguientes resultados:
Dosis
A B C D
39 13 10 8
40 10 9 5
34 16 12 8
11 14 5 8
17 15 14 9
30 8 13 5
27 17 11 10
Aplique el AVAR y, en su caso, la prueba de Tukey y concluya.
10.2. En un estudio sobre cuatro sistemas de comunicación encriptada se estableció
un nivel de confianza del 95%. Se seleccionaron 44 sujetos y se asignaron
aleatoriamente a cada sistema. Se midió el nivel de comprensión de un mensaje
complejo y se obtuvieron los siguientes resultados:
Sistema
A B C D
15 8 14 16
6 11 15 17
13 8 19 15
8 10 13 18
8 13 16 21
8 7 16 20
11 10 13 24
5 9 13 24
5 13 12 16
13 11 20 21
10 11 18 20
Aplique el AVAR y, en su caso, la prueba de Tukey y concluya.
PARA APRENDER MÁS
1. Explique la relación entre los cuadrados del error y la varianza, según se aplican
al AVAR.
2. Demuestre que el AVAR es una generalización de las pruebas t-Student.
3. ¿Qué forma general adoptaría el algoritmo que vimos al aplicarlo a dos o más
clasificaciones (es decir, con dos o más vías)?
Dejamos las pruebas de comparación, que buscan decidir si las medidas de cierta
variable son o no iguales entre dos o más grupos, para pasar a un concepto
radicalmente diferente: la correlación. Ahora veremos como medir la asociación
entre dos variables. Entramos a la que se considera una de las formas más
complejas del pensamiento lógico. Cuando probamos que una variable está
asociada -correlacionada- con otra, lo único que nos permite es eso: afirmar que
varían concomitantemente. Esto tiene aplicaciones de enorme importancia en
ciencias del comportamiento, pues constituye la base lógica de múltiples inferencias
y de la predicción. Pero debemos evitar uno de los errores más graves en el
pensamiento científico: confundir la correlación con la causalidad. Cuando
demostramos que A correlaciona con B, podemos usar a A para predecir a B, o
viceversa (algo esencial en ciencias de la conducta), pero no podemos afirmar que
A causa a B, ni lo contrario. Con esta prevención, pasemos a estudiar la correlación.
Cuando se requiere probar asociación entre dos variables y al menos una de ellas
fue medida en el nivel nominal, mientras que la otra también se midió en el nivel
nominal o bien fue transformada a él, entonces son aplicables las pruebas de
correlación cualitativa. Debe tenerse presente que toda vez que las medidas
nominales carecen de sentido cuantitativo, el coeficiente de correlación que se
obtiene no está signado. En términos estrictos, sólo puede afirmarse que las
variables están asociadas o que no lo están, y no tiene sentido tratar de señalar si
la correlación es directa o inversa; esto implica que estamos ante una prueba
necesariamente no direccionada. Para observar el caso más elemental, en este
curso veremos como ejemplo de este tipo de pruebas el
Coeficiente Phi para una clasificación de 22
Esta prueba permite realizar el análisis de correlación lineal entre variables
cualitativas. Podrá verse en la siguiente lección que el coeficiente Phi no es más
que es un caso especial del coeficiente de Pearson pero, debido a su carácter no
cuantitativo, en el caso de Phi no se pueden calcular medias. En consecuencia, se
aplica χ2 para probar la significación de la asociación entre las variables y, en su
caso, para el cálculo de la fuerza con que están asociadas. Conviene recordar que
el cálculo de χ2 sólo involucra frecuencias; más aún, es importante observar que el
coeficiente phi aplica χ2 para el caso de una clasificación en que ambas variables
son dicótomas.
OBJETIVOS
1. Probar la significación de la asociación entre dos variables medidas en el nivel
nominal.
2. Medir el grado en que están correlacionadas.
CONDICIONES DE APLICACIÓN
1. Acepta variables medidas en el nivel nominal.
2. Las dos variables deben ser dicótomas (medidas en dos categorías nominales).
Esto permite construir una tabla de contingencia de 22, que contiene las
frecuencias.
ALGORITMO
COMIENZA
PASO 1. Plantear el juego de hipótesis:
Se trata de una prueba no direccionada, por tanto:
H0: r = 0, No existirá correlación entre X y Y.
H1: r 0, Existirá correlación entre X y Y.
PASO 2. Justificar el uso de la prueba, demostrando que se cumplen las condiciones.
PASO 3. Especificar el nivel de significación (α) con el que se probará la hipótesis y
justificarlo.
PASO 4. Identificar en la Tabla 2 (Valores críticos para χ2) el valor teórico χ2T,
conforme a α y con un grado de libertad.
PASO 5. La masa de datos debe clasificarse en la siguiente forma general:
X1 X2
Y1 A B
Y2 C D
Donde:
X1, X2 ≡ Las dos categorías de la variable X.
Y1, Y2 ≡ Las dos categorías de la variable Y.
A, B, C, D ≡ Frecuencias de cada clasificación
PASO 6. Calcular el valor de chi cuadrada observado
χ2O = ((A+B+C+D)(((AD)-(BC))2)) / ((A+B)(C+D)(A+C)(B+D))
PASO 7. Aplicar la regla de decisión
• Cuando (χ2O ≤ χ2T) entonces H0 no puede ser rechazada.
• Cuando (χ2O > χ2T) entonces H0 debe rechazarse y aceptar H1.
PASO 8. En caso de que
• Se haya aceptado H0, ir al Paso 9.
• Se haya aceptado H1, entonces se probó la significación de la asociación y, en
consecuencia, procede calcular el coeficiente de correlación:
rφ = ( χ2O / (A+B+C+D))
PASO 9. Concluir con el nivel de confianza de 1-α.
TERMINA
EJERCICIOS
11.1. En un estudio sobre delincuencia y familia, realizado con un nivel de confianza
del 95%, se clasificó a 100 jóvenes de educación media conforme a:
X1 ≡ Con antecedentes delictivos
X2 ≡ Sin antecedentes delictivos
Y1 ≡ Pertenecientes a familias integradas
Y2 ≡ Pertenecientes a familias desintegradas
y se obtuvieron los siguientes datos:
X1 X2
Y1 10 29
Y2 20 41
Aplique el análisis de correlación de Phi.
11.2. Se investigó la relación entre turno y aprovechamiento escolar, trabajando con
un nivel de confianza del 99%. Se clasificó a 150 egresados como sigue:
X1 ≡ Graduado
X2 ≡ No graduado
Y1 ≡ Turno matutino
Y2 ≡ Turno vespertino
y se obtuvieron los siguientes datos:
X1 X2
Y1 55 20
Y2 30 45
Aplique el análisis de correlación de Phi.
PARA APRENDER MÁS
1. Escriba un ensayo en el que demuestre que la prueba de significación del
Coeficiente Phi es una aplicación directa de la prueba de Chi-cuadrada para una
clasificación de 22.
2. En caso de que en el Paso 7 del algoritmo se encontrara que (χ2O ≤ χ2T), ¿tendría
sentido calcular rφ? Escriba un ensayo justificando su respuesta.
3. Escriba un ensayo demostrando por el método de reductio ad absurdum que no
puede aplicarse el Coeficiente Phi como una prueba direccionada.
4. ¿Por qué cuando se prueba la significación de la asociación en la prueba Phi, al
buscar en tablas el valor de χ2T (Paso 4 del algoritmo) aplica GL=1? Escriba un
ensayo justificando su respuesta.
5. Con el propósito de estudiar el caso más elemental, en este curso vimos el caso
de una clasificación de 2 2. Sin embargo, es posible –y realmente es
sencillo- generalizar esta prueba para calcular el coeficiente en una tabla de
cualquier número de reglones y columnas, es decir, en una tabla de k r. Ajuste
el algoritmo para tal caso. Puede revisar la Lección 7.
6. Siegel [1980: 232] afirma que el límite superior del coeficiente de contingencia es
una función del número de categorías en que se midieron las variables. Para el
caso que vimos (2 2) el máximo valor que puede alcanzar el coeficiente de
correlación es de 0.7071. ¿Cuál será el límite superior del coeficiente de
correlación en el caso de una clasificación de 2 3.
7. Explique la relación que tiene la prueba χ2 que vimos en la Lección 7 con la prueba
de correlación cualitativa.
5
Cuando las variables están medidas en nivel ordinal, es preferible utilizar el Coeficiente de Corrlación por
Rangos de Spearman.
TERMINA
EJERCICIOS
12. 1. En un estudio sobre la validez predictiva de un examen de admisión se midió:
X Calificación obtenida en el examen de admisión.
Y Promedio general de carrera.
Las dos variables se midieron en escala de 0 a 100 con redondeo a enteros. Se
extrajo una muestra aleatoria con un error probable de 0.05, se probó
homocedasticidad y normalidad en ambas variables y se obtuvieron los siguientes
datos:
(50, 80) (39, 84) (58, 87) (49, 84) (38, 67) (51, 67) (55, 78) (59, 80) (39, 79) (42, 82)
(43, 71) (55, 84) (47, 64) (48, 69) (62, 77) (64, 58) (47, 73) (48, 86) (69, 78) (69, 88)
(61, 72) (39, 76) (64, 90) (39, 92) (42, 76) (50, 74) (45, 73) (64, 75) (47, 82) (40, 69)
(40, 79) (54, 59) (48, 94) (59, 78) (54, 79) (60, 69) (59, 93) (48, 74) (64, 78) (55, 77)
(56, 68) (38, 66) (59, 74) (49, 72) (63, 57) (51, 57) (45, 65) (67, 82) (44, 63) (69, 72)
(42, 56) (56, 77) (44, 83) (53, 72) (40, 79) (59, 78) (70, 80) (37, 82) (70, 84) (55, 74)
(59, 90) (42, 72) (54, 80) (64, 70) (63, 75) (54, 93) (46, 78) (52, 83) (52, 74) (66, 85)
(37, 74) (57, 78) (37, 77) (47, 78) (46, 67) (39, 62) (68, 64) (65, 73) (70, 67) (40, 71)
(43, 78) (49, 80) (51, 78) (54, 75) (60, 79) (53, 82) (57, 64) (44, 75) (59, 85) (66, 73)
(54, 63)
a) Pruebe la significación del coeficiente de correlación de Pearson.
b) Construya el dispersigrama y ubique la recta de tendencia.
c) José es el elemento 36 de la muestra. Calcule su regresión e interprétela
12.2. En un estudio con operadores de grúa se midió:
X Razonamiento visoespacial.
Y Puntaje de desempeño en el manejo de grúa.
Se extrajo una muestra aleatoria y se probó homocedasticidad y normalidad. Se
establece un nivel de confianza del 95%. Se obtuvieron los siguientes datos:
Caso 1 2 3 4 5 6 7 8 9 10 11 12 13 14
X 102 98 111 89 120 114 113 104 117 99 118 123 94 112
Y 81 69 71 58 90 78 81 80 87 91 87 92 78 80
a) Pruebe la significación del coeficiente de correlación de Pearson.
b) Construya el dispersigrama y ubique la recta de tendencia.
c) Luis es el elemento 10 de la muestra. Calcule su regresión e interprétela.
12.3. Trabajando con fotointérpretes se midió:
X Memoria icónica.
Y Errores en el reconocimiento de patrones.
Se obtuvo una muestra representativa a un nivel de significación de 2.5% y se
probó homocedasticidad y normalidad. Se obtuvieron los siguientes datos:
Caso 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
X 56 89 78 67 48 98 77 59 81 74 65 92 88 63 80 85
Y 38 13 25 31 32 11 24 35 20 28 20 15 18 30 23 24
a) Pruebe la significación del coeficiente de correlación de Pearson.
b) Construya el dispersigrama y ubique la recta de tendencia.
c) Arturo es el elemento 10 de la muestra. Calcule su regresión e interprétela
PARA APRENDER MÁS
1. Explique matemáticamente la razón de que al coeficiente correlación de Pearson
también se le llame Coeficiente de correlación producto-momento.
2. Aplique la Ley de los grandes números a la definición operacional de “muestra
grande”.
3. Suponga el siguiente caso: se construye el dispersigrama de una muestra
bivariada y se obtiene una nube de puntos que claramente sugiere una línea
curva. ¿Qué procedería?
4. ¿Cómo puede probarse homocedasticidad en una distribución bivariada?
5. ¿Cómo puede probarse normalidad en una población?
6. La medición a nivel ordinal es medición cuantitativa. Sin embargo, no es aplicable
el coeficiente de Pearson en este nivel. Escriba un ensayo explicando la razón.
7. Escriba un ensayo que ejemplifique la aplicación de un método de correlación
válido para su aplicación en el nivel ordinal.
EPÍLOGO
Nec manus nisi intellectus sibi permissus multant
valent, instrumentis et auxitibus res perfecitur6.
F. Bacon (1561-1626)
6
Ni la mente ni la mano pueden lograr mucho por sí solas, sin ayudas y herramientas que las perfeccionen.
NOTACIÓN
+ Suma
− Resta
Multiplicación
/ División
Raíz cuadrada
Significa, denota, representa
= Igual a
Menor que
Menor o igual que
Mayor que
Mayor o igual que
H Hipótesis de investigación
H0 Hipótesis nula
H1 Hipótesis alternativa 1
H2 Hipótesis alternativa 2
HT Hipótesis de trabajo
X Dato, una medida de la variable X
Y Dato, una medida de la variable Y
N Tamaño de la población o universo
n Tamaño de la muestra
f Frecuencia con que aparece un dato
Sumar todos los operandos
% Porcentaje
P Proporción poblacional
p Proporción muestral
Media aritmética poblacional
Media aritmética muestral
Desviación estándar poblacional
S Desviación estándar muestral
2 Varianza poblacional
S2 Varianza muestral
r Coeficiente de correlación
16 3.63 3.24 3.01 2.85 2.74 2.66 2.59 2.54 2.49 2.42 2.35 2.28 2.24 2.19 2.15 2.11 2.06 2.01
17 3.59 3.20 2.96 2.81 2.70 2.61 2.55 2.49 2.45 2.38 2.31 2.23 2.19 2.15 2.10 2.06 2.01 1.96
18 3.55 3.16 2.93 2.77 2.66 2.58 2.51 2.46 2.41 2.34 2.27 2.19 2.15 2.11 2.06 2.02 1.97 1.92
19 3.52 3.13 2.90 2.74 2.63 2.54 2.48 2.42 2.38 2.31 2.23 2.16 2.11 2.07 2.03 1.98 1.93 1.88
20 3.49 3.10 2.87 2.71 2.60 2.51 2.45 2.39 2.35 2.28 2.20 2.12 2.08 2.04 1.99 1.95 1.90 1.84
21 3.47 3.07 2.84 2.68 2.57 2.49 2.42 2.37 2.32 2.25 2.18 2.10 2.05 2.01 1.96 1.92 1.87 1.81
22 3.44 3.05 2.82 2.66 2.55 2.46 2.40 2.34 2.30 2.23 2.15 2.07 2.03 1.98 1.94 1.89 1.84 1.78
23 3.42 3.03 2.80 2.64 2.53 2.44 2.37 2.32 2.27 2.20 2.13 2.05 2.01 1.96 1.91 1.86 1.81 1.76
24 3.40 3.01 2.78 2.62 2.51 2.42 2.36 2.30 2.25 2.18 2.11 2.03 1.98 1.94 1.89 1.84 1.79 1.73
25 3.39 2.99 2.76 2.60 2.49 2.40 2.34 2.28 2.24 2.16 2.09 2.01 1.96 1.92 1.87 1.82 1.77 1.71
26 3.37 2.98 2.74 2.59 2.47 2.39 2.32 2.27 2.22 2.15 2.07 1.99 1.95 1.90 1.85 1.80 1.75 1.69
27 3.35 2.96 2.73 2.57 2.46 2.37 2.31 2.25 2.20 2.13 2.06 1.97 1.93 1.88 1.84 1.79 1.73 1.67
28 3.34 2.95 2.71 2.56 2.45 2.36 2.29 2.24 2.19 2.12 2.04 1.96 1.91 1.87 1.82 1.77 1.71 1.65
29 3.33 2.93 2.70 2.55 2.43 2.35 2.28 2.22 2.18 2.10 2.03 1.94 1.90 1.85 1.81 1.75 1.70 1.64
30 3.32 2.92 2.69 2.53 2.42 2.33 2.27 2.21 2.16 2.09 2.01 1.93 1.89 1.84 1.79 1.74 1.68 1.62
40 3.23 2.84 2.61 2.45 2.34 2.25 2.18 2.12 2.08 2.00 1.92 1.84 1.79 1.74 1.69 1.64 1.58 1.51
60 3.15 2.76 2.53 2.37 2.25 2.17 2.10 2.04 1.99 1.92 1.84 1.75 1.70 1.65 1.59 1.53 1.47 1.39
120 3.07 2.68 2.45 2.29 2.18 2.09 2.02 1.96 1.91 1.83 1.75 1.66 1.61 1.55 1.50 1.43 1.35 1.25
3.00 2.60 2.37 2.21 2.10 2.01 1.94 1.88 1.83 1.75 1.67 1.57 1.52 1.46 1.39 1.32 1.22 1.00
Proporciona valores críticos para probar con dirección (una cola) la significación de un
coeficiente de correlación lineal calculado por el método de Pearson.
Nivel de significación (α)
GL 0.10 0.05 0.025 0.01
1 0.9511 0.9877 0.9969 0.9995
2 0.8000 0.9000 0.9500 0.9800
3 0.6870 0.8054 0.8783 0.9343
4 0.6084 0.7293 0.8114 0.8822
5 0.5509 0.6694 0.7545 0.8329
6 0.5067 0.6215 0.7067 0.7887
7 0.4716 0.5822 0.6664 0.7498
8 0.4428 0.5494 0.6319 0.7155
9 0.4187 0.5214 0.6021 0.6851
10 0.3981 0.4973 0.5760 0.6581
11 0.3802 0.4762 0.5529 0.6339
12 0.3646 0.4575 0.5324 0.6120
13 0.3507 0.4409 0.5140 0.5923
14 0.3383 0.4259 0.4973 0.5742
15 0.3271 0.4124 0.4821 0.5577
16 0.3170 0.4000 0.4683 0.5425
17 0.3077 0.3887 0.4555 0.5285
18 0.2992 0.3783 0.4438 0.5155
19 0.2914 0.3687 0.4329 0.5034
20 0.2841 0.3598 0.4227 0.4921
25 0.2546 0.3233 0.3809 0.4451
30 0.2327 0.2960 0.3494 0.4093
35 0.2156 0.2746 0.3246 0.3810
40 0.2018 0.2573 0.3044 0.3578
45 0.1903 0.2429 0.2876 0.3384
50 0.1806 0.2306 0.2732 0.3218
55 0.1723 0.2201 0.2609 0.3074
60 0.1650 0.2108 0.2500 0.2948
70 0.1528 0.1954 0.2319 0.2737
80 0.1430 0.1829 0.2172 0.2565
90 0.1348 0.1726 0.2050 0.2422
100 0.1279 0.1638 0.1946 0.2301
Dada la ecuación r = t/(n-2+t2), obteniendo t con la función de Excel 2016
=INV.T(probabilidad,grados_de_libertad)
donde:
INV.T ≡ Distribución t Student de una cola
probabilidad ≡ Nivel de significación (α)
grados_de_libertad ≡ Grados de libertad (n-2)
puede calcularse el valor crítico de prueba direccionada, dados cualquier α y n.
BIBLIOGRAFÍA
La bibliografía relacionada directa o indirectamente con la estadística inferencial es muy
numerosa; dependiendo del tema concreto que se busque, siempre se encontrará algún
libro más adecuado que otros. Sin embargo, consideramos que las obras que se fichan
y comentan aquí pueden proporcionar al estudiante de un curso introductorio, como es
el que aquí abordamos, elementos suficientes para la comprensión y aplicación de sus
métodos.
Cowles, M. & Davis, C. (1982). “On the origins of the .05 level of statistical
significance”. American Psychologist, May 1982, Vol. 37, No. 5, 553-558.
Un artículo para entender el concepto de nivel de significación −fundamental en la psicología
científica− y su historia. Un trabajo desmitificador.
Cristo, M. y Guerra, C. (2001). Comportamiento de las dócimas paramétricas
respecto a las no paramétricas en distribuciones no normales. Cuba. Instituto
Superior de Ciencias Agrícolas de La Habana. (Tesis de maestría).
Importante estudio sobre la potencia y la eficiencia de pruebas estadísticas. Útil para quien quiera
profundizar en el aspecto matemático del tema.
Daniel, W. (1981). Estadística con aplicaciones a las ciencias sociales y a la
educación. México. McGraw-Hill. (504 p.)
Libro que abarca elementos, realmente muy básicos, de teoría de la probabilidad, así como
técnicas estadísticas descriptivas e inferenciales. Muy útil para varias aplicaciones en ciencias de la
conducta.
Johnson, R. (1979). Estadística elemental. México. Trillas. (592 p.)
Es una obra accesible a estudiantes de licenciatura. Abarca desde conceptos básicos y
elementos de probabilidad, hasta estadística descriptiva e inferencias paramétrica y no paramétrica.
Incluye gran cantidad de ejemplos cuyas respuestas se presentan al final.
Méndez, I. (1976). Modelos estadísticos lineales, interpretación y aplicaciones.
México. Foccavi/Conacyt.
Aunque contiene pistas que ayudan a la comprensión intuitiva, se trata de un estudio orientado a
formalización matemática y, por tanto, de lectura que puede no resultar fácil para un estudiante que
comienza a abordar el estudio de la estadística inferencial. Incluye una bibliografía clasificada que
permite elegir obras conforme al perfil de conocimientos del lector.
Meredith, W. (1977). Manual de tablas estadísticas con aplicación a las ciencias de
la conducta. México. Trillas. (345 pp.)
Se trata de una compilación que fue elaborada especialmente para las ciencias de la conducta.
Contiene una útil colección de funciones numéricas, desde interpolación, logarítmicas y
trigonométricas, hasta integrales y constantes físicas; tablas numéricas diversas; distribuciones de
probabilidad; pruebas de hipótesis, paramétricas y no paramétricas; análisis de correlación y tablas
estadísticas diversas. Aunque el desarrollo de las calculadoras, la computadora y la internet han
vuelto obsoletas ciertas partes del contenido (por ejemplo las tablas de logaritmos y las
trigonométricas), la obra en su conjunto no deja de ser una herramienta básica para la investigación
del comportamiento.
Popper, K. (2008). La lógica de la investigación científica, estructura y función.
Madrid. Editorial Tecnos. (576 pp.)
Libro esencial sobre epistemología científica. En una larga serie de artículos cortos, el autor
aborda sistemáticamente el método de la ciencia contemporánea, desde sus más profundos
PASO 2.
Declaración f p
Partido A 319 0.2115
Partido B 845 0.5603
Partido C 143 0.0949 ← ajuste +1
Abstención 201 0.1333
Suma 1,508 1.0000
PASO 3. Puesto que la estimación es directa:
P(Partido B) = 56.03%.
PASO 4. Conclusión: Se concluye con un nivel de confianza del 95% que el Partido
B obtendrá el 56.03% de los votos.
TERMINA
EJERCICIO 3.1
Para estimar el cociente de memoria de cierta población, se tomó una muestra representativa al
93%, integrada por 34 sujetos. Se encontró una media muestral de 88.26. Realice la estimación
puntual de la media poblacional.
Respuesta
COMIENZA
PASO 1. e = 0.07.
PASO 2. = 88.26.
PASO 3. Puesto que la estimación es directa:
μ = 88.26.
PASO 4. Conclusión: Se concluye con un nivel de confianza del 93% que la población
estudiada tiene un cociente de memoria promedio de 88.26.
TERMINA
EJERCICIO 3.2
Se estudió una muestra representativa integrada por 58 sujetos, con un error del 4%, de cierto sector
urbano para estimar su nivel de ingresos en términos de salarios mínimos por día. Se obtuvo una
media muestral de 6.21. Realice la estimación puntual de la media poblacional.
Respuesta
COMIENZA
PASO 1. e = 0.04.
PASO 2. = 6.21.
PASO 3. Puesto que la estimación es directa:
μ = 6.21.
PASO 4. Conclusión: Se concluye con un nivel de confianza del 96% que la población
estudiada tiene un ingreso promedio de 6.21 salarios mínimos por día.
TERMINA
EJERCICIO 4.1
Considere el ejemplo 3.1. Se encontró una desviación estándar muestral de 7.82. Realice la
estimación puntual de la desviación estándar poblacional.
Respuesta
COMIENZA
PASO 1. e = 0.07.
PASO 2. n = 34 Observación:
S>
S = 7.82 y, por tanto
S2 = 61.15.
PASO 3. 2 = 61.15 ((34-1)/34)
2 = 59.35
= 7.70.
PASO 4. Conclusión: Se concluye con un nivel de confianza del 93% que el cociente
de memoria de la población estudiada tiene una desviación estándar de 7.70
unidades de memoria.
TERMINA
EJERCICIO 4.2
Considere el ejemplo 3.2. Se encontró una varianza muestral 0.69. Realice la estimación puntual de
la desviación estándar poblacional.
Respuesta
COMIENZA
PASO 1. e = 0.04. Observación:
PASO 2. n = 58 S2 > 2
S2 = 0.69.
PASO 3. 2 = 0.69 ((58-1)/58)
2 = 0.68
= 0.82.
PASO 4. Conclusión: Se concluye con un nivel de confianza del 96% que los ingresos
de la población estudiada tienen una desviación estándar de 0.82 salarios mínimos
por día.
TERMINA
EJERCICIO 5.1
A partir del ejemplo 2.1, construya el intervalo de confianza para la categoría Rechazo.
Respuestas
COMIENZA
PASO 1. e = 0.07.
PASO 2.
Categoría f p
Aceptación 847 0.3358
Indeciso 321 0.1273
Rechazo 1,354 0.5369
Suma 2,522 1.0000
PASO 3. 1-(0.07/2) = 0.9650 → en Tabla 1: z = 1.81
PASO 4. p(Rechazo) = 0.5369.
PASO 5. q(Rechazo) = 1-0.5369 = 0.4631.
PASO 6. Calculemos el límite inferior:
p-(z(((pq)/n)))
0.5369-(1.81(((0.53690.4631)/2522))) = 0.5189
ahora el límite superior:
p+(z(((pq)/n)))
0.5369+(1.81(((0.53690.4631)/2522))) = 0.5549
por tanto, el intervalo de confianza es:
0.5189 P(Rechazo) 0.5549.
PASO 7. Conclusión: Se concluye con un nivel de confianza del 93% que entre el
51.89% y el 55.49% de la población estudiada rechaza la decisión de gobierno.
TERMINA
EJERCICIO 5.2.
A partir del ejemplo 2.2, construya el intervalo de confianza para el Partido A.
Respuesta
COMIENZA
PASO 1. e = 0.05.
PASO 2.
Declaración f p
Partido A 319 0.2115
Partido B 845 0.5603
Partido C 143 0.0949 ← ajuste +1
Abstención 201 0.1333
Suma 1,508 1.0000
PASO 3. 1-(0.05/2) = 0.9750 → en Tabla 1: z = 1.96.
PASO 4. p(Partido A) = 0.2115.
PASO 5. q(Partido A) = 1-0.2115 = 0.7885.
PASO 6. Calculemos el límite inferior:
p-(z(((pq)/n)))
0.2115-(1.96(((0.21150.7885)/1508))) = 0.1909
ahora el límite superior:
p+(z(((pq)/n)))
0.2115+(1.96(((0.21150.7885)/1508))) = 0.2321
por tanto, el intervalo de confianza es:
0.1909 P(Partido A) 0.2321.
PASO 7. Conclusión: Se concluye con un nivel de confianza del 95% que entre el
19.09% y el 23.21% de la población estudiada votará por el Partido A.
TERMINA
EJERCICIO 6.1
De los ejemplos 3.1 y 4.1, tenemos que e = 7%, = 88.26, = 7.94 y n = 34. Construya el intervalo
de confianza para la media.
Repuesta
COMIENZA
PASO 1. α = 0.07
PASO 2. = 88.26
= 7.94
n = 34
PASO 3. 1-(0.07/2) = 0.9650, entonces en tablas encontramos: z = 1.81
PASO 4. Calculemos el límite inferior:
-(z(/(n)))
88.26-(1.81(7.94/(34))) = 85.80
ahora el límite superior
+(z(/(n)))
88.26+(1.81(7.94/(34))) = 90.72
por tanto, el intervalo de confianza es
85.80 ≤ ≤ 90.72.
PASO 5. Conclusión: Se concluye con un nivel de confianza del 93% que el promedio
de memoria de la población estudiada se encuentra entre 85.80 y 90.72.
TERMINA
EJERCICIO 6.2
De los ejemplos 3.2 y 4.2, tenemos que e = 4%, = 6.21, = 0.84 y n = 58. Construya el intervalo
de confianza para la media.
Respuesta
COMIENZA
PASO 1. α = 0.04
PASO 2. = 6.21
= 0.84
n = 58
PASO 3. 1-(0.04/2) = 0.9800, entonces en tablas encontramos: z = 2.05
PASO 4. Calculemos el límite inferior:
-(z(/(n)))
6.21-(2.05(0.84/(58))) = 5.98
ahora el límite superior
+(z(/(n)))
6.21+(2.05(0.84/(58))) = 6.44
por tanto, el intervalo de confianza es
5.98 ≤ ≤ 6.44.
PASO 5. Conclusión: Se concluye con un nivel de confianza del 96% que el promedio
de ingreso de la población estudiada se encuentra entre 5.98 y 6.44 salarios
mínimos diarios.
TERMINA
EJERCICIO 7.1
Se realizó un estudio con un nivel de confianza del 99% para probar si la pertenencia a estratos
sociales está relacionada con la modalidad de educación media superior elegida. Fueron
seleccionados al azar 390 alumnos de secundaria, se identificó el estrato social al que pertenecían
y la modalidad que eligieron para estudiar la educación media superior. Se obtuvieron los siguientes
datos:
Estrato social a que pertenece el alumno
I, II III IV V
Universitaria 23 40 16 2
Modalidad
Tecnológica 11 75 107 14
elegida
Comercial 1 31 60 10
Observe que para cumplir con las condiciones de aplicación de la prueba hubo necesidad de
combinar los estratos I y II
Aplique la prueba χ2 a estos datos.
Respuesta
COMIENZA
PASO 1. Plantear el juego de hipótesis:
H0: El estrato social no estará relacionado con la modalidad educativa elegida.
H1: El estrato social estará relacionado con la modalidad educativa elegida.
PASO 2. Se cumplen las condiciones de aplicación porque:
1. Los sujetos inscritos en cada modalidad son diferentes y, en consecuencia, los
grupos son independientes.
2. Ambas variables están transformadas al nivel nominal.
3. Hay 3 grupos.
4. Hay 4 categorías.
5. Ninguna celda tiene frecuencia de cero. Nótese que para satisfacer esta
condición hubo necesidad de combinar las categorías I y II en Estrato Social.
6. Dos celdas, que constituyen el 16.67%, tiene frecuencias observadas menores
a 5.
PASO 3. NC = 99% → α = 0.01.
PASO 4. k=3
r=4
GL = (3-1)(4-1) = 6
PASO 5. En Tabla 2 encontramos que χ2T = 16.81.
aceptamos H1.
PASO 9. Se concluye con un nivel de confianza del 99% que en la población de
estudio el estrato social está relacionado con la modalidad educativa elegida.
TERMINA
EJERCICIO 7.2
Para estudiar la relación entre autoritarismo y ocupación elegida en el ejército, se realizó una
investigación con un nivel de confianza del 99%. Fueron seleccionados al azar 237 efectivos, se
midió su nivel de autoritarismo y se identificó su ocupación. Se obtuvieron los siguientes datos:
Autoritarismo
Bajo Medio Alto
Medicina 16 21 57
Armamento 15 22 25
Ocupación
Transmisiones 9 14 28
Suministros 8 9 13
Aplique la prueba χ2 a estos datos.
Respuesta
COMIENZA
PASO 1. Plantear el juego de hipótesis:
H0: El autoritarismo no estará relacionado con la ocupación elegida.
H1: El autoritarismo estará relacionado con la ocupación elegida.
PASO 2. Se cumplen las condiciones, pues:
1. Los sujetos de cada profesión son diferentes (están integrados por diferentes
personas). En consecuencia, los grupos son independientes.
2. Ambas variables están transformadas al nivel nominal.
3. Hay 4 grupos.
4. Hay 3 categorías.
5. Ninguna celda tiene frecuencia de cero.
6. Ninguna celda tiene frecuencia observada menor a 5.
PASO 3. NC = 99% → α = 0.01.
PASO 4. k=4
r=3
GL = (4-1) (3-1) = 6
PASO 5. En Tabla 2 encontramos que χ2T = 16.81.
PASO 6. Nota de cálculo:
Autoritarismo
Bajo Medio Alto Sumas
16 21 57 94
Medicina 19.04 26.18 48.78
0.49 1.02 1.39
15 22 25 62
Armamento 12.56 17.27 32.18
0.47 1.30 1.60
Ocupación
9 14 28 51
Transmisiones 10.33 14.20 26.47
0.17 0.00 0.09
8 9 13 30
Suministros 6.08 8.35 15.57
0.61 0.05 0.42
Sumas 48 66 123 237
PASO 7. χ2O = 7.61
PASO 8. (χ2O = 7.61) < (χ2T = 16.81) por lo que H0 no puede ser rechazada.
PASO 9. Se concluye con un nivel de confianza del 99% que la ocupación no afecta
el autoritarismo en la población militar bajo estudio.
TERMINA
EJERCICIO 8.1
Se realizó un estudio con un nivel de confianza del 95% para probar si existen diferencias en el
aprendizaje de los alumnos de dos sistemas escolares. Se diseñó un test estandarizado y se aplicó
a muestras aleatorias obtenidas en cada sistema. Se obtuvieron los siguientes resultados:
Muestras
Sistema escolar A Sistema escolar B
Tamaño 62 51
Media 72.23 74.57
Varianza 64.26 63.01
Aplique la prueba t-Student y concluya.
Respuesta
COMIENZA
PASO 1. Plantear el juego de hipótesis:
H0: No existirá diferencia de aprendizaje entre los sistemas escolares A y B.
H1: El aprendizaje en el sistema escolar A será mayor que en el B.
H2: El aprendizaje en el sistema escolar A será menor que en el B.
PASO 2. Las condiciones se cumplen porque:
1. Los puntajes de aprendizaje son medidas intervalares.
2. Las muestras se obtuvieron al azar.
3. Las muestras son independientes, pues los alumnos del sistema A son
diferentes al del B.
PASO 3. α = 0.05.
PASO 4. Estadígrafos:
n1 = 62
n2 = 51
1 = 72.23
2 = 74.57
2
S 1 = 64.26
S22 = 63.01
PASO 5. GL = 62+51-2 = 111
PASO 6. En Tabla 3: tT = 1.66.
PASO 7. Calcular la varianza combinada
S2p = (((n1-1)S21)+((n2-1) S22))/(n1+n2 -2)
S2p = (((62-1)64.26)+((51-1)63.01))/(62+51-2)
S2P = 63.70
PASO 8. Calcular el valor empírico:
tO = ( 1- 2)/(((S2p/n1)+ (S2p/n2)))
tO = (72.23-74.57)/(√((63.70/62)+(63.70/51)))
tO = -1.55
PASO 9. (tO=|1.55|) < (tT=1.66) por lo que no podemos rechazar la hipótesis nula.
PASO 10. Concluimos con un nivel de confianza del 95% que no existe diferencia
significativa en el aprendizaje entre los dos sistemas escolares.
TERMINA
EJERCICIO 8.2
Para probar la eficacia de dos sistemas de incentivos sobre la productividad de los empleados de
una fábrica, se llevó a cabo un experimento con un nivel de confianza del 97.50%. En una planta se
aplicó un plan de bonos de sobresueldo y en otra un plan de bonos de tiempo libre. La productividad
se midió como el número de artículos obtenidos por jornada de trabajo. Se obtuvieron los siguientes
resultados:
Muestras
Sobresueldo Tiempo libre
Tamaño 98 87
Media 113.23 109.12
Varianza 124.34 132.14
Aplique la prueba t-Student y concluya.
Respuesta
COMIENZA
PASO 1. Interesa decidir con cuál de los dos sistemas se obtiene mayor eficacia, por
lo que debemos probar con dirección
EJERCICIO 9.2
Para probar la eficacia de un tratamiento psicológico sobre el control del consumo de alcohol, se
realizó un estudio con un nivel de confianza del 90%. Se midió en 13 sujetos la ingesta efectiva de
contenido alcohólico, tanto en pretest como en postest, y se obtuvieron los siguientes resultados:
Sujeto 1 2 3 4 5 6 7 8 9 10 11 12 13
Pretest 108 82 80 123 98 98 94 82 98 83 95 69 101
Postest 115 89 82 119 100 85 89 79 95 76 88 64 97
Aplique la prueba t-Student y concluya.
Respuesta
COMIENZA
PASO 1. Hipótesis
H0: No existirá diferencia en la ingesta de alcohol en pretest y postest.
H1: La ingesta de alcohol en pretest será mayor que en postest.
H2: La ingesta de alcohol en pretest será menor que en postest.
PASO 2. Asumimos que se cumplen las condiciones, porque no sabemos si la
muestra es aleatoria.
PASO 3. α = 0.10.
PASO 4. GL = 13-1 = 12.
PASO 5. En Tabla 3: tT = 1.36.
PASO 6. Nota de cálculo:
Sujeto Pretest Postest d d2
1 108 115 -7 49
2 82 89 -7 49
3 80 82 -2 4
4 123 119 4 16
5 98 100 -2 4
6 98 85 13 169
7 94 89 5 25
8 82 79 3 9
9 98 95 3 9
10 83 76 7 49
11 95 88 7 49
12 69 64 5 25
13 101 97 4 16
Medias 93.15 90.62
Sumas 33 473
PASO 7. tO = ((d/n)(n)) / ((((nd2)−(d)2)/(n(n-1)))
tO = ((33/13)(13)) / ((((13473)−(33)2)/(13(13-1))))
tO = 1.61
PASO 8. (tO = 1.61) > (tT = 1.36) por lo que debemos rechazar la hipótesis nula. En
consecuencia, como el signo de tO es positivo, esto es, ( 1=93.15) >( 2=90.62),
PASO 12. Ahora, con un nivel de confianza del 95%, concluimos sobre las
comparaciones pareadas:
1 > 2
1 > 3
1 > 4
2 = 3
2 = 4
3 = 4
Ahora podemos analizar los efectos por pares. Se observa que la dosis 1 retarda el
sueño MOR más tiempo que las dosis 2, 3 y 4; sin embargo, no existen diferencias
significativas entre los efectos de las dosis 2 y 3, ni entre 2 y 4; finalmente, tampoco
hay diferencia entre las dosis 3 y 4.
TERMINA
EJERCICIO 10.2
En un estudio sobre cuatro sistemas de comunicación encriptada se estableció un nivel de confianza
del 95%. Se seleccionaron 44 sujetos y se asignaron aleatoriamente a cada sistema. Se midió el
nivel de comprensión de un mensaje complejo y se obtuvieron los siguientes resultados:
Sistema
A B C D
15 8 14 16
6 11 15 17
13 8 19 15
8 10 13 18
8 13 16 21
8 7 16 20
11 10 13 24
5 9 13 24
5 13 12 16
13 11 20 21
10 11 18 20
Aplique el AVAR y, en su caso, la prueba de Tukey y concluya.
Respuesta
COMIENZA
PASO 1. Hipótesis. Debemos probar sin dirección.
H0: No existirán diferencias en la comprensión del mensaje entre los cuatro
sistemas
H1: Existirán diferencias en la comprensión del mensaje entre los cuatro sistemas
PASO 2. Asumimos que se cumplen las condiciones, pues las muestras son muy
pequeñas (n = 11) y no sabemos cómo se seleccionaron los sujetos que conforman
la muestra (aunque éstos hayan sido asignados al azar a los grupos).
PASO 3. α = 0.05.
PASO 4. k = 4,
ni = 11,
n = 44,
GL numerador = 3 y
GL denominador = 40, entonces en tabla encontramos
RVT = 2.84
PASO 5. Tabla de cálculo:
Sistema
A B C D
15 8 14 16
6 11 15 17
13 8 19 15
8 10 13 18
8 13 16 21
8 7 16 20
11 10 13 24
5 9 13 24
5 13 12 16
13 11 20 21
10 11 18 20
ni= 11 11 11 11 n = 44
X = 102 111 169 212 X = 594
X2 = 1,062 1,159 2,669 4,184 X2 = 9,074
(X)2/ni = 945.82 1120.09 2596.45 4085.82 ((X)2/ni) = 8,748.18
= 9.27 10.09 15.36 19.27
PASO 6. Calcular el valor empírico de prueba:
C= 8,019.00
SCT= 1,055.00
SCTR= 729.18
SCE= 325.82
MCTR= 243.06
MCE= 8.15
RVo= 29.82
PASO 7. Puesto que (RVO = 29.82) > (RVT = 2.84), debemos rechazar la hipótesis
nula y aceptar la hipótesis alternativa.
PASO 8. Concluimos con un nivel de confianza de 95% que las medias son
diferentes. En otras palabras, los sistemas de comunicación encriptada afectan de
manera diferente al nivel de comprensión del mensaje.
En consecuencia, procede aplicar la prueba de Tukey
PASO 9. Construir la matriz de diferencias entre medias:
1 2 3 4
1 -0.82 -6.09 -10.00
2 -5.27 -9.18
3 -3.91
4
PASO 10. Calcular DHS:
DHS = (2.84) (1/(2)) (((28.15)/11))
DHS = 2.44
PASO 11. En la MDEM cruzamos las celdas en que se aceptó H0.
PASO 12. Ahora, con un nivel de confianza de 95%, concluimos sobre las
comparaciones pareadas:
1 = 2
1 < 3
1 < 4
2 < 3
2 < 4
3 < 4
Analizando cada pareja de la MDEM, vemos que en este caso se encontró que no
existe diferencia significativa entre los sistemas 1 y 2; ambos son los sistemas más
eficaces (los que menor comprensión del mensaje permiten). Después está el
sistema 3. Finalmente, el sistema 4 es el menos eficaz, pues es el que mayor
comprensión del mensaje presentó y, por tanto, el que menos encripta el mensaje.
TERMINA
EJERCICIO 11.1
En un estudio sobre delincuencia y familia, realizado con un nivel de confianza del 95%, se clasificó
a 100 jóvenes de educación media conforme a:
X1 ≡ Con antecedentes delictivos
X2 ≡ Sin antecedentes delictivos
Y1 ≡ Pertenecientes a familias integradas
Y2 ≡ Pertenecientes a familias desintegradas
y se obtuvieron los siguientes datos:
X1 X2
Y1 10 29
Y2 20 41
Aplique el análisis de correlación de Phi.
Respuesta
COMIENZA
PASO 1. Hipótesis:
H0: No existirá correlación entre antecedentes delictivos e integración familiar.
EJERCICIO 11.2
Se investigó la relación entre turno y aprovechamiento escolar, trabajando con un nivel de confianza
del 99%. Se clasificó a 150 egresados como sigue:
X1 ≡ Graduado
X2 ≡ No graduado
Y1 ≡ Turno matutino
Y2 ≡ Turno vespertino
y se obtuvieron los siguientes datos:
X1 X2
Y1 55 20
Y2 30 45
Aplique el análisis de correlación de Phi.
Respuesta
COMIENZA
PASO 1. Tenemos una prueba no direccionada:
EJERCICIO 12.1
En un estudio sobre la validez predictiva de un examen de admisión se midió:
X Calificación obtenida en el examen de admisión.
Y Promedio general de carrera.
Las dos variables se midieron en escala de 0 a 100 con aproximación a enteros. Se extrajo una
muestra aleatoria con un error probable de 0.05, se probó homocedasticidad y normalidad en ambas
variables y se obtuvieron los siguientes datos:
(50, 80) (39, 84) (58, 87) (49, 84) (38, 67) (51, 67) (55, 78) (59, 80) (39, 79) (42, 82)
(43, 71) (55, 84) (47, 64) (48, 69) (62, 77) (64, 58) (47, 73) (48, 86) (69, 78) (69, 88)
(61, 72) (39, 76) (64, 90) (39, 92) (42, 76) (50, 74) (45, 73) (64, 75) (47, 82) (40, 69)
(40, 79) (54, 59) (48, 94) (59, 78) (54, 79) (60, 69) (59, 93) (48, 74) (64, 78) (55, 77)
(56, 68) (38, 66) (59, 74) (49, 72) (63, 57) (51, 57) (45, 65) (67, 82) (44, 63) (69, 72)
(42, 56) (56, 77) (44, 83) (53, 72) (40, 79) (59, 78) (70, 80) (37, 82) (70, 84) (55, 74)
(59, 90) (42, 72) (54, 80) (64, 70) (63, 75) (54, 93) (46, 78) (52, 83) (52, 74) (66, 85)
(37, 74) (57, 78) (37, 77) (47, 78) (46, 67) (39, 62) (68, 64) (65, 73) (70, 67) (40, 71)
(43, 78) (49, 80) (51, 78) (54, 75) (60, 79) (53, 82) (57, 64) (44, 75) (59, 85) (66, 73)
(54, 63)
a) Pruebe la significación del coeficiente de correlación de Pearson.
b) Construya el dispersigrama y ubique la recta de tendencia.
c) José es el elemento 36 de la muestra. Calcule su regresión e interprétela
Respuesta
COMIENZA
PASO 1.
H0: El examen de admisión no estará correlacionado con el promedio general de
carrera
H1: El examen de admisión estará correlacionado directamente con el promedio
general de carrera
H2: El examen de admisión estará correlacionado inversamente con el promedio
general de carrera
PASO 2. En este caso sabemos que las condiciones se cumplen porque:
1. Ambas variables son puntajes psicométricos medidos en el nivel intervalar.
2. La muestra se obtuvo aleatoriamente.
3. La muestra es grande.
4. Se probó normalidad.
5. Se probó homocedasticidad.
PASO 3. α = 0.05.
PASO 4. GL = 91-2 = 89.
PASO 5. En Tabla 5: rT = 0.1726.
PASO 6. Nota de cálculo
Sujeto X Y XY X2 Y2
1 50 80 4,000 2,500 6,400
2 39 84 3,276 1,521 7,056
3 58 87 5,046 3,364 7,569
Sujeto X Y XY X2 Y2
4 49 84 4,116 2,401 7,056
5 38 67 2,546 1,444 4,489
6 51 67 3,417 2,601 4,489
7 55 78 4,290 3,025 6,084
8 59 80 4,720 3,481 6,400
9 39 79 3,081 1,521 6,241
10 42 82 3,444 1,764 6,724
11 43 71 3,053 1,849 5,041
12 55 84 4,620 3,025 7,056
13 47 64 3,008 2,209 4,096
14 48 69 3,312 2,304 4,761
15 62 77 4,774 3,844 5,929
16 64 58 3,712 4,096 3,364
17 47 73 3,431 2,209 5,329
18 48 86 4,128 2,304 7,396
19 69 78 5,382 4,761 6,084
20 69 88 6,072 4,761 7,744
21 61 72 4,392 3,721 5,184
22 39 76 2,964 1,521 5,776
23 64 90 5,760 4,096 8,100
24 39 92 3,588 1,521 8,464
25 42 76 3,192 1,764 5,776
26 50 74 3,700 2,500 5,476
27 45 73 3,285 2,025 5,329
28 64 75 4,800 4,096 5,625
29 47 82 3,854 2,209 6,724
30 40 69 2,760 1,600 4,761
31 40 79 3,160 1,600 6,241
32 54 59 3,186 2,916 3,481
33 48 94 4,512 2,304 8,836
34 59 78 4,602 3,481 6,084
35 54 79 4,266 2,916 6,241
36 60 69 4,140 3,600 4,761
37 59 93 5,487 3,481 8,649
38 48 74 3,552 2,304 5,476
39 64 78 4,992 4,096 6,084
40 55 77 4,235 3,025 5,929
41 56 68 3,808 3,136 4,624
42 38 66 2,508 1,444 4,356
43 59 74 4,366 3,481 5,476
44 49 72 3,528 2,401 5,184
45 63 57 3,591 3,969 3,249
46 51 57 2,907 2,601 3,249
47 45 65 2,925 2,025 4,225
Sujeto X Y XY X2 Y2
48 67 82 5,494 4,489 6,724
49 44 63 2,772 1,936 3,969
50 69 72 4,968 4,761 5,184
51 42 56 2,352 1,764 3,136
52 56 77 4,312 3,136 5,929
53 44 83 3,652 1,936 6,889
54 53 72 3,816 2,809 5,184
55 40 79 3,160 1,600 6,241
56 59 78 4,602 3,481 6,084
57 70 80 5,600 4,900 6,400
58 37 82 3,034 1,369 6,724
59 70 84 5,880 4,900 7,056
60 55 74 4,070 3,025 5,476
61 59 90 5,310 3,481 8,100
62 42 72 3,024 1,764 5,184
63 54 80 4,320 2,916 6,400
64 64 70 4,480 4,096 4,900
65 63 75 4,725 3,969 5,625
66 54 93 5,022 2,916 8,649
67 46 78 3,588 2,116 6,084
68 52 83 4,316 2,704 6,889
69 52 74 3,848 2,704 5,476
70 66 85 5,610 4,356 7,225
71 37 74 2,738 1,369 5,476
72 57 78 4,446 3,249 6,084
73 37 77 2,849 1,369 5,929
74 47 78 3,666 2,209 6,084
75 46 67 3,082 2,116 4,489
76 39 62 2,418 1,521 3,844
77 68 64 4,352 4,624 4,096
78 65 73 4,745 4,225 5,329
79 70 67 4,690 4,900 4,489
80 40 71 2,840 1,600 5,041
81 43 78 3,354 1,849 6,084
82 49 80 3,920 2,401 6,400
83 51 78 3,978 2,601 6,084
84 54 75 4,050 2,916 5,625
85 60 79 4,740 3,600 6,241
86 53 82 4,346 2,809 6,724
87 57 64 3,648 3,249 4,096
88 44 75 3,300 1,936 5,625
89 59 85 5,015 3,481 7,225
90 66 73 4,818 4,356 5,329
Sujeto X Y XY X2 Y2
91 54 63 3,402 2,916 3,969
Sumas 4,779 6,879 361,840 259,241 526,459
rP = ((91361840)–(47796879)) / ((((91259241)–(4779)2)((91526459)–(6879)2)))
rP = 0.0793
PASO 8. (rP=0.0793) < (rT=0.1726) por lo que no podemos rechazar la hipótesis nula.
PASO 9. Se concluye con un nivel de confianza del 95% que el examen de admisión
no está correlacionado con el promedio general de carrera. Esto nos permite afirmar
que no demostró validez predictiva.
Puesto que no pudimos rechazar la hipótesis nula, lo que implica que
las variables no están correlacionadas, no procede realizar análisis de
regresión. Realizarlo implicaría hacer predicciones espurias.
TERMINA
EJERCICIO 12.2
En un estudio con operadores de grúa se midió:
X Razonamiento visoespacial.
Y Puntaje de desempeño en el manejo de grúa.
Se extrajo una muestra aleatoria y se probó homocedasticidad y normalidad. Se establece un nivel
de confianza del 95%. Se obtuvieron los siguientes datos:
Caso 1 2 3 4 5 6 7 8 9 10 11 12 13 14
X 102 98 111 89 120 114 113 104 117 99 118 123 94 112
Y 81 69 71 58 90 78 81 80 87 91 87 92 78 80
a) Pruebe la significación del coeficiente de correlación de Pearson.
b) Construya el dispersigrama.
c) Luis es el elemento 10 de la muestra. Calcule su regresión e interprétela.
Respuesta
COMIENZA
PASO1. Hipótesis
H0: El razonamiento visual no estará correlacionado con el desempeño.
H1: El razonamiento visual estará correlacionado directamente con el
desempeño.
H2: El razonamiento visual estará correlacionado inversamente con el
desempeño.
PASO 2. Puesto que la muestra es pequeña y no sabemos cómo se obtuvo,
asumimos que las condiciones se cumplen.
PASO 3. α = 0.05.
PASO 4. GL = 14-2 = 12.
PASO 5. rT = 0.4575.
PASO 6. Nota de cálculo
Sujeto X Y XY X2 Y2
1 102 81 8262 10404 6561
2 98 69 6762 9604 4761
3 111 71 7881 12321 5041
4 89 58 5162 7921 3364
5 120 90 10800 14400 8100
6 114 78 8892 12996 6084
7 113 81 9153 12769 6561
8 104 80 8320 10816 6400
9 117 87 10179 13689 7569
10 99 91 9009 9801 8281
11 118 87 10266 13924 7569
12 123 92 11316 15129 8464
13 94 78 7332 8836 6084
14 112 80 8960 12544 6400
Sumas 1,514 1,123 122,294 165,154 91,239
PASO 11. Calculemos la regresión de Luis. Sabemos que sus puntajes son:
X = 99
Y = 91
entonces:
Yc(Luis) = 15.33+(0.6099)
Yc(Luis) = 74.73
esto es, conforme a su puntaje de razonamiento visoespacial, se predice que Luis
debió obtener un puntaje de desempeño en manejo de grúa de Yc=74.76, pero
sabemos que realmente obtuvo YO=91, por lo cual:
Regresión(Luis) = 91.00-74.73
Regresión(Luis) = 16.27
Esto es, el desempeño de Luis estuvo 16.27 por encima de lo que podría esperarse
a partir de su razonamiento visual. Explicar esta diferencia es un asunto de
investigación empírica, no de estadística.
PASO 12. Para construir el dispersigrama, sabemos que:
Min Max
X 89 123
Y 58 92
Ahora, para ubicar la recta estimamos Yc para los valores extremos de X:
Yc(89) = 68.73
Yc(123) = 89.13
Para terminar, procedemos a construir el dispersigrama y a ubicar la recta de
tendencia.
85
80
75
70
65
60
55
85 95 105 115 125
Razonamiento visoespacial
TERMINA
EJEMPLO 12.3
Trabajando con fotointérpretes se midió:
X Memoria icónica y
Y Errores en el reconocimiento de patrones.
30
25
20
15
10
45 55 65 75 85 95
Memoria icónica
Una observación final: la pendiente negativa de la recta indica que conforme mayor
memoria icónica, menor número de errores se observan en la muestra estudiada.
Es un resultado esperado, pues la memoria icónica es una medida de la aptitud y
los errores en el reconocimiento de patrones es una medida negativa del
desempeño. Sin duda, lo que más debe interesar al estudiante es comprender el
significado de los resultados.
TERMINA