EstadisticaInferencial Version2021

ESTADÍSTICA INFERENCIAL
EN CIENCIAS DEL
COMPORTAMIENTO
Adolfo López Suárez
Universidad Autónoma del Estado de México

Facultad de Ciencias de la Conducta
Aquí no se discute si dos por tres hacen más o menos que seis,
o si la suma de los ángulos de un triángulo es inferior a la suma
de dos ángulos rectos; por el contrario, las disputas se
desvanecen en un silencio eterno y reina entre los discípulos de
esta ciencia una paz a la que nunca llegan las mentirosas
especulaciones intelectuales.
Trattato della Pittura
Leonardo Da Vinci (1452-1519)
Contacto Adolfo López Suárez

Psicólogo, investigador titular del Instituto de Estudios sobre
la Universidad y profesor de la Facultad de Ciencias de la
Conducta de la Universidad Autónoma del Estado de
México.
adolfolopezsuarez@gmail.com
Respuestas a los ejercicios ............................................................... 70
CONTENIDO Ejercicio 2.1 ....................................................................................... 70
Ejercicio 2.2 ...................................................................................... 70
Contenido .................................................................................................. 3 Ejercicio 3.1 ......................................................................................... 71
Presentación .............................................................................................4 Ejercicio 3.2........................................................................................ 71
Competencias........................................................................................... 6 Ejercicio 4.1 ........................................................................................72
Evaluación del aprendizaje ..................................................................... 7 Ejercicio 4.2 .......................................................................................72
Sugerencias .............................................................................................. 8 Ejercicio 5.1 ........................................................................................73
Estructura conceptual .......................................................................... 10 Ejercicio 5.2. ......................................................................................73
Términos Clave .........................................................................................11 Ejercicio 6.1 ........................................................................................ 74
Lección 1. Nociones básicas ................................................................. 12 Ejercicio 6.2.......................................................................................75
Lección 2. Estimación puntual de proporciones ............................ 28 Ejercicio 7.1 ........................................................................................75
Lección 3. Estimación puntual de la media ..................................... 30 Ejercicio 7.2 ....................................................................................... 77
Lección 4. Estimación puntual de la desviación estándar ........... 32 Ejercicio 8.1....................................................................................... 78
Lección 5. Estimación intervalar de proporciones ....................... 34 Ejercicio 8.2...................................................................................... 79
Lección 6. Estimación intervalar de la media ................................ 36 Ejercicio 9.1 ....................................................................................... 80
Lección 7. Prueba de comparación cualitativa .............................. 38 Ejercicio 9.2...................................................................................... 82
Lección 8. Prueba de comparación cuantitativa ............................ 41 Ejercicio 10.1 ..................................................................................... 83
Lección 9. Prueba de comparación cuantitativa ........................... 44 Ejercicio 10.2 .................................................................................... 85
Lección 10. Prueba de comparación cuantitativa ...........................47 Ejercicio 11.1 ....................................................................................... 87
Lección 11. Prueba de correlación cualitativa.................................. 51 Ejercicio 11.2...................................................................................... 88
Lección 12. Prueba de correlación cuantitativa ............................. 55 Ejercicio 12.1 ...................................................................................... 90
Epílogo ...................................................................................................... 59 Ejercicio 12.2..................................................................................... 93
Notación................................................................................................... 62 Ejemplo 12.3 ...................................................................................... 95
Tabla 1. Probabilidades acumuladas en la Distribución Normal . 63
Tabla 2. Fractiles para la Distribución χ2 ........................................ 64
Tabla 3. Fractiles de la Distribución T .............................................. 65
Tabla 4. Fractiles de la Distribución F .............................................. 66
Tabla 5. Valores críticos para el Coeficiente de Pearson ........... 67
Bibliografía.............................................................................................. 68
4
PRESENTACIÓN
Ante dificultades que parecen insuperables para encontrar una teoría capaz de
explicar y predecir cualquier fenómeno a partir de los datos de entrada, la física del
siglo XX presenció la confrontación de dos grandes paradigmas. Por un lado, la
relatividad aplicó modelos deterministas para explicar el macrocosmos, y por el otro
la mecánica cuántica partió de la imposibilidad de hacer predicciones deterministas
y desarrolló modelos probabilistas para explicar el microcosmos. Para las ciencias
de la conducta esto resulta importante porque nos permite ver que aun en la física,
paradigma de cualquier otra ciencia, la ciencia determinística por antonomasia, se
ha tenido que recurrir a la teoría de la probabilidad para explicar un enorme sector
de la naturaleza.
Pero, si revisamos la historia, la gran maestra de la humanidad, en el campo de las
ciencias del comportamiento ya se había aplicado el paradigma probabilista desde
el siglo anterior. A partir de los experimentos de Weber, Fechner explicó
matemáticamente la relación entre la fuerza del estímulo y la intensidad de la
sensación y formuló las primeras leyes que dan origen a la psicología científica. Lo
importante aquí es que las leyes de Weber-Fechner tienen un carácter claramente
probabilista y surgen de experimentos, no de especulaciones filosóficas. Los
Elementos de psicofísica de Fechner se publicaron en 1860. La hipótesis cuántica
de Max Planck fue formulada en 1900; el modelo cuántico del átomo fue presentado
por Niels Bohr en 1913. Las fechas son sugerentes.
La complejidad del objeto de estudio de las ciencias del comportamiento hace que
en la actualidad sea difícil encontrar teóricos que defiendan un enfoque determinista
en disciplinas como la psicología o la sociología. En consecuencia, el enfoque
probabilista es tan importante que podríamos afirmar que, hoy por hoy, las define.
En realidad, no conocemos ningún comportamiento de los organismos vivos que
pueda predecirse en forma determinista; pero sí que puede predecirse a partir de
modelos estadísticos, que necesariamente están basados en la probabilidad. De
aquí la importancia que para el estudiante de este campo tienen los métodos
matemáticos que aplican la teoría de la probabilidad a la descripción, explicación,
predicción y control del estudio del comportamiento, en particular, pero no
exclusivamente, del humano. Lo que debería quedar claro desde el principio es que
el estudio científico del comportamiento se realiza a partir de inferencias.
Esta es la razón por la que la estadística inferencial juega un papel de primera
importancia en el estudio científico de la conducta. Hoy por hoy es una de las
herramientas más importantes que tenemos para investigar el comportamiento de
los organismos vivos. Su importancia es tal que su aplicación simplemente
establece una frontera entre la opinión y el conocimiento. Su estudio, entonces,
resulta indispensable en la formación de científicos del comportamiento.
Pero el campo de la inferencia estadística es enorme y día con día se amplía aún
más. Tratar de abarcarlo por completo en un solo curso no sólo sería iluso, con
seguridad resultaría además en una empresa condenada al fracaso. Más aun, no
Estadística Inferencial en Ciencias del Comportamiento Adolfo López Suárez

5
conocemos ninguna obra publicada que se haya planteado semejante propósito. Al

final de cuentas, lo importante es que el estudiante construya los conocimientos
fundamentales, las estructuras cognitivas a partir de las que después pueda
generalizar el aprendizaje.
Entonces, tratándose de un primer curso sobre inferencia estadística en la
educación superior, de carácter necesariamente introductorio, se impone una
selección de contenidos. Todavía más, ante la enorme cantidad de condiciones que
determinan qué procedimiento es aplicable a un caso concreto, aquí seleccionamos
ejemplos pequeños y simplificados, tales que puedan ser resueltos con calculadora
de bolsillo. Sin embargo, los ejemplos que incluye el curso están diseñados para
facilitar la transferencia del aprendizaje a casos diferentes a los vistos en el curso.
Se trata de que el estudiante integre una visión panorámica de la inferencia
estadística en tres dimensiones: 1) La estimación de parámetros puntual versus la
estimación intervalar; 2) La prueba de hipótesis de comparación versus la prueba
de correlación y; 3) Las pruebas paramétricas versus las pruebas no paramétricas.
De cada dimensión se estudia un caso que consideramos representativo para el
ejercicio profesional y la investigación, a partir del cual se espera que el estudiante
amplíe su estudio hasta los límites que él mismo se marque.
La experiencia docente ha mostrado que la presentación de los métodos
inferenciales en forma no estructurada (como se observa con frecuencia) dificulta la
comprensión de la inferencia estadística a tal grado que lo más frecuente es que el
estudiante, atemorizado por que se le presentan estructuras conceptuales
innecesariamente complicadas (complicadas, precisamente, por la falta de
estructuración cognitiva), prefiera renunciar a la estadística y se refugie en
supuestos paradigmas no cuantitativos para estudiar la conducta, que en el fondo
no son más que opiniones surgidas de datos cuya validez simplemente no puede
comprobase. En consecuencia, para combatir la idea de que los razonamientos
estadísticos sólo son accesibles a sujetos con aptitudes excepcionales –idea falsa
y pedagógicamente nefasta- en este trabajo se aplica un enfoque algorítmico, que
presenta cada proceso como una secuencia de pasos que necesariamente
conducen a la correcta conclusión. En un segundo momento se proponen ejercicios
para aplicar el algoritmo, cuidando de que éstos sean representativos de casos
prácticos en la disciplina.
Se asume que la evaluación del aprendizaje será siempre mediante problemas
equivalentes a los vistos en el curso y que los exámenes se realizarán a libro abierto,
pues se trata de formar en el futuro profesional las competencias para resolver
problemas concretos, más que la capacidad de reproducir o manipular información.
Si el estudiante logra construir estructuras conceptuales algorítmicas –y tal es el
reto en este curso- entonces podrá generalizarlas consultando libros en forma
independiente. Realmente habrá aprendido a aprender.


6
COMPETENCIAS
Al término del curso el alumno:
1. Conceptualizará la estructura de la estadística inferencial.
2. Estimará proporciones en forma puntual e intervalar.
3. Estimará parámetros en forma puntual e intervalar.
4. Probará diferencias entre grupos con variables cualitativas.
5. Probará diferencias entre grupos con variables cuantitativas.
6. Probará correlación lineal con variables cualitativas.
7. Probará correlación lineal con variables cuantitativas.

7
EVALUACIÓN DEL APRENDIZAJE

1. Se sugiere no examinar la primera lección, Nociones básicas, para que todos los
exámenes puedan realizarse a libro abierto. La comprensión de los conceptos
de esta lección puede evaluarse por las respuestas a los ejercicios.
2. De acuerdo con el ámbito de la evaluación (parcial o total), para construir los
exámenes se sugiere muestrear aleatoriamente en dos etapas: 1) Selección de
unidades y; 2) Selección de lecciones.
Unidades Lecciones
Estimación puntual 2, 3 y 4
Estimación intervalar 5y6
Pruebas de comparación 7, 8, 9 y 10
Pruebas de correlación 11 y 12
3. Los ejercicios que se diseñen para el examen deben ser equivalentes (formas
paralelas) a los que se trabajaron en clase. En cualquier caso, los ejercicios
incluidos en este libro no podrán utilizarse para la evaluación.
4. Los ejercicios de examen deben diseñarse para que puedan resolverse en no
más de 20 minutos, lo que implica incluir masas de datos manejables; se
recomienda n  20. Esto implica que en algunos casos no se cumplirán las
condiciones de aplicación del algoritmo (por ejemplo, cuando la prueba exija
muestras grandes), lo cual deberá dejarse claro.
5. El puntaje de cualquier examen se calculará como el promedio ponderado de las
calificaciones asignadas a cada ejercicio conforme a la siguiente:
ESTRUCTURA DEL BANCO DE REACTIVOS
Lección Peso
2. Estimación puntual de proporciones 1
3. Estimación puntual de la media 1
4. Estimación puntual de la desviación estándar 1
5. Estimación intervalar de proporciones 2
6. Estimación intervalar de la media 2
7. Prueba de comparación cualitativa, k-grupos 4
8. Prueba de comparación cuantitativa, dos grupos dependientes 4
9. Prueba de comparación cuantitativa, dos grupos independientes 4
10. Prueba de comparación cuantitativa, k-grupos 5
11. Prueba de correlación cualitativa, clasificación 22 4
12. Prueba de correlación cuantitativa, producto de los momentos 5


8
SUGERENCIAS
1. Revise continuamente la Estructura conceptual y la Tabla de términos clave para
que vaya construyendo paulatinamente una estructura conceptual del curso.
2. Observe que en la primera lección las secciones están numeradas. Esto nos
permite dirigirnos de forma inequívoca a cualquier parte del texto. Por ejemplo, para
el nivel de significación daremos la dirección: [1: 44-46].
3. En todos los algoritmos se numeran los pasos para facilitar la secuencia y
controlar errores por omisión. Al aplicarlos conviene anotar el número de cada paso
de forma que, si se tienen dudas o se cometieron errores, pueda revisarse
sistemáticamente paso por paso.
4. Para escribir las fórmulas se utiliza una notación lineal que permite introducirlas
directamente en una calculadora común o en programas de computadora; la
estructura de paréntesis funcionará sin importar el sistema de precedencias de
cálculo que aplique el dispositivo de cálculo. Para lograr esto se utilizan paréntesis
que en unas ocasiones podrían eliminarse, pero en otras afectarían a los cálculos,
por lo que se prefirió utilizar los paréntesis necesarios para que la fórmula funcione
sin trastornos en cualquier sistema de cálculo.
5. Las tablas estadísticas necesarias para obtener valores teóricos al estimar
parámetros o probar hipótesis, se identifican con un número y se encuentran al final
de las lecciones. Las tablas están normalizadas para usarse en conjunto con el
algoritmo que las invoca. Las tablas incluyen los niveles de significación (α) más
usados. En el caso de la distribución F solo se incluye un nivel de significación
(α = 0.05). Cuando se requiera trabajar con niveles de significación que no se
incluyen, podrán encontrarse en sitios en línea, ya sea en forma tabular o bien
mediante las ecuaciones aplicables.
6. Es muy importante comprender que este material no pretende sustituir la lectura
de libros y otras fuentes documentales. En el mismo texto se hace referencia a
bibliografía especializada, cuyas fichas se presentan al final con un breve
comentario anexo. Este texto resultará realmente útil cuando impulse al alumno al
estudio independiente, buscando en diversas fuentes para obtener información,
comprender críticamente los temas de estudio y ampliarlos.
7. Conviene, lo antes posible, leer este material por completo. Con esta primera
lectura no se pretende lograr una comprensión cabal del contenido, sino más bien
integrar una visión preliminar, panorámica, que deberá ir ganando precisión
conforme se avance en el curso.
8. Posteriormente, habrá que leer a fondo el material que se discutirá en la
siguiente clase, para lo cual puede apoyarse en diccionarios técnicos, enciclopedias
y, sobre todo, en las fuentes que se refieren aquí mismo. Debe observarse que casi
cualquier libro de estadística propone lo mismo sobre un tema dado, aunque desde
luego varían los enfoques y los matices; esto ampliará la comprensión del tema. De
esta forma el alumno estará desarrollando verdaderos hábitos de estudio
independiente.

9
9. Una vez que el alumno, por sí mismo, haya estudiado el material, podrá aprove-
charse el tiempo dentro del aula para discusiones que aclaren dudas y profundicen
en los temas de interés para cada estudiante. Estaremos desterrando la exposición
rígida por parte del maestro y se podrá entrar a una auténtica dinámica de
enseñanza-aprendizaje.
10. Deben resolverse los reactivos de la Guía de evaluación que se presentan al
final de cada lección. Para ello hay que notar que también los reactivos se numeran
para que puedan contestarse por separado, identificarse por lección y confrontar las
respuestas en la sección correspondiente. De este modo el estudiante podrá
depurar sus respuestas.
Es muy importante observar que en algunos ejercicios –por ejemplo, los de la
Lección 10, AVAR- se presentan masas de datos muy pequeñas. Esto se hace con
el propósito de que los exámenes (que deben construirse con ejercicios
equivalentes) puedan ser resueltos con una calculadora de bolsillo en el menor
tiempo posible. De lo que se trata es de que el alumno demuestre competencia para
resolver los problemas y no de que sea capaz de realizar cálculos largos y
engorrosos (finalmente, de ello se ocupará la computadora en casos reales). Es
responsabilidad del maestro hacer ver esto y facilitar el tránsito al uso de la
computadora. El principio del que partimos es simple: debe pensar el alumno, el
trabajo de cálculo de deja a la máquina (llámese calculadora o computadora).
11. Pero, lo más importante, como ocurre en cualquier curso de matemáticas, es
que el alumno habrá de esforzarse en resolver los ejercicios, aun cuando tenga
dudas. Cuando posteriormente se resuelvan en el aula, podrá confrontar y corregir
sus respuestas. Esto será decisivo para su aprendizaje y para su rendimiento en los
exámenes de acreditación de la asignatura.
12. La estrategia educativa que aquí se propone se orienta al desarrollo –y, por
supuesto, a la evaluación– de competencias, por lo cual todos los reactivos implican
la solución de problemas, estrictamente del tipo presentados en cada lección. Se
sugiere permitir que el alumno pueda consultar cualquier material durante los
exámenes, pero por supuesto deberá evitarse cualquier comunicación con sus
compañeros. La corrección de los procedimientos y la comprensión del problema
deberán ser los criterios fundamentales para asignar la calificación.
13. Finalmente, en la sección Para aprender más se proponen algunas ideas y retos
para ampliar los contenidos del curso hasta el límite que marque el interés de cada
estudiante. Cuando un alumno presente eficazmente ante el grupo uno de estos
temas, podrá ganar un bono para su puntaje final.


10
ESTRUCTURA CONCEPTUAL
1. Nociones básicas
2. Proporciones
Puntual 3. Media
Estimación de parámetros 4. Desviación estándar
Intervalar 5. Proporciones
6. Media
No paramétrica 7. k-grupos
Comparación
8. Dos grupos independientes
Prueba de Paramétrica 9. Dos grupos dependientes
hipótesis 10. k-grupos
No paramétrica 11. Clasificación 22

Correlación
Paramétrica 12. Producto de momentos
Los números indican la lección en que se estudia cada prueba.



11
TÉRMINOS CLAVE
Variable
Dato Redondeo
• Puntual Ajuste de sumas
• Intervalar Tendencia
Nivel de medición Tendencia central
• Nominal Variabilidad
• Ordinal • Desviación estándar
• Intervalar • Varianza
• De razón Correlación
Estadística • Simple
• Descriptiva • Múltiple
• Inferencial • Lineal
o Paramétrica • No lineal
o No paramétrica • Coeficiente de correlación
Población o Negativo
Muestra o Neutro
Parámetro o Positivo
Estadígrafo • Predictor
Masa de datos • Criterio
• Pequeña • Dispersigrama
• Grande • Recta de tendencia
• Cualitativa • Parámetros de la recta
• Cuantitativa • Regresión
• Univariable Estimación
• Bivariable • Puntual
• Multivariable • Intervalar
Grupos Hipótesis
• Independientes • Nula
• Dependientes • Alternativa 1
Frecuencia • Alternativa 2
Distribución • De trabajo
• Empírica Nivel de significación
• Teórica Nivel de confianza
Clasificación Prueba de hipótesis
Plano coordenado • Comparación
• Abscisa • Correlación
• Ordenada • Direccionada
• Punto • No direccionada
• Nube de puntos Error de inferencia
Medida de proporción • Error 
• Porcentaje • Error 
Dígito Potencia
Cifra Eficiencia

12
LECCIÓN 1. NOCIONES BÁSICAS

Quaerite, quos agitat mundi labor 1.
Marco Anneo Lucano (39-65 n.e.)
RECORDEMOS CONCEPTOS PREVIOS

1. El estudio de la estadística inferencial supone como antecedentes directos el
estudio de tres asignaturas: la metodología científica, la estadística descriptiva y la
teoría de la probabilidad. Por ello, antes de internarnos en el campo de la inferencia
estadística, conviene que recordemos algunos conceptos que deben haberse
estudiado en cursos previos sobre estas tres disciplinas y que resultarán
indispensables para comprender realmente nuestro objeto de estudio.
2. Sabemos que la ciencia estudia propiedades de las cosas y nunca a la cosa
misma, pues tal sería un objeto de estudio de la metafísica.
3. Decimos que una propiedad es constante cuando puede asumir uno y sólo un
valor. En cambio, una propiedad es variable cuando puede asumir alguno de dos o
más valores; por eso se le llama así, porque en diferentes observaciones puede
variar su valor. En la estadística, por definición, siempre se estudian propiedades
variables.
4. La relación de variables puede asumir dos formas. La primera es la relación de
causa-efecto, que ocurre cuando podemos afirmar que una variable (la
independiente) afecta a otra (la dependiente). La segunda forma de relación es la
correlación, en la que una variable (llamada predictora) varía concomitantemente
con otra (la variable criterio). Distinguir entre ambas formas de relación resulta
fundamental para evitar conclusiones erróneas.
5. Un numeral es un símbolo de cualquier tipo, que puede o no tener sentido
cuantitativo. Cuando no lo tiene se le llama nominador; cuando tiene sentido
cuantitativo se le llama número
6. La medición es un proceso mediante el cual se asignan numerales a una
variable conforme a reglas operacionalmente establecidas.
7. Un dato es una medida de una variable.
8. Existen cuatro niveles de medición: el nominal, cuyo carácter es cualitativo, solo
permite clasificar y carece de sentido cuantitativo; el ordinal, en el que aparece el
sentido cuantitativo e incluye la propiedad de orden; el intervalar, que incluye
espacios numéricamente iguales, y; el nivel de razón, que incluye un cero absoluto
con significado empírico y se expresa como una razón a/b.
9. El método científico inicia planteando una interrogante a la que queremos dar
respuesta. Cuando la interrogante de investigación involucra una sola variable,
entonces asume la forma de una pregunta de investigación. El problema, en
cambio es una interrogante que relaciona dos o más variables.
1
Investiguen, ustedes que se afanan en conocer la naturaleza.

13
10. Conforme al marco teórico, el investigador debe plantear una solución tentativa
(y, por tanto, no probada) a la interrogante. A tal respuesta tentativa se le llama
hipótesis de investigación; más adelante distinguiremos a ésta de la hipótesis
estadística.
11. Una masa de datos es el conjunto de datos crudos, tal como se obtuvieron luego
del proceso de medición, sin aplicarles corrección o modificación alguna. La masa
de datos constituye la evidencia empírica con la que se probará la hipótesis.
12. Debemos tener claro que probar una hipótesis significa determinar su valor de
verdad, decidir si es verdadera o es falsa. Cuando, a partir de la evidencia empírica,
resulta verdadera, hemos encontrado la respuesta a la interrogante de la que
partimos; si se prueba falsa, habrá que buscar en otra dirección la respuesta a la
interrogante.
13. Una ordenación es un arreglo de la masa de datos, ya sea de menor a mayor
o viceversa. La ordenación, puesto que implica un rango de magnitudes, ya tiene
carácter cuantitativo.
14. Una distribución de frecuencias es un arreglo de una masa de datos en una
n-ada de parejas dato-frecuencia.
15. Una medida estadística es una medida de un grupo de datos.
16. Un grupo de datos puede describirse mediante las siguientes medidas
estadísticas: de proporción, de ubicación, de tendencia central, de variabilidad,
de forma y de correlación.
17. Se dice que un grupo de datos es una población (o universo) cuando contiene
las medidas del conjunto completo de elementos bajo estudio. Se dice que es una
muestra cuando constituye un subconjunto de la población.
18. La muestra puede ser extraída de la población con dos criterios básicos:
Primero, buscando los elementos que presenten ciertas características, en cuyo
caso se le llama muestreo intencionado. Segundo, extrayendo los elementos al
azar, en cuyo caso se le llama muestreo aleatorio.
19. En todo proceso estadístico inferencial la masa de datos siempre es una
muestra.
20. En la naturaleza existen fenómenos deterministas (que siempre se comportan
de la misma forma y producen uno y sólo un resultado) y fenómenos aleatorios
(cuyo comportamiento puede variar, pues ofrecen un conjunto de resultados
posibles). Las ciencias del comportamiento estudian fenómenos aleatorios.
21. Los eventos son las ocurrencias posibles de un fenómeno aleatorio. Por
ejemplo, si lanzamos al aire una moneda, existen dos eventos posibles: cara y cruz.
22. La probabilidad es la medida de la posibilidad de que ocurra un evento en
particular. La probabilidad puede medirse matemáticamente y constituye la base de
cualquier inferencia científica sobre el comportamiento de los organismos vivos.
Como ya dijimos, la teoría de la probabilidad es una de las columnas que sostiene
a la estadística inferencial y, en consecuencia, a todas las ciencias del

14
comportamiento.
23. El axioma de los límites afirma que [0 ≤ P(X) ≤ 1], donde X es un evento
cualquiera.
24. El axioma del espacio muestral afirma que [P(S) = 1], donde S es el espacio
muestral (esto es, el conjunto formado por todos y cada uno de los eventos posibles
del fenómeno aleatorio).
25. Una forma de leer la Ley de los grandes números, fundamental para la
estadística inferencial, es: Conforme aumenta el tamaño de la muestra, se reduce
el error de inferencia.
26. Una forma de leer el Teorema del límite central, que también resulta
fundamental para el estudio de la estadística inferencial, es: Al aumentar el número
de ensayos (en nuestro caso, elementos muestrales extraídos al azar) cualquier
distribución de probabilidad se aproxima a la distribución gaussiana (o normal).
LA INFERENCIA ESTADÍSTICA
27. A partir de este rudimentario marco conceptual, abordemos nuestro objeto de
estudio. En una definición general, la inferencia es un proceso cognitivo en el que
se aplican reglas lógicas bien definidas para que, a partir de proposiciones que se
consideran válidas (premisas), se obtengan proposiciones igualmente válidas
(conclusiones).
28. Es muy importante distinguir entre dos formas de inferencia2: la deducción y la
inducción. La deducción parte de premisas generales, para llegar a conclusiones
particulares. Una característica de la deducción es que, si las premisas son válidas,
entonces las conclusiones necesariamente serán válidas. El ejemplo clásico es:
“Todos los hombres son mortales; Sócrates es un hombre; por tanto, Sócrates es
mortal.” Si es cierto que todos los hombres son mortales (premisa mayor) y también
es cierto que Sócrates es un hombre (premisa menor), entonces necesariamente es
cierto que Sócrates es mortal (conclusión). Suppes y Hill [1979: 44] expresan esta
idea como un axioma lógico: “de premisas verdaderas se obtienen sólo
conclusiones que son verdaderas”.
29. Pero esto no ocurre con la inducción. Aunque todas las premisas de que
dispongamos sean verdaderas, no puede asegurarse en forma determinista que no
pueda llegar a encontrarse una premisa que contradiga a las ya conocidas e invalide
así la conclusión. Es famoso el ejemplo que ofrece Popper3 [2008], quien observó
que en Europa se aceptaba que todos los cisnes son blancos, pues no se conocían
especímenes de otro color; sin embargo, más tarde descubrió que en Australia
existen (aunque son raros) cisnes negros, con lo cual la proposición “Todos los
cisnes son blancos” se demostró falsa.
Sin embargo, lo que aquí nos interesa es que, aun cuando en términos
rigurosamente lógicos la proposición “Todos los cisnes son blancos” es falsa, puede
2
De hecho, existen cuatro formas generales de inferencia: deducción, inducción, abducción y analogía. Pero
aquí solo nos interesan las dos primeras.
3
Karl Raimund Popper, epistemólogo vienés nacido en 1902 y muerto en 1994. Fue uno de los teóricos más
influyentes en la epistemología científica del siglo XX.

15
plantearse una proposición probabilista de gran valor científico: “La probabilidad de

encontrar un cisne que no sea blanco en muy reducida”. Veremos que esta es la
base de la inferencia estadística y, lo que para nosotros es mucho más importante,
de las ciencias del comportamiento.
30. En la inferencia estadística, la masa de datos siempre es una muestra y
constituye la premisa de la que se parte para poder llegar a las conclusiones sobre
la población de la que fue extraída la muestra.
31. Ahora podemos definir formalmente a la inferencia estadística como una
modalidad de inducción mediante la cual, a partir de las características conocidas
de la muestra (casos particulares), llegamos a determinar las características
desconocidas de la población (caso general) de la que fue extraída dicha muestra.
De eso se encarga la estadística inferencial: de inferir las características
desconocidas de la población, partiendo de las características conocidas de la
muestra. Para diferenciarla de la estadística descriptiva, recordemos que ésta se
ocupa del conocimiento de un grupo de datos (generalmente, una muestra), a través
de ordenaciones, distribuciones de frecuencias, gráficas y medidas de estadísticas.
32. Recordemos también que cuando una medida estadística es obtenida de la
muestra se le llama estadígrafo y cuando corresponde a la población es llamada
parámetro.
33. De lo anterior se deduce que las conclusiones obtenidas de una inferencia son
aplicables a la población bajo estudio, y solamente a ella. A esta regla se le conoce
como el límite de la inferencia o poder de inferencia.
Fig. 1.1. La inferencia estadística
Parámetros Población
Inferencia
Muestreo
estadística
Descripción
Estadígrafos Muestra estadística
DOS FORMAS DE INFERENCIA

34. Debemos distinguir dos formas generales de inferencia estadística: la estimación
de parámetros y la prueba de hipótesis.
35. Estimación de parámetros. Cuando obtenemos muestras para estudiar una
población, las muestras no son más que un medio, lo que realmente nos interesa
es conocer a la población. Pero, si quisiéramos conocer por completo a la población
tendríamos que medir todos y cada uno de sus elementos, lo que en muchos casos
no es viable en la práctica (piénsese, por ejemplo, en la población de electores en
México, que en 2018 casi alcanzó los 90 millones de elementos) y en otros casos

16
es simplemente imposible (piénsese en poblaciones que en estudios concretos

deben considerarse infinitas, como los clientes que en una fecha futura pasarán por
la caja de un supermercado o los vehículos que pasarán por cierto punto en una
carretera). Por tanto, en estudios inferenciales debemos aceptar que nunca
conoceremos completamente a la población. Lo más que podemos conocer, y sólo
aproximadamente, es la forma en que se distribuye (binomial, normal, sesgada,
leptocúrtica, etc.).
Si no podemos conocer a la población completa, tampoco podremos medir
directamente sus parámetros. Para acercarnos a su conocimiento, tendremos que
estimarlos. La estimación consiste en inferir las medidas estadísticas de la
población (esto es, los parámetros) –que son desconocidos- a partir de las medidas
estadísticas obtenidas de la muestra (los estadígrafos), que es lo único que
podemos conocer empíricamente.
36. Cuando el parámetro se estima como un punto en la recta numérica, esto es,
como un valor individual, se llama estimación puntual.
37. Cuando se establece una probabilidad (veremos que este es el nivel de
confianza) y en función de ella se calcula un intervalo dentro del cual se ubicará el
parámetro, entonces se llama estimación intervalar.
38. Desde luego, existen métodos para inferir cualquier parámetro, pero los más
usuales son las proporciones cuando tenemos variables cualitativas; cuando las
variables son cuantitativas los parámetros más usuales son la media (para conocer
la tendencia central) y la desviación estándar (para la variabilidad). En este curso
solo estudiaremos la estimación de estos parámetros.
39. La segunda forma de inferencia es la prueba de hipótesis, que es un
procedimiento inferencial que consiste en plantear las hipótesis estadísticas
capaces de responder a una interrogante de investigación y en determinar, en
función de los datos muestrales, cuál de ellas se debe aceptar como verdadera.
40. A las hipótesis estadísticas también se les llama hipótesis operativas o
hipótesis de prueba, precisamente porque son éstas las que se someten a prueba
con los datos empíricos, y deben distinguirse de la hipótesis de investigación cuyo
carácter es metodológico.
41. Para evitar confusiones, conviene mencionar algunos sinónimos con que los
autores se refieren a la prueba de hipótesis: ensayo de hipótesis, docimasia de
hipótesis o contraste de hipótesis.
42. Debemos identificar dos formas generales de la prueba de hipótesis:
a) Cuando las interrogantes de investigación involucran diferencias, entonces
se aplican las pruebas de comparación.
b) Cuando en las interrogantes de investigación están involucradas relaciones
concomitantes entre variables, esto es, cuando se busca asociación,
entonces procede aplicar las pruebas de correlación.
43. Ahora, cuando se hacen pruebas de comparación, deben distinguirse dos casos:
a) Cuando se trabaja con un sólo grupo de sujetos, típicamente en un diseño
pretest-postest, a los grupos de datos en ambas mediciones se les llama

17
grupos dependientes.
b) Cuando se trabaja comparando datos correspondientes a dos grupos
formados por sujetos diferentes, se les llama grupos independientes.
Fig. 1.2. Formas de inferencia estadística

Puntual
Estimación de parámetros
Intervalar
Inferencia estadística
Comparación
Prueba de hipótesis
Correlación
EL NIVEL DE SIGNIFICACIÓN
44. Pero aquí conviene recordar que las ciencias del comportamiento tienen una
naturaleza probabilista y no determinista. Esto implica que las conclusiones
obtenidas de una inferencia estadística siempre tienen una probabilidad de acierto
y otra probabilidad de error. Quizá esta sea la característica de mayor complejidad
en las ciencias de la conducta.
El nivel de significación es la probabilidad máxima de que sean falsas las
conclusiones obtenidas de una inferencia estadística.
A su complemento, la probabilidad de que las conclusiones sean verdaderas, se le
llama nivel de confianza.
45. En una prueba estadística, siempre que sea posible, conviene establecer
primero el nivel de significación. Al terminar la prueba, la conclusión debe plantearse
en términos del nivel de confianza.
46. Definamos estos conceptos en términos matemáticos. La teoría de la
probabilidad plantea que el espacio muestral de la conclusión obtenida de una
inferencia estadística está dado por:
Sea
S ≡ Espacio muestral,
c ≡ Nivel de confianza, la probabilidad de la conclusión sea cierta,
α ≡ Nivel de error, la probabilidad de que la conclusión sea falsa,
entonces
S = {c, α}, el espacio muestral de la veracidad de la conclusión.
Ahora, por el axioma del espacio muestral sabemos que
P(S) = 1
por lo que
i) c + α = 1
ii) c = 1 - α
iii) α = 1 - c

18
Este sencillo juego de ecuaciones constituye la base del análisis de decisiones en

una prueba estadística, por lo que resulta fundamental que se entienda con claridad,
Significa que cualquier conclusión obtenida de una inferencia estadística tiene una
probabilidad de ser falsa. Pero lo realmente importante es que podemos medir dicha
probabilidad y decidir si resulta aceptable para tomar decisiones; esto es, podemos
medir el riesgo de tomar una decisión errónea.
La cuestión, entonces, consiste en asignar un valor al nivel de significación α, lo que
implica establecer la probabilidad de error que resulta aceptable en una conclusión.
En ciencias del comportamiento el valor comúnmente aceptado es α = 0.05. Este
valor se ha vuelto tan común que ha llegado a aceptarse sin discusión, pero no tiene
que ser así. En Cowles y Davis [1982] se encuentra un estudio que ayuda a
comprender el origen y significado de esta práctica. En términos estrictos, el nivel
de significación es una probabilidad determinada matemáticamente por los datos
muestrales de los que se parte para realizar la inferencia; en consecuencia puede
asumir cualquier valor.
LA PRUEBA DE HIPÓTESIS
47. Las hipótesis estadísticas son un juego de proposiciones mutuamente
excluyentes que constituyen todas las posibles respuestas a una interrogante
estadística. Para comprender cabalmente la naturaleza de las hipótesis
estadísticas, veamos cuáles son sus características:
a) Como toda hipótesis, las hipótesis estadísticas son suposiciones tentativas y
no probadas que pueden ser verdaderas o falsas. Se realiza investigación para
obtener evidencia empírica (esto es, una masa de datos) que nos permita
someterlas a prueba para determinar su valor de verdad.
b) Ya recordamos que en la estadística inferencial los datos constituyen
muestras. Pues bien, conviene repetir que, para realizar la inferencia, las
hipótesis estadísticas siempre deben hacer afirmaciones sobre la población.
c) Aquí debe quedar clara la diferencia entre la hipótesis de investigación (que
surge del marco teórico) y las hipótesis estadísticas (que se derivan de aquella
y se prueban con la masa de datos). La hipótesis de investigación hace
suposiciones generales que casi nunca pueden probarse con un solo análisis,
sino que pueden requerir que se planteen y prueben varias veces hipótesis
estadísticas, lo que implica la necesidad de realizar numerosos análisis. Por
su parte, las hipótesis estadísticas hacen afirmaciones precisas que pueden
probarse sin ambigüedad a partir de los datos disponibles; por esto a veces se
les llama hipótesis operacionales.
48. El juego de hipótesis estadísticas se forma por:
La hipótesis nula (H0), que afirma -como su nombre lo indica- que no existe aquello
que se prueba. En una prueba de comparación, la hipótesis nula afirma que no
existirán diferencias; cuando se prueba asociación, la hipótesis nula afirma que no
existirá correlación.
La hipótesis alternativa (Hi), que supone lo contrario a la nula. Veremos que puede
haber más de una hipótesis alternativa.
49. En cualquier prueba de hipótesis siempre se decide en primer término sobre la

19
hipótesis nula. Cuando H0 se acepta, se concluye que no existe lo que se estaba

probando y ahí termina el proceso de prueba de hipótesis; cuando no se acepta,
entonces se procede a analizar la hipótesis alternativa (precisamente por eso se le
llama alternativa).
50. Para terminar de comprender la hipótesis alternativa, debemos distinguir entre
dos tipos de pruebas de hipótesis:
Prueba direccionada, también llamada prueba de una cola, que permite decidir
sobre la dirección de las diferencias y entonces se plantean dos hipótesis
alternativas [Runyon y Haber: 205, 425] que asumen la siguiente forma general:
a) En pruebas de comparación:
H1: G1 > G2
H2: G1 < G2
b) En pruebas de asociación:
H1: r > 0
H2: r < 0
Prueba no direccionada, también llamada prueba de dos colas, sólo permite
afirmar que existen diferencias, pero no puede indicar su dirección. En este caso
sólo se plantea una hipótesis alternativa:
a) En pruebas de comparación:
H1: G1  G2
b) En pruebas de asociación:
H1: r  0
51. Para resumir el planteamiento de hipótesis estadísticas, veremos los dos casos
que hemos discutido:
Prueba de comparación. Interesa probar diferencias entre dos grupos: G1 y G2:
Hipótesis nula Hipótesis alternativas
H1: G1 > G2
Prueba direccionada H0: G1 = G2
H2: G1 < G2
Prueba no direccionada H0: G1 = G2 H1: G1  G2
Prueba de asociación. Interesa probar asociación entre dos variables:
Hipótesis nula Hipótesis alternativas
H1: r > 0
Prueba direccionada H0: r = 0
H2: r < 0
Prueba no direccionada H0: r = 0 H1: r  0
52. El valor del nivel de significación es afectado por el hecho de que la prueba sea
o no direccionada. Cuando no se señala dirección para la hipótesis alternativa,
implica que puede estar en cualquiera de los dos extremos, y por tanto deberá
probarse con la mitad del nivel de significación [Winkler y Hays, 1975: 435-439;
Johnson: 224-231]. Esto es:
Probar con
Prueba direccionada α
Prueba no direccionada α/2

20
Lo que deberá tenerse en cuenta al realizar una prueba de hipótesis. Sin embargo,
debe observarse que esta condición debe considerarla el algoritmo con el que se
trabaje.
INFERENCIA PARAMÉTRICA E INFERENCIA NO PARAMÉTRICA
53. Ahora debemos distinguir entre dos tipos de pruebas de hipótesis: las pruebas
paramétricas y las pruebas no paramétricas. Cada tipo parte de suposiciones
diferentes y, en consecuencia, tiene aplicaciones diferentes.
Las pruebas paramétricas se llaman así porque utilizan estadígrafos (muestrales)
para realizar la inferencia hacia sus correspondientes parámetros (poblacionales).
En términos estrictos, para aplicar una prueba paramétrica deben cumplirse las
siguientes suposiciones [Siegel, 1980]:
a) La variable se midió en el nivel intervalar o superior.
b) El muestreo fue aleatorio.
c) La muestra es suficientemente grande (conforme a la Ley de los grandes
números).
d) Lo más común es suponer que la variable de interés se distribuye normalmente
en la población. En caso de que no sea así, debemos conocer la forma en que
se distribuye.
e) Cuando sólo se involucra una variable, conocemos (al menos por estimación)
su varianza.
f) Cuando se involucran dos o más variables, existe homocedasticidad entre
ambas, esto es, las varianzas son iguales.
54. Las pruebas no paramétricas, en cambio, no utilizan parámetros, sino que
realizan la inferencia directamente a partir de la masa de datos. En consecuencia,
no cumplen ninguna de las condiciones de las pruebas paramétricas. En particular:
a) Aceptan que la variable se haya medido en cualquier nivel, incluso en el
nominal.
b) No se hace suposición alguna sobre la forma de distribución de la población,
por lo que a veces se les llama pruebas de distribución libre.
c) El tamaño de la muestra no es crítico y por ello también se les llama pruebas
de pequeñas muestras.
Veremos más adelante que esta clasificación resulta fundamental para elegir una
prueba estadística.
CONTROL DE VERDAD EN LA PRUEBA DE HIPÓTESIS
55. Hemos insistido en que siempre existe el riesgo de error cuando se prueban
hipótesis y en que lo importante es entender que podemos identificar los errores
posibles y medirlos. Además, debemos recordar que lo que realmente se prueba es
la hipótesis nula. Entonces podemos construir una tabla de verdad para identificar
los errores que pueden cometerse [cf. Méndez, 1976: 87-101; Johnson, 1979: 219-
231; Winkler y Hays, 1975: 402-470].
Situación real
H0 es verdadera H0 es falsa
Decisión Se aceptó H0 ACIERTO ERROR TIPO II ()
tomada Se rechazó H0 ERROR TIPO I (α) ACIERTO

21
56. Resulta claro que acertamos cuando aceptamos una proposición que es
verdadera, y también cuando rechazamos una que es falsa. Pero es más importante
analizar los errores y aprender cómo medirlos y controlarlos en lo posible.
57. El Error de tipo I (α) consiste en rechazar H0 cuando es verdadera. Este error
es precisamente el nivel de significación, que ya analizamos arriba. Sin duda, este
es el tipo de error más grave y al que mayor atención debemos prestar, ya que
rechazar la hipótesis nula nos conduce necesariamente a aceptar la hipótesis
alternativa, es decir, a afirmar que existe lo que estamos probando. En otras
palabras, cuando rechazamos H0 siendo verdadera, estaremos afirmando una
relación espuria. A este error se le conoce como falso positivo.
58. El Error de tipo II () consiste en aceptar H0 siendo esta falsa. Cuando
cometemos este tipo de error afirmamos que no existe lo que se está probando,
aunque realmente sí existe; esto nos conduce a desperdiciar la información que nos
ofrecen los datos para decidir. Las pruebas de hipótesis están diseñadas para
controlar este tipo de error, que indica su potencia, como veremos más adelante. A
este error se le conoce como falso negativo.
59. ¿Pero por qué el error α es el que más debe preocuparnos al realizar una prueba
de hipótesis? La respuesta es compleja, pues se aleja de la matemática
propiamente dicha e incursiona en el campo de la filosofía. Tratemos de contestar
con una analogía. Si estamos juzgando a un acusado por un delito que se castiga
con la pena de muerte, ¿qué es más grave: condenarlo siendo inocente (error α) o
perdonarlo siendo culpable (error )?
En principio, debe suponerse inocencia hasta demostrar lo contrario, lo que implica
que H0 (no hay culpabilidad) se presume cierta hasta que los datos demuestren lo
contrario. Este, por cierto, es un principio axiológico aceptado universalmente: nadie
está obligado a probar su inocencia, es el que acusa quien debe soportar la carga
de la prueba. A tratar de probar la propia inocencia se le ha llamado la prueba del
diablo. En el campo de la inferencia estadística, el investigador parte del principio
de que no existe la relación que está buscando, y debe demostrar lo contrario con
datos.
El error α consistiría en rechazar H0 siendo verdadera. Es decir, afirmaríamos la
culpabilidad del acusado (lo que implica condenarlo a muerte), siendo éste
realmente inocente. En este caso estaríamos cometiendo una injusticia al castigar
a un inocente. En una prueba estadística, estaríamos afirmando una relación
inexistente: aceptaríamos una relación espuria.
El error  consistiría en aceptar H0 siendo falsa; es decir, aceptaríamos la inocencia
del acusado cuando realmente es culpable. Aquí estaríamos ante el caso de
perdonar a un culpable: se dejaría de hacer justicia. En una prueba estadística
dejaríamos de encontrar una relación que existe, lo que es un desperdicio de datos.
Es claro que en los dos casos estamos ante un error, pero el error α debe
preocuparnos más que el error , porque se considera más grave castigar a un
inocente que perdonar a un culpable. En el campo de la axiología, se ha dicho que
es preferible perdonar a diez culpables antes que castigar a un solo inocente. En

22
términos de la inferencia estadística, es más grave aceptar una relación que no

existe (error α), que rechazar una relación que realmente existe (error ). En la
investigación científica se considera que siempre es más grave aceptar relaciones
espurias que despreciar relaciones que realmente existen.
Veamos ahora cómo medir ambos riesgos.
POTENCIA
60. Ya sabemos que al probar una hipótesis lo que más debe preocuparnos es
rechazar H0 cuando es verdadera (Error tipo I) y que α es la medida de la
probabilidad de cometer este error. Ahora preguntémonos por el Error tipo II, es
decir, por aceptar H0 cuando es falsa, cuya probabilidad es .
61. La potencia de una prueba se define como su capacidad para rechazar H0
cuando es falsa, esto es, para controlar el error . Nuevamente, la potencia es
realmente una probabilidad y, por tanto, aplicando el axioma del espacio muestral
tenemos que:
Potencia = 1 - .
Esto es, la potencia mide la capacidad de una prueba de hipótesis para acertar
rechazando H0 cuando es falsa. En consecuencia, la potencia es una medida de la
capacidad de la prueba para hallar relaciones.
62. En otras palabras, la potencia es la medida de la capacidad que tiene una prueba
para aprovechar los datos, encontrar en ellos la relación que busca el investigador
y en consecuencia rechazar H0.
EFICIENCIA
63. Como ya vimos al analizar las pruebas paramétricas y las no paramétricas, la
potencia de una prueba depende fundamentalmente del tamaño de la muestra. El
nivel de significación (α) está directamente correlacionado con el tamaño del error
de muestreo (e).
64. Por otra parte, la eficiencia es el complemento conceptual de la potencia. Para
comprender el concepto de eficiencia debemos recordar que realizar un estudio
estadístico inferencial implica necesariamente la existencia de una muestra. Ahora,
conforme aumenta el tamaño de la muestra (n), es claro que aumentará su costo.
De hecho, el tamaño de la muestra es el indicador más utilizado para calcular el
costo de un estudio estadístico.
65. Ahora podemos definir la eficiencia. Sean T1 y T2 dos pruebas estadísticas que
demostraron igual potencia, para lo que requirieron n1 y n2 tamaños de muestra
respectivamente, entonces:
Eficiencia(T1) > Eficiencia(T2) si, y sólo si n1 < n2.
En términos llanos, esto se debe a que, manteniendo constante la potencia, la
primera prueba requirió un menor gasto en el muestreo.
Es claro, entonces, que la potencia mide la capacidad de una prueba para rechazar
acertadamente H0, mientras que la eficiencia mide el costo (en términos del tamaño
de la muestra) que implicó el proceso.
66. La eficiencia depende principalmente del tamaño de la muestra: una prueba

23
estadística será más eficiente en la medida en que pueda lograr el rechazo de H 0

cuando es falsa, con muestras lo más pequeñas posible. Debemos observar que
precisamente ese es el concepto general de eficiencia: lograr el objetivo, que aquí
consiste en hallar relaciones, lo que implica rechazar H0, al menor costo posible
POTENCIA-EFICIENCIA
67. ¿Qué debe preocuparnos más al seleccionar una prueba de hipótesis, la
potencia o la eficiencia? Esta pregunta plantea un falso dilema, pues tanto la
potencia como la eficiencia son importantes: la primera nos permite lograr el objetivo
y la segunda nos permite abatir costos.
68. Lo que debemos buscar es una relación potencia-eficiencia que nos permita
seleccionar la mejor prueba, definida como aquella que mantiene la potencia al
menor costo.
69. Evaluar la relación potencia-eficiencia de las pruebas estadísticas supone la
aplicación de estudios de simulación que rebasan con mucho los límites de este
trabajo. En Cristo [2001] puede encontrarse un buen estudio monográfico sobre el
tema.
70. La importancia de las pruebas no paramétricas reside en su eficiencia, ya que
permiten rechazar H0 con tamaños muestrales muy pequeños. De hecho, Steel y
Torrie [1997] encontraron que la mayor eficiencia en pruebas no paramétricas se
alcanza con n ≤ 10 y decrece conforme el tamaño de la muestra aumenta. Sin
embargo, como ya se apuntó, su potencia es menor que la de las pruebas
paramétricas. Encontramos que no existe la felicidad completa.
CRITERIOS DE SELECCIÓN DE UNA PRUEBA ESTADÍSTICA
71. Ahora podemos resumir los criterios que pueden aplicarse para seleccionar una
prueba estadística. Comencemos por la clasificación paramétrica versus no
paramétrica:
Pruebas paramétricas Pruebas no paramétricas
Nivel de medición Ordinal o superior Desde nominal
Tipo de muestreo Necesariamente aleatorio Preferentemente aleatorio
Tamaño de la muestra Preferentemente grande Preferentemente pequeño
Distribución de la población Normal o conocida Desconocido
Varianza en una variable Conocida Desconocida
Varianza en dos variables Homocedasticidad Desconocida
72. Respecto a su potencia y eficiencia:
Pruebas paramétricas Pruebas no paramétricas
Potencia Mayor Menor
Eficiencia Menor Mayor
73. En cuanto al nivel de medición, podemos ver ejemplos de pruebas aplicables:

24
Pruebas de hipótesis
Estimación de parámetros Comparación Correlación
Nivel nominal Proporciones Chi-cuadrada Coeficiente de Kendall
Nivel ordinal Mediana Mediana combinada Coeficiente de Spearman
Nivel intervalar Media
t-student Coeficiente de Pearson
Nivel de razón Desviación estándar
Debemos reiterar que éstos no son más que ejemplos. Habría que agregar otras
dimensiones de clasificación, como el tipo de parámetro involucrado (proporción,
ubicación, tendencia central, etc.) o el número de variables que intervienen en la
relación (lineal o no lineal), pero entonces el análisis resultaría excesivamente
extenso.
Para un estudio específico, deben revisarse las pruebas aplicables para decidir cuál
es la mejor en términos de su potencia-eficiencia.
74. Concluiremos esta lección analizando los pasos generales del proceso
estadístico inferencial para estimar parámetros y para probar hipótesis. En las
siguientes lecciones se verá el algoritmo específico de cada prueba.
ALGORITMO GENERAL PARA LA ESTIMACIÓN DE PARÁMETROS
75. Elementos de entrada. Antes de iniciar la estimación se debe tener claro:
a) El marco teórico de la investigación.
b) La pregunta de investigación.
c) La hipótesis de investigación que se quiere probar.
d) La definición operacional de la variable.
e) La forma en que fue obtenida la muestra.
f) La masa de datos.
76. A partir de esta información podrá iniciar el proceso de estimación de
parámetros.
COMIENZA
PASO 1. Seleccionar el parámetro. Debemos elegir el parámetro que necesitamos
inferir para contestar la interrogante de investigación.
PASO 2. Calcular el estadígrafo. A partir de la masa de datos de la muestra, calcular
el estadígrafo correspondiente.
PASO 3. Establecer α. Establecer el nivel de significación a partir de la forma en que
fue obtenida la muestra.
PASO 4. Decidir la forma de estimación. Conforme al marco teórico, la interrogante,
la hipótesis de trabajo y la definición operacional de la variable, decidir si se
realizará una estimación puntual o intervalar.
PASO 5. Estimar el parámetro. Calcular el estimador del parámetro utilizando el
estadígrafo y aplicando la fórmula adecuada.
PASO 6. Concluir. Presentar el parámetro estimado indicando el nivel de confianza.
TERMINA

25
ALGORITMO GENERAL PARA LA PRUEBA DE HIPÓTESIS

77. Elementos de entrada. Antes de iniciar un proceso inferencial se debe tener
claro:
a) El marco teórico de la investigación.
b) El problema que se está investigando.
c) La hipótesis de investigación que se quiere probar.
d) La definición operacional de las variables.
e) La forma en que fue obtenida la muestra.
f) La masa de datos.
78. A partir de esta información podrá iniciar el proceso de prueba de hipótesis.
COMIENZa
PASO 1. Plantear las hipótesis estadísticas. Conforme al marco teórico, la
interrogante, la hipótesis de trabajo y la definición operacional de las variables,
decidir si se realizará una prueba direccionada o no direccionada y proceder a
plantear el juego de hipótesis operacionales.
PASO 2. Seleccionar la prueba. Conforme a la definición operacional de variables y
a la forma en que fue obtenida la muestra, elegir la prueba de hipótesis que
debemos aplicar.
PASO 3. Especificar α. Establecer el nivel de significación a partir de la forma en que
fue obtenida la muestra.
PASO 4. Identificar el valor teórico. Buscar en tablas o calcular el valor crítico de
prueba.
PASO 5. Calcular el valor empírico. Aplicar la fórmula o procedimiento para calcular
el estadístico de prueba a partir de la masa de datos.
PASO 6. Decidir. Aplicar la regla de decisión para contrastar el valor teórico contra el
valor empírico y decidir sobre H0. En caso de que H0 sea aceptada, proceder al
Paso 7; si H0 es rechazada se procede a decidir sobre las hipótesis alternativas,
según se trate de una prueba direccionada o no direccionada.
PASO 7. Concluir. Indicando la hipótesis que fue aceptada y el nivel de confianza
aplicable.
TERMINA
*
En las siguientes lecciones veremos varios casos de estimación de parámetros y de
prueba de hipótesis, pero desde aquí debemos tener clara la lógica de los
procedimientos generales.

GUÍA DE EVALUACIÓN
1. Defina la inferencia como un proceso lógico.
2. Defina la inferencia estadística.

26
3. En la inferencia lógica, cuando se parte de premisas verdaderas, ¿es posible

llegar a conclusiones falsas? Justifique su respuesta.
4. ¿Cuál es la premisa para que una inferencia estadística sea válida?
5. ¿Qué es el límite de inferencia?
6. Proponga un ejemplo en el que se viole el límite de inferencia.
7. En la inferencia estadística, cuando se parte de una muestra válida, ¿es posible
llegar a conclusiones falsas? Justifique su repuesta.
8. ¿Qué es la estimación de parámetros?
9. ¿Qué es una estimación puntual?
10.¿Qué es una estimación intervalar?
11.¿Qué es una prueba de hipótesis?
12.Escriba tres sinónimos de prueba de hipótesis.
13.¿Qué es una prueba de comparación?
14.¿Qué es una prueba de correlación?
15.¿Qué es el nivel de significación?
16.Explique la relación entre el nivel de significación y el nivel de confianza.
17.¿Cómo se aplica el nivel de significación en las conclusiones de una prueba de
hipótesis?
18.¿Qué son las hipótesis estadísticas?
19.¿Las hipótesis estadísticas se plantean en términos de la muestra o de la
población? Justifique su respuesta.
20.Explique la diferencia entre hipótesis de investigación e hipótesis estadísticas.
21.¿Cómo se plantea el juego de hipótesis en una prueba direccionada de
comparación?
22.¿Cómo se plantea el juego de hipótesis en una prueba direccionada de
correlación?
23.¿Cómo se plantea el juego de hipótesis en una prueba no direccionada de
comparación?
24.¿Cómo se plantea el juego de hipótesis en una prueba no direccionada de
correlación?
25.¿Cómo se comporta α en una prueba no direccionada?
26.¿Cómo se comporta α en una prueba direccionada?
27.¿Qué es una prueba paramétrica?
28.¿Qué es una prueba no paramétrica?
29.¿Cuándo se aplican las pruebas paramétricas?
30.¿Cuándo se aplican las no pruebas paramétricas?
31.¿Cuándo ocurre el Error tipo I o α?
32.¿Cuándo ocurre el Error tipo II o β?
33.¿Cuál de los dos posibles errores es más grave? Justifique su respuesta.
34.¿En qué consiste la potencia de una prueba?
35.¿Cómo se obtiene la potencia de una prueba?
36.¿En qué consiste la eficiencia de una prueba?
37.¿Cómo se obtiene la eficiencia de una prueba?
38.¿Qué debe preocuparnos más al seleccionar una prueba de hipótesis, la
potencia o la eficiencia? Justifique su respuesta.
39.¿Cómo podemos conocer la relación potencia-eficiencia para elegir entre dos
pruebas?

27
40.¿Cómo decidir si hemos de aplicar una prueba paramétrica o una no

paramétrica?
41.¿Cuáles son los elementos de entrada a un proceso de estimación de
parámetros?
42.¿Cuáles son los pasos para estimar parámetros?
43.¿Cuáles son los elementos de entrada a un proceso de prueba de hipótesis?
44.¿Cuáles son los pasos para una prueba de hipótesis?

PARA APRENDER MÁS
1. Elabore un mapa conceptual que indique las relaciones entre la metodología en
ciencias del comportamiento, la estadística descriptiva, la teoría de la
probabilidad y la estadística inferencial. Distinga cuando las relaciones estén o
no direccionadas.
2. Presente los cuatro tipos de inferencia lógica y explique cada uno.
3. En la inferencia lógica se parte del supuesto de que “de premisas verdaderas se
obtienen sólo conclusiones que son verdaderas”. Demuestre que esto solo es
válido en el caso de la deducción.
4. En la estadística inferencial aplica la inducción. En el campo de la metodología
en ciencias del comportamiento, en particular en la captura de datos, se plantea
“basura entra, basura sale”. Relacione ambas ideas.
5. Explique la forma en que aplica la Ley de los grandes números a los conceptos
de error muestral y nivel de significación.
6. Seleccione una prueba de correlación aplicable a cada nivel de medición e
indique las condiciones de aplicación de cada una de las cuatro pruebas.


28
LECCIÓN 2. ESTIMACIÓN PUNTUAL DE

PROPORCIONES
Las proporciones son muy utilizadas en investigaciones en las que lo importante es

establecer el tamaño relativo de una parte (o estrato) a con respecto al tamaño del
conjunto completo de tamaño b. Las proporciones se calculan directamente como
coeficientes decimales para facilitar las operaciones, pero basta multiplicarlas por
100 para obtener porcentajes, que suelen ser más utilizadas en aplicaciones
prácticas para facilitar su comprensión. Las proporciones puntuales asumen un sólo
valor.
OBJETIVO
Encontrar el valor puntual esperado más razonable de una proporción poblacional,
a partir de una distribución de frecuencias observadas en una muestra
representativa de la población bajo estudio.
CONDICIONES DE APLICACIÓN
1. Se trabaja con variables medidas en el nivel nominal, o transformadas a él. En
consecuencia, la variable tiene definido un conjunto numeral con k categorías (que
constituyen los estratos).
2. Se dispone de una distribución de frecuencias para las k categorías.
3. La distribución de frecuencias se obtuvo a partir de una muestra representativa
con e error muestral.
ALGORITMO
COMIENZA
PASO 1. Establecer el error muestral e.
PASO 2. Construir la distribución de proporciones a partir de la distribución de
frecuencias.
PASO 3. Realizar la estimación:
Sea
p ≡ Proporción en la muestra (estadígrafo)
P ≡ Proporción en la población (parámetro)
entonces, puesto que en las proporciones el estadígrafo es un estimador
insesgado de su correspondiente parámetro, tenemos que
p = P.
PASO 4. Concluir con el nivel de confianza de 1-e.
TERMINA

EJERCICIOS
2.1. Se realizó una encuesta sobre aceptación de una decisión de gobierno con un

29
error muestral del 7% y se encontró que:

Categoría Frecuencia
Aceptación 847
Indeciso 321
Rechazo 1,354
Estime la proporción de la población que acepta la decisión de gobierno.
2.2. En una encuesta de preferencia electoral, realizada con un margen de error del
5%, se obtuvieron los siguientes resultados:
Declaración Frecuencia
Partido A 319
Partido B 845
Partido C 143
Abstención 201
Estime la proporción de la votación que se espera para el Partido B.

PARA APRENDER MÁS
1. Demuestre que en una muestra representativa la proporción de un estrato
muestral es igual a la correspondiente a su estrato poblacional.
2. Demuestre que los ejemplos propuestos en esta lección involucran variables
medidas a nivel nominal y, por tanto, no tienen un carácter cuantitativo.
3. Demuestre que el algoritmo presentado en esta lección es aplicable a cualquier
nivel de medición.
4. Discuta la relación entre proporción y probabilidad.
5. Toda distribución de probabilidades es una distribución de proporciones, y
viceversa. Analice esta proposición.


30
LECCIÓN 3. ESTIMACIÓN PUNTUAL DE LA MEDIA

Sabemos que la media aritmética es la medida de tendencia central más estable, y
por ello la más utilizada cuando se trata de conocer a una población mediante sus
parámetros. La estimación puntual de la media es muy similar a la que ya vimos
para proporciones. El cálculo de la media supone variables cuantitativas, medidas
en el nivel ordinal o superior.
OBJETIVO
Encontrar el valor puntual esperado más razonable de una media poblacional, a
partir de una media calculada en una muestra representativa de la población bajo
estudio.
1. Se trabaja con variables cuantitativas, medidas en el nivel ordinal o superior.
2. Se dispone del valor de la media muestral.
3. La media muestral se obtuvo a partir de una muestra representativa con e error
muestral.
ALGORITMO
COMIENZA
PASO 1. Establecer el error muestral e.
PASO 2. Obtener la media muestral:
Sea
≡ Media muestral (estadígrafo).
Sea
μ ≡ Media poblacional (parámetro)
en este caso también estamos ante un estimador insesgado, por lo que
μ=
TERMINA

EJERCICIOS
3.1. Para estimar el cociente de memoria de cierta población, se tomó una muestra
representativa al 93%, integrada por 34 sujetos. Se encontró una media muestral
de 88.26. Realice la estimación puntual de la media poblacional.
3.2. Se estudió una muestra representativa integrada por 58 sujetos, con un error
del 4%, de cierto sector urbano para estimar su nivel de ingresos en términos de
salarios mínimos por día. Se obtuvo una media muestral de 6.21. Realice la
estimación puntual de la media poblacional.

31

PARA APRENDER MÁS
1. Sabemos que existen varios tipos de medias. ¿Cómo se estimará la media
ponderada? ¿Y la media geométrica? Proponga una generalización para la
estimación de los diferentes tipos de media.
2. Vimos que la estimación de la media aritmética es directa a partir del estadígrafo
muestral. ¿Qué ocurre con la mediana?


32
LECCIÓN 4. ESTIMACIÓN PUNTUAL DE LA DESVIACIÓN

ESTÁNDAR
La desviación estándar es la medida de variabilidad más estable y la más utilizada

en los estudios estadísticos. En realidad, cuando se dispone de variables medidas
a nivel ordinal o superior, una población suele caracterizarse por su media y su
desviación estándar. Pero esta medida de variabilidad ya no se estima directamente
a partir de su estadígrafo, por lo cual la desviación estándar poblacional deja de ser
igual a la muestral; podrá verse en esta lección que la diferencia entre ambas está
determinada por el tamaño de la muestra.
OBJETIVO
Encontrar el valor puntual esperado más razonable de una desviación estándar
poblacional, a partir de su correspondiente estadígrafo calculado en una muestra
representativa de la población bajo estudio.
1. Se trabaja con variables cuantitativas, medidas en el nivel ordinal o superior.
2. Se dispone del valor de la desviación estándar muestral.
3. La desviación estándar muestral se obtuvo a partir de una muestra
representativa con e error muestral.
ALGORITMO
COMIENZA
PASO 1. Establecer el error muestral.
PASO 2. Obtener los estadígrafos:
Sea
n ≡ Tamaño de la muestra.
S2 ≡ Varianza muestral.
Sea
2 ≡ Varianza poblacional (parámetro)
entonces
2 = S2((n-1)n)
y sabemos que
 = (2).
TERMINA

33

EJERCICIOS
4.1. Considere el ejemplo 3.1. Se encontró una desviación estándar muestral de
7.82. Realice la estimación puntual de la desviación estándar poblacional.
4.2. Considere el ejemplo 3.2. Se encontró una varianza muestral 0.69. Realice la
estimación puntual de la desviación estándar poblacional.

PARA APRENDER MÁS
1. Escriba un ensayo explicando por qué la fórmula para estimar  involucra a la
varianza y no trabaja directamente con la desviación estándar.
2. Demuestre que en la fórmula 2 = S2(n(n−1)) se cumple la Ley de los grandes
números.


34
LECCIÓN 5. ESTIMACIÓN INTERVALAR DE

PROPORCIONES
A diferencia de la estimación puntual, en la que se busca calcular un valor único

para la proporción poblacional, en la estimación intervalar se calculan los límites
inferior y superior de un espacio intervalar, dentro del cual se espera que se
encuentre la proporción poblacional. Esto es, aquí de lo que se trata es de
establecer, a partir de una proporción muestral, y dada cierta probabilidad de error,
cuáles son los límites dentro de los que se espera que se encuentre la proporción
poblacional respectiva,
OBJETIVO
A partir de la distribución de frecuencias de una muestra, calcular los límites para
construir un intervalo de confianza dentro del cual se espera que se encuentre la
proporción poblacional de un estrato, con una probabilidad de 1-.
1. Se trabaja con variables medidas en el nivel nominal, o transformadas a él. En
consecuencia, la variable tiene definido un conjunto numeral con k categorías
(que, en una inferencia estadística, constituyen los estratos).
2. Se dispone de una distribución de frecuencias para las k categorías.
3. La distribución de frecuencias se obtuvo a partir de una muestra representativa
con e error muestral.
ALGORITMO
COMIENZA
PASO 1. Establecer el error muestral e. Aquí e = .
PASO 2. Construir la distribución de proporciones a partir de la distribución de
frecuencias.
PASO 3. Utilizando la Tabla 1 (Probabilidades acumuladas de la distribución normal),
encontrar el valor de la calificación z correspondiente a 1-(/2).
PASO 4. Calcular p, la probabilidad de éxito, correspondiente a la proporción de las
categorías de interés.
PASO 5. Calcular la probabilidad de fracaso, dada por: q = 1−p.
PASO 6. Construir el intervalo de confianza:
(p−(z(((pq)n))))  P  (p+(z(((pq)n))))
PASO 7. Concluir con un nivel de confianza de (1-).
TERMINA


35
EJERCICIOS
5.1. A partir del ejemplo 2.1, construya el intervalo de confianza para la categoría
Rechazo.
5.2. A partir del ejemplo 2.2, construya el intervalo de confianza para el Partido A.

PARA APRENDER MÁS
1. Suponga que se demuestra que la población bajo estudio no tiene una
distribución normal, sino que se ajusta al modelo binomial. Ajuste el algoritmo
para construir el intervalo de confianza para la estimación de la media.


36
LECCIÓN 6. ESTIMACIÓN INTERVALAR DE LA MEDIA

La estimación intervalar de la media es un proceso equivalente al de la estimación
intervalar de proporciones. Sin embargo, puesto que la media involucra variables
medidas a nivel intervalar o superior, en este caso se requiere de un estimador de
la desviación estándar para poder construir el intervalo de confianza.
OBJETIVO
A partir de la media muestral, construir un intervalo de confianza, calculando los
límites entre los que se encuentra la media poblacional verdadera con una
probabilidad de (1-/2).
1. Se trabaja con variables medidas en el nivel ordinal o superior.
2. La población con la que trabajamos adopta una distribución normal.
3. Disponemos de una estimación de la desviación estándar poblacional ().
ALGORITMO
COMIENZA
PASO 1. Establecer el nivel de significación.
PASO 2. Obtener
≡ Media muestral.
 ≡ Desviación estándar poblacional.
n ≡ Tamaño de la muestra.
PASO 3. Obtener la calificación estándar correspondiente al nivel de significación:
Sea
z ≡ Calificación estándar de la distribución normal,
entonces
utilizando la Tabla 1 (Probabilidades acumuladas en la distribución normal),
encontrar el valor de z correspondiente a 1-(/2).
( −(z(/((n)))))    ( +(z(/((n)))))
TERMINA

EJERCICIOS
6.1. De los ejemplos 3.1 y 4.1, tenemos que e = 7%, = 88.26,  = 7.94 y n = 34.
Construya el intervalo de confianza para la media.
6.2. De los ejemplos 3.2 y 4.2, tenemos que e = 4%, = 6.21,  = 0.84 y n = 58.
Construya el intervalo de confianza para la media.

37

PARA APRENDER MÁS
1. Suponga que se demuestra que la población bajo estudio no tiene una
distribución normal, sino que se ajusta al modelo de Poisson. Ajuste el algoritmo
para construir el intervalo de confianza para la estimación de la media.
2. ¿Tendría sentido realizar una estimación intervalar de la desviación estándar?

Justifique su respuesta.

38
LECCIÓN 7. PRUEBA DE COMPARACIÓN CUALITATIVA

Hasta aquí se trabajó con una sola variable para estimar parámetros. A partir de
esta lección entramos a estudiar relaciones entre dos o más variables.
Cuando se dispone de variables medidas a nivel nominal, que no permiten hacer
comparaciones cuantitativas, se debe aplicar una prueba que no involucre
operaciones aritméticas sobre los datos. En tal caso, la prueba debe operar
únicamente con frecuencias, lo que sólo implica contar. Las pruebas Chi-cuadrada
(χ2) fueron desarrolladas por Karl Pearson (1857-1936) y permiten decidir si dos o
más grupos de variables medidas a nivel nominal, con espacios numerales de dos
o más categorías, difieren entre sí. Existen versiones aplicables a un sólo grupo, a
dos grupos, a clasificaciones o a un número cualquiera de grupos.
En este curso veremos como ejemplo la forma más general:
La Prueba Chi-cuadrada para k grupos independientes
Esta forma se aplica cuando trabajamos con k  2 grupos y queremos decidir si en
r  2 categorías una distribución de frecuencias observadas difiere
significativamente de las frecuencias esperadas. Puesto que acepta medidas
nominales esta es, necesariamente, una prueba no direccionada. Es claro que esta
versión puede aplicarse al caso particular de dos grupos independientes.
OBJETIVO
Probar la significación de las diferencias entre k grupos independientes.
1. Requiere que los grupos sean independientes.
2. Acepta variables medidas desde el nivel nominal, o transformadas a este nivel.
3. Opera con cualquier número de grupos (k2).
4. Acepta que la variable se mida en cualquier número de categorías (r2).
5. Ninguna celda puede tener una frecuencia observada igual a cero.
6. No más del 20% de celdas pueden tener frecuencias observadas menores a 5.
Nota: cuando ocurre (4) o (5), pueden combinarse categorías para satisfacer esas
condiciones.
ALGORITMO
COMIENZA
PASO 1. Plantear el juego de hipótesis: Se trata de una prueba no direccionada, por
tanto:
H0: No existirán diferencias entre la distribución de frecuencias observadas y las
frecuencias esperadas.
H1: Las frecuencias observadas diferirán de las frecuencias esperadas.
PASO 2. Justificar el uso de la prueba, demostrando que se cumplen las condiciones.
PASO 3. Especificar el nivel de significación (α) con el que se probará la hipótesis y

39
justificarlo.
PASO 4. Obtener los grados de libertad:
Sea
k ≡ Número de grupos
r ≡ Número de categorías en que se midió la variable
entonces
GL = (k-1)  (r-1)
PASO 5. Identificar en la Tabla 2 (Valores críticos para χ2) el valor teórico (χ2T),
conforme a α y GL.
PASO 6. Construir la siguiente nota de cálculo:
Categorías
Oi
1 ... r
Oi Oi
1 Ei ... Ei
2
((Oi-Ei) /Ei) ((Oi-Ei)2/Ei)
Grupos ... ... ... ... ...
Oi Oi
k Ei ... Ei
2
((Oi-Ei) /Ei) ((Oi-Ei)2/Ei)
Oi ... Oi = n
Donde:
n ≡ Número total de casos, por tanto: n = Oi
Oi ≡ Frecuencia observada en la categoría i-ésima
Ei ≡ Frecuencia esperada, que se obtiene multiplicando las sumas marginales de
frecuencias observadas (Oi) y dividiendo el producto entre n.
PASO 7. Calcular el valor de chi cuadrada observado
χ2O = ∑((Oi-Ei)2/Ei)
PASO 8. Aplicar la regla de decisión
• Cuando (χ2O ≤ χ2T) entonces H0 no puede ser rechazada.
• Cuando (χ2O > χ2T) entonces H0 debe rechazarse y se aceptará H1.
PASO 9. Concluir con el nivel de confianza de 1-α.
TERMINA

EJERCICIOS
7.1. Se realizó un estudio con un nivel de confianza del 99% para probar si la
pertenencia a estratos sociales está relacionada con la modalidad de educación
media superior elegida. Fueron seleccionados al azar 390 alumnos de secundaria,
se identificó el estrato social al que pertenecían y la modalidad que eligieron para
estudiar la educación media superior. Se obtuvieron los siguientes datos:

40
Estrato social a que pertenece el alumno

I, II III IV V
Universitaria 23 40 16 2
Modalidad
elegida
Tecnológica 11 75 107 14
Comercial 1 31 60 10
Observe que para cumplir con las condiciones de aplicación de la prueba hubo
necesidad de combinar los estratos I y II
Aplique la prueba χ2 a estos datos.
7.2. Para estudiar la relación entre autoritarismo y ocupación elegida en el ejército,
se realizó una investigación con un nivel de confianza del 99%. Fueron
seleccionados al azar 237 efectivos, se midió su nivel de autoritarismo y se identificó
su ocupación. Se obtuvieron los siguientes datos:
Autoritarismo
Bajo Medio Alto
Medicina 16 21 57
Armamento 15 22 25
Ocupación
Transmisiones 9 14 28
Suministros 8 9 13

PARA APRENDER MÁS
1. Explique el concepto de grados de libertad.
2. Proponga un ejemplo con Chi-cuadrada para un solo grupo. Demuestre que el
método es homomorfo al que vimos.
3. Proponga un ejemplo con Chi-cuadrada para dos grupos. Demuestre que el
método es homomorfo al que vimos.
4. Proponga un ejemplo con Chi-cuadrada para una clasificación de 22.
Demuestre que el método es homomorfo al que vimos.
5. Escriba un ensayo explicando el concepto básico con el que opera la prueba Chi-
cuadrada.


41
LECCIÓN 8. PRUEBA DE COMPARACIÓN

CUANTITATIVA
El caso de dos grupos independientes

Las pruebas de comparación cuantitativa trabajan con variables medidas a nivel
ordinal o superior. Las más conocidas son las que componen la familia t-student,
una familia de pruebas de hipótesis que fueron desarrolladas por William Sealy
Gosset (1876-1937), químico y matemático inglés que firmaba sus trabajos con el
pseudónimo Student y que trabajó en los laboratorios de Pearson y de Galton. A
partir de los trabajos realizados con Pearson, Gosset realizó estudios empíricos con
números aleatorios y les aplicó un análisis matemático que fue precursor del método
Montecarlo aplicando el concepto de Chi-cuadrada para desarrollar la distribución t,
que es una aproximación a la normal, pero admite ciertas desviaciones y, por tanto,
acepta muestras pequeñas. Las pruebas t-student más conocidas permiten probar
diferencias entre las medias de dos grupos, independientes con una versión, y
dependientes con otra. En esta lección veremos el caso de dos grupos
independientes.
Prueba t-Student para dos grupos independientes
Esta prueba de hipótesis también es conocida como prueba de diferencia entre
medias y es una de las más usadas cuando se trata de demostrar estadísticamente
si dos grupos son diferentes en cuanto a su tendencia central. Como su nombre lo
indica, supone que los dos grupos de datos son estadísticamente independientes y,
en consecuencia, pueden tener tamaños diferentes.
OBJETIVO
Probar diferencias entre dos poblaciones integradas por diferentes elementos, en
cuanto a su tendencia central medida por la media aritmética.
1. La variable debe estar medida al menos en el nivel ordinal.
2. Las muestras deben haberse obtenido aleatoriamente.
3. Las dos poblaciones deben ser estadísticamente independientes.
4. No requiere homocedasticidad, las poblaciones pueden tener varianzas
diferentes.
5. No es necesario que las dos muestras tengan el mismo tamaño.
ALGORITMO
COMIENZA
PASO 1. Plantear el juego de hipótesis:
Sean
μ1 ≡ Media aritmética de la primera población.
μ2 ≡ Media aritmética de la segunda población.
entonces:
H0: μ1 = μ2. No existirá diferencia entre las dos medias poblacionales.

42
H1: μ1 > μ2. La media de la primera población será mayor que la de la segunda.
H2: μ1 < μ2. La media de la primera población será menor que la de la segunda.
PASO 3. Especificar el nivel de significación (α) con el que se probará la hipótesis.
PASO 4. Obtener los estadígrafos muestrales
Sean:
n1 = Tamaño de la primera muestra.
n2 = Tamaño de la segunda muestra:
1 = Media aritmética de la primera muestra.
2 = Media aritmética de la segunda muestra.
S21 = Varianza de la primera muestra.
S22 = Varianza de la segunda muestra.
PASO 5. Calcular los grados de libertad:
GL = n1+n2-2
PASO 6. Con  y GL, identificar el valor teórico (tT) en la Tabla 3, Fractiles de la
distribución T.
PASO 7. Calcular la varianza combinada (S2p) de los dos grupos:
S2p = (((n1-1)S21)+((n2-1)S22))/(n1+n2 -2)
PASO 8. Calcular el valor empírico:
tO = ( 2 2
1- 2)/(((S p/n1)+(S p/n2)))
PASO 9. Aplicar la regla de decisión:

• Cuando (|tO| ≤ tT) entonces H0 no puede ser rechazada.
• Cuando (|tO| > tT) entonces H0 debe rechazarse y se procede a decidir la hipótesis
alternativa comparando las medias muestrales o conforme al signo de tO.
PASO 10. Concluir con un nivel de confianza de 1-α.
TERMINA

EJERCICIOS
8.1. Se realizó un estudio con un nivel de confianza del 95% para probar si existen
diferencias en el aprendizaje de los alumnos de dos sistemas escolares. Se diseñó
un test estandarizado y se aplicó a muestras aleatorias obtenidas en cada sistema.
Se obtuvieron los siguientes resultados:
Muestras
Sistema escolar A Sistema escolar B
Tamaño 62 51
Media 72.23 74.57
Varianza 64.26 63.01

43
Aplique la prueba t-Student y concluya.

8.2. Para probar la eficacia de dos sistemas de incentivos sobre la productividad de
los empleados de una fábrica, se llevó a cabo un experimento con un nivel de
confianza del 97.50%. En una planta se aplicó un plan de bonos de sobresueldo y
en otra un plan de bonos de tiempo libre. La productividad se midió como el número
de artículos obtenidos por jornada de trabajo. Se obtuvieron los siguientes
resultados:
Muestras
Sobresueldo Tiempo libre
Tamaño 98 87
Media 113.23 109.12
Varianza 124.34 132.14

PARA APRENDER MÁS
1. Algunos autores presentan la fórmula para calcular el valor observado de t en la
siguiente forma:
tO = (( 1- 2)-(μ1-μ2))/(((S2p/n1)+ (S2p/n2)))
Observe que ahora se resta (μ1-μ2) a la diferencia entre medias muestrales en el
numerador. ¿Por qué se elimina este término en esta lección?
2. Algunos autores aplican la desviación estándar, en lugar de la varianza, para
realizar esta prueba. Explique cómo afectaría este cambio a la fórmula. ¿Qué
resulta más sencillo, el uso de la desviación estándar o el de la varianza?
3. En el denominador de la fórmula para calcular la varianza combinada se resta 2
a la suma de los tamaños de los grupos. A esto se le llama corrección por grados
de libertad. Explique el concepto.
4. ¿Por qué es necesario calcular la varianza combinada para después obtener el
valor de t observada?
5. Para complementar una prueba de hipótesis, ya sea que ésta involucre
diferencias o correlación, Valera y Sánchez [1997] proponen agregar análisis de
magnitud del efecto y de valor contranulo. ¿En qué consisten estos análisis?
¿Podrían llegar a sustituir a la prueba de hipótesis?


44

CUANTITATIVA
El caso de dos grupos dependientes

La segunda condición bajo la que pueden realizarse comparaciones cuantitativas
se presenta cuando estamos trabajando con dos grupos de datos dependientes; es
decir, en este caso los datos fueron medidos en los mismos sujetos. Entonces aplica
otra forma de la prueba t-Student:
Prueba t-Student para dos grupos dependientes
OBJETIVO
Probar diferencias entre dos muestras dependientes, en cuanto a su tendencia
central medida por la media aritmética.
1. Los dos grupos de datos deben ser estadísticamente dependientes.
2. Los dos grupos deben tener el mismo número de datos.
3. Acepta variables medidas al menos en el nivel ordinal.
4. La muestra debe ser aleatoria.
5. No requiere homocedasticidad.
ALGORITMO
COMIENZA
Sean
μ1 ≡ Media aritmética del primer grupo y
μ2 ≡ Media aritmética del segundo grupo,
entonces:
H0: μ1 = μ2. No existirá diferencia entre las medias de los dos grupos.
H1: μ1 > μ2. La media del primer grupo será mayor que la del segundo.
H2: μ1 < μ2. La media del primer grupo será menor que la del segundo.
PASO 4. Calcular los grados de libertad:
GL = n−1
PASO 5. Identificar el valor teórico (tT). Utilizar la Tabla 3, Fractiles de la Distribución
T, con los valores de α y GL.
PASO 6. Nota de cálculo
Sea:
n ≡ Número de sujetos
X1 ≡ Primera medición
X2 ≡ Segunda medición

45
d = X1-X2, la desviación entre las dos mediciones ligadas

entonces, construir la siguiente tabla:
Sujeto X1 X2 d d2
1 X11 X21 d1 d1 2
... ... ... ... ...
n X1n X2n dn dn 2
1 2 d d2
tO = ((d/n)(n))/((((nd2)−(d)2)/(n(n-1))))
• Cuando (|tO| ≤ tT ) entonces H0 no puede ser rechazada.
• Cuando (|tO| > tT) entonces H0 debe rechazarse. En una prueba direccionada se
procede a decidir la hipótesis alternativa conforme al signo de d, o bien
comparando las medias muestrales ( 1 y 2).
TERMINA

EJERCICIOS
9.1. Para probar el efecto de un método de estudio sobre el aprendizaje, se realizó
un experimento con un nivel de confianza del 99%. Se midió el aprendizaje de los
alumnos en pretest y postest mediante pruebas en formas equivalentes y
obtuvieron los siguientes resultados:
Alumno 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Pretest 86 64 79 92 61 78 64 98 76 68 84 79 67 88 66
Postest 85 67 79 94 68 83 63 99 79 66 87 82 72 78 67
9.2. Para probar la eficacia de un tratamiento psicológico sobre el control del
consumo de alcohol, se realizó un estudio con un nivel de confianza del 90%. Se
midió en 13 sujetos la ingesta efectiva de contenido alcohólico, tanto en pretest
como en postest, y se obtuvieron los siguientes resultados:
Sujeto 1 2 3 4 5 6 7 8 9 10 11 12 13
Pretest 108 82 80 123 98 98 94 82 98 83 95 69 101
Postest 115 89 82 119 100 85 89 79 95 76 88 64 97

PARA APRENDER MÁS
1. Busque, en diferentes libros, dos fórmulas para calcular el valor empírico de t,
aplíquelas a un ejemplo y demuestre su equivalencia comprobando que se llega

46
a la misma conclusión. Puede consultar, por ejemplo, a Runyon y Haber [1984]

y a Johnson [1979].
2. Proponga un ejemplo de muestras dependientes diferente al diseño experimental
pretest-postest y demuestre que es aplicable la prueba que aquí analizamos.
3. Runyon y Haber [1984] utilizan la suma de cuadrados de las diferencias entre
las dos mediciones. A este concepto a veces se le llama “suma de cuadrados
del error” y volveremos a encontrarlo en el análisis de varianza. Explique su
naturaleza y la aplicación que tiene en la prueba.


47

CUANTITATIVA
Generalización, el caso de k-grupos

Hemos visto que las pruebas t-Student permiten comparar dos grupos. Cuando se
trata de trabajar con más de dos grupos de datos, pueden aplicarse
generalizaciones de las pruebas que vimos en las dos lecciones anteriores. En este
caso veremos el:
Análisis de varianza de una vía
El análisis de varianza (AVAR4) puede verse como una generalización de las
pruebas t-Student, ya que mientras éstas permiten probar diferencias en la
tendencia central de dos muestras, el AVAR lo hace con k muestras (k>2). La
característica básica que define al AVAR, como su nombre lo indica, es que tiene
como base los cuadrados de la desviación media (X-μ)2, a partir de los que se
calcula la varianza.
Al igual que ocurre con las pruebas t, existen muchas variedades del AVAR, tantas
como condiciones de aplicación se presenten. Aquí veremos el caso más simple,
denominado de una vía porque la variable estudiada se categoriza con un sólo
criterio de clasificación, al que llamaremos tratamiento; esta categorización da
origen a las muestras o grupos.
Debe observase que el algoritmo que aplicaremos permite trabajar con tamaños de
grupo diferentes. Sin embargo, para facilitar la comprensión del procedimiento,
asumiremos que los tamaños de grupo (tratamiento) sean iguales.
En general, el AVAR prueba si las k-medias son diferentes, por lo cual es una prueba
no direccionada, pues sólo puede indicar si las medias, en conjunto, son iguales
(H0) o diferentes (H1). En caso de que se pruebe que hay diferencias en el conjunto
de las medias (los k-tratamientos), se procede a realizar comparaciones pareadas,
que ya implican dirección, para lo cual se aplica el Procedimiento w, también
llamado Prueba de Tukey, que veremos aquí.
OBJETIVO
Probar diferencias entre un conjunto con más de dos muestras, en cuanto a su
tendencia central medida por la media aritmética.
1. La variable debe estar medida al menos en el nivel ordinal.
2. Las muestras deben haberse obtenido aleatoriamente.
3. Las muestras deben ser grandes.
4. Los tamaños muestrales deben ser iguales en los k-tratamientos.
5. La población de la que se obtuvo la muestra debe estar distribuida normalmente.
4
A veces se le encuentra como ANOVA, por sus siglas en inglés (ANalisis Of VAriance).

48
ALGORITMO
COMIENZA
Sean
μ1, μ2, ..., μk. ≡ Medias aritméticas de las k poblaciones.
Ésta es, necesariamente, una prueba no direccionada, por lo que:
H0: μ1 = μ2 = ... = μk. No existirá diferencia entre las k medias poblacionales.
H1: μ1  μ2 ...  μk. Al menos dos medias poblacionales serán diferentes.
PASO 2. Justificar el uso de la prueba.
justificarlo.
PASO 4. Obtener el valor crítico de prueba (RVT ):
Sean:
k  Número de tratamientos
ni  Número de observaciones en cada tratamiento.
n  Número total de observaciones, dado por nik, ya que aceptamos que los
grupos tienen el mismo tamaño.
entonces, identificar el valor teórico RVT en la Tabla 4, Fractiles de la Distribución
F, correspondiente a α, con:
Grados de libertad en el numerador = k-1
Grados de libertad en el denominador = n-k
PASO 5. Construir la siguiente nota de cálculo:
T1 T2 ... Tk
X11 X12 ... X1k
X21 X22 ... X2k
... ... ... ...
Xi1 Xi2 ... Xik
ni n1 n2 ... nk n = nik = ni
X ... X
X2 ... X2
(X)2/ni ... ((X)2/ni)
1 2 ... k
PASO 6. Calcular el valor empírico (RVO):

C = (X)2 / n
SCT = X2 - C
SCTR = (((X)2/ni)) - C
SCE = SCT - SCTR
MCTR = SCTR / (k-1)
MCE = SCE / (n-k)
RVO = MCTR / MCE

49

• Cuando (RVO ≤ RVT ) entonces H0 no puede ser rechazada.
• Cuando (RVO > RVT) entonces H0 debe rechazarse y aceptaremos H1.
Si aceptamos la hipótesis alternativa, entonces procede la prueba de Tukey
PASO 9. Construir la Matriz de Diferencias entre Medias (MDEM):
1 2 ... k
1 ...
2 ...
... ... ... ... ...
k ...
PASO 10. Calcular el valor crítico, llamado Diferencia Honestamente Significativa
(DHS), para probar la significación de los elementos de la MDEM:
DHS = (RVT)  (1/(2))  (((2MCE)/ni))
PASO 11. Aplicar la regla de decisión para cada celda de la MDEM:
• Cuando (|DEM| ≤ DHS) entonces H0 no puede ser rechazada.
• Cuando (|DEM| > DHS) entonces H0 debe rechazarse y se procede a decidir la
hipótesis alternativa conforme al signo de la DEM.
Identificar en la MDEM las celdas en que se aceptó H0.
PASO 12. Puesto que ya estamos probando hipótesis entre dos grupos, aquí ya nos
interesa una prueba direccionada por lo que, para cada celda de la MDEM, las
hipótesis serán:
H0: μA = μB.
H1: μA > μB.
H2: μA < μB.
En consecuencia, en cada elemento de la MDEM se debe concluir con un nivel de
confianza de 1-α
TERMINA

EJERCICIOS
10.1. En un experimento diseñado para estudiar los efectos de una droga sobre el
sueño MOR, se estableció un nivel de confianza del 95%. Se seleccionaron al azar
28 adultos normales. Se aplicaron como tratamientos cuatro dosis de la droga y se
midió el tiempo en minutos que tardó en iniciar la fase MOR. Se obtuvieron los
siguientes resultados:

50
Dosis
A B C D
39 13 10 8
40 10 9 5
34 16 12 8
11 14 5 8
17 15 14 9
30 8 13 5
27 17 11 10
Aplique el AVAR y, en su caso, la prueba de Tukey y concluya.
10.2. En un estudio sobre cuatro sistemas de comunicación encriptada se estableció
un nivel de confianza del 95%. Se seleccionaron 44 sujetos y se asignaron
aleatoriamente a cada sistema. Se midió el nivel de comprensión de un mensaje
complejo y se obtuvieron los siguientes resultados:
Sistema
A B C D
15 8 14 16
6 11 15 17
13 8 19 15
8 10 13 18
8 13 16 21
8 7 16 20
11 10 13 24
5 9 13 24
5 13 12 16
13 11 20 21
10 11 18 20

PARA APRENDER MÁS
1. Explique la relación entre los cuadrados del error y la varianza, según se aplican
al AVAR.
2. Demuestre que el AVAR es una generalización de las pruebas t-Student.
3. ¿Qué forma general adoptaría el algoritmo que vimos al aplicarlo a dos o más
clasificaciones (es decir, con dos o más vías)?


51
LECCIÓN 11. PRUEBA DE CORRELACIÓN

CUALITATIVA
Dejamos las pruebas de comparación, que buscan decidir si las medidas de cierta
variable son o no iguales entre dos o más grupos, para pasar a un concepto
radicalmente diferente: la correlación. Ahora veremos como medir la asociación
entre dos variables. Entramos a la que se considera una de las formas más
complejas del pensamiento lógico. Cuando probamos que una variable está
asociada -correlacionada- con otra, lo único que nos permite es eso: afirmar que
varían concomitantemente. Esto tiene aplicaciones de enorme importancia en
ciencias del comportamiento, pues constituye la base lógica de múltiples inferencias
y de la predicción. Pero debemos evitar uno de los errores más graves en el
pensamiento científico: confundir la correlación con la causalidad. Cuando
demostramos que A correlaciona con B, podemos usar a A para predecir a B, o
viceversa (algo esencial en ciencias de la conducta), pero no podemos afirmar que
A causa a B, ni lo contrario. Con esta prevención, pasemos a estudiar la correlación.
Cuando se requiere probar asociación entre dos variables y al menos una de ellas
fue medida en el nivel nominal, mientras que la otra también se midió en el nivel
nominal o bien fue transformada a él, entonces son aplicables las pruebas de
correlación cualitativa. Debe tenerse presente que toda vez que las medidas
nominales carecen de sentido cuantitativo, el coeficiente de correlación que se
obtiene no está signado. En términos estrictos, sólo puede afirmarse que las
variables están asociadas o que no lo están, y no tiene sentido tratar de señalar si
la correlación es directa o inversa; esto implica que estamos ante una prueba
necesariamente no direccionada. Para observar el caso más elemental, en este
curso veremos como ejemplo de este tipo de pruebas el
Coeficiente Phi para una clasificación de 22
Esta prueba permite realizar el análisis de correlación lineal entre variables
cualitativas. Podrá verse en la siguiente lección que el coeficiente Phi no es más
que es un caso especial del coeficiente de Pearson pero, debido a su carácter no
cuantitativo, en el caso de Phi no se pueden calcular medias. En consecuencia, se
aplica χ2 para probar la significación de la asociación entre las variables y, en su
caso, para el cálculo de la fuerza con que están asociadas. Conviene recordar que
el cálculo de χ2 sólo involucra frecuencias; más aún, es importante observar que el
coeficiente phi aplica χ2 para el caso de una clasificación en que ambas variables
son dicótomas.
OBJETIVOS
1. Probar la significación de la asociación entre dos variables medidas en el nivel
nominal.
2. Medir el grado en que están correlacionadas.
1. Acepta variables medidas en el nivel nominal.

52
2. Las dos variables deben ser dicótomas (medidas en dos categorías nominales).
Esto permite construir una tabla de contingencia de 22, que contiene las
frecuencias.
ALGORITMO
COMIENZA
Se trata de una prueba no direccionada, por tanto:
H0: r = 0, No existirá correlación entre X y Y.
H1: r  0, Existirá correlación entre X y Y.
justificarlo.
PASO 4. Identificar en la Tabla 2 (Valores críticos para χ2) el valor teórico χ2T,
conforme a α y con un grado de libertad.
PASO 5. La masa de datos debe clasificarse en la siguiente forma general:
X1 X2
Y1 A B
Y2 C D
Donde:
X1, X2 ≡ Las dos categorías de la variable X.
Y1, Y2 ≡ Las dos categorías de la variable Y.
A, B, C, D ≡ Frecuencias de cada clasificación
PASO 6. Calcular el valor de chi cuadrada observado
χ2O = ((A+B+C+D)(((AD)-(BC))2)) / ((A+B)(C+D)(A+C)(B+D))
• Cuando (χ2O ≤ χ2T) entonces H0 no puede ser rechazada.
• Cuando (χ2O > χ2T) entonces H0 debe rechazarse y aceptar H1.
PASO 8. En caso de que
• Se haya aceptado H0, ir al Paso 9.
• Se haya aceptado H1, entonces se probó la significación de la asociación y, en
consecuencia, procede calcular el coeficiente de correlación:
rφ = ( χ2O / (A+B+C+D))
TERMINA


53
EJERCICIOS
11.1. En un estudio sobre delincuencia y familia, realizado con un nivel de confianza
del 95%, se clasificó a 100 jóvenes de educación media conforme a:
X1 ≡ Con antecedentes delictivos
X2 ≡ Sin antecedentes delictivos
Y1 ≡ Pertenecientes a familias integradas
Y2 ≡ Pertenecientes a familias desintegradas
y se obtuvieron los siguientes datos:
X1 X2
Y1 10 29
Y2 20 41
Aplique el análisis de correlación de Phi.
11.2. Se investigó la relación entre turno y aprovechamiento escolar, trabajando con
un nivel de confianza del 99%. Se clasificó a 150 egresados como sigue:
X1 ≡ Graduado
X2 ≡ No graduado
Y1 ≡ Turno matutino
Y2 ≡ Turno vespertino
X1 X2
Y1 55 20
Y2 30 45

PARA APRENDER MÁS
1. Escriba un ensayo en el que demuestre que la prueba de significación del
Coeficiente Phi es una aplicación directa de la prueba de Chi-cuadrada para una
clasificación de 22.
2. En caso de que en el Paso 7 del algoritmo se encontrara que (χ2O ≤ χ2T), ¿tendría
sentido calcular rφ? Escriba un ensayo justificando su respuesta.
3. Escriba un ensayo demostrando por el método de reductio ad absurdum que no
puede aplicarse el Coeficiente Phi como una prueba direccionada.
4. ¿Por qué cuando se prueba la significación de la asociación en la prueba Phi, al
buscar en tablas el valor de χ2T (Paso 4 del algoritmo) aplica GL=1? Escriba un
ensayo justificando su respuesta.
5. Con el propósito de estudiar el caso más elemental, en este curso vimos el caso
de una clasificación de 2  2. Sin embargo, es posible –y realmente es
sencillo- generalizar esta prueba para calcular el coeficiente en una tabla de
cualquier número de reglones y columnas, es decir, en una tabla de k  r. Ajuste
el algoritmo para tal caso. Puede revisar la Lección 7.

54
6. Siegel [1980: 232] afirma que el límite superior del coeficiente de contingencia es
una función del número de categorías en que se midieron las variables. Para el
caso que vimos (2  2) el máximo valor que puede alcanzar el coeficiente de
correlación es de 0.7071. ¿Cuál será el límite superior del coeficiente de
correlación en el caso de una clasificación de 2  3.
7. Explique la relación que tiene la prueba χ2 que vimos en la Lección 7 con la prueba
de correlación cualitativa.


55
LECCIÓN 12. PRUEBA DE CORRELACIÓN

CUANTITATIVA
El análisis de correlación lineal es un método paramétrico que fue desarrollado entre

la segunda y la tercera década del siglo XX por el matemático inglés Karl Pearson
(1857-1930), quien fue uno de los fundadores de la estadística. La correlación entre
dos variables es una medida matemática del grado en que éstas varían
concomitantemente y constituye una herramienta indispensable para establecer la
confiabilidad, la validez y otras características técnicas de los instrumentos
psicométricos, así como para la investigación científica del comportamiento.
Cuando las variables que intervienen están medidas en un nivel intervalar, o
superior5, entonces el análisis de correlación adopta su máximo poder. En este
curso veremos como ejemplo el
Coeficiente producto-momento de Pearson
Esta es la prueba más usada para medir correlación entre dos variables medidas al
menos en el nivel intervalar y para decidir sobre su nivel de significación, pues es la
prueba que ha demostrado la mayor potencia para encontrar relaciones. Pero debe
cuidarse de que se cumplan las condiciones para que su utilización resulte válida.
Sus aplicaciones van desde la psicometría, en análisis de confiabilidad y validez,
hasta cualquier investigación que busque asociación entre dos variables.
OBJETIVOS
1. Medir el grado en que están correlacionadas dos variables: X (predictor) y Y
(criterio).
2. Probar su significación
3. Cuando se prueba que las dos variables están asociadas significativamente,
medir la regresión de cualquier puntaje observado, lo que permite un diagnóstico
personalizado.
1. Ambas variables, X y Y, deben estar medidas al menos en el nivel ordinal.
2. La muestra debe haberse obtenido aleatoriamente.
3. La muestra debe ser grande.
4. La población de la que se obtuvo la muestra debe estar distribuida normalmente.
5. Ambas variables son homocedásticas, esto es, tienen varianzas iguales.
ALGORITMO
COMIENZA
H0: r = 0, No existirá correlación entre X y Y.
5
Cuando las variables están medidas en nivel ordinal, es preferible utilizar el Coeficiente de Corrlación por
Rangos de Spearman.

56
H1: r > 0, Existirá correlación directa entre X y Y.

H2: r < 0, Existirá correlación inversa entre X y Y.
PASO 2. Justificar el uso de la prueba.
PASO 4. Calcular los grados de libertad
Sea:
n  Número de casos en que se midieron las variables X y Y.
entonces
GL = n-2.
PASO 5. Identificar el valor teórico rT en la Tabla 5, Valores críticos para el coeficiente
de Pearson.
PASO 6. A partir de la masa de datos, construir la siguiente tabla:
Caso X Y XY X2 Y2
1 X1 Y1 X1Y1 X12 Y12
... ... ... ... ... ...
n Xn Yn XnYn Xn2 Yn2
X Y XY X2 Y2
PASO 7. Calcular el coeficiente de correlación de Pearson con:
rP = ((nXY)–(XY)) / ((((nX2)–(X)2)((nY2)–(Y)2))).
PASO 8. Aplicar la regla de decisión:
• Cuando (|rP| ≤ rT ) entonces H0 no puede ser rechazada.
• Cuando (|rP| > rT ) entonces H0 debe rechazarse y se procede a decidir la hipótesis
alternativa conforme al signo de rP.
Cuando H0 fue rechazada, procede realizar el análisis de regresión.
PASO 10. Calcular los parámetros de la recta:
Pendiente: b = ((nXY)–(XY)) / ((nX2)–(X)2)
Intercepto: a = (Y–(bX)) / n
PASO 11. Calcular el valor predicho (Yc) para cualquier X:
Yc = a + (bX)
REGRESIÓN = Yo-Yc
PASO 12. Construir el dispersigrama y ubicar la recta de tendencia:
1. Trazar un plano coordenado en el cual X represente a la variable predictora y
Y a la variable criterio.
2. Acotar los ejes con XMIN, XMAX, YMIN, YMAX y graduarlos.
3. Ubicar los puntos coordenados para cada pareja de datos.
4. Calcular Yc(Xmin) y Yc(Xmax).
5. Ubicar a Yc(Xmin) y Yc(Xmax) en el plano coordenado y unir ambos puntos
con una línea recta; ésta es la recta de tendencia.

57
TERMINA

EJERCICIOS
12. 1. En un estudio sobre la validez predictiva de un examen de admisión se midió:
X  Calificación obtenida en el examen de admisión.
Y  Promedio general de carrera.
Las dos variables se midieron en escala de 0 a 100 con redondeo a enteros. Se
extrajo una muestra aleatoria con un error probable de 0.05, se probó
homocedasticidad y normalidad en ambas variables y se obtuvieron los siguientes
datos:
(50, 80) (39, 84) (58, 87) (49, 84) (38, 67) (51, 67) (55, 78) (59, 80) (39, 79) (42, 82)
(43, 71) (55, 84) (47, 64) (48, 69) (62, 77) (64, 58) (47, 73) (48, 86) (69, 78) (69, 88)
(61, 72) (39, 76) (64, 90) (39, 92) (42, 76) (50, 74) (45, 73) (64, 75) (47, 82) (40, 69)
(40, 79) (54, 59) (48, 94) (59, 78) (54, 79) (60, 69) (59, 93) (48, 74) (64, 78) (55, 77)
(56, 68) (38, 66) (59, 74) (49, 72) (63, 57) (51, 57) (45, 65) (67, 82) (44, 63) (69, 72)
(42, 56) (56, 77) (44, 83) (53, 72) (40, 79) (59, 78) (70, 80) (37, 82) (70, 84) (55, 74)
(59, 90) (42, 72) (54, 80) (64, 70) (63, 75) (54, 93) (46, 78) (52, 83) (52, 74) (66, 85)
(37, 74) (57, 78) (37, 77) (47, 78) (46, 67) (39, 62) (68, 64) (65, 73) (70, 67) (40, 71)
(43, 78) (49, 80) (51, 78) (54, 75) (60, 79) (53, 82) (57, 64) (44, 75) (59, 85) (66, 73)
(54, 63)
a) Pruebe la significación del coeficiente de correlación de Pearson.
b) Construya el dispersigrama y ubique la recta de tendencia.
c) José es el elemento 36 de la muestra. Calcule su regresión e interprétela
12.2. En un estudio con operadores de grúa se midió:
X  Razonamiento visoespacial.
Y  Puntaje de desempeño en el manejo de grúa.
Se extrajo una muestra aleatoria y se probó homocedasticidad y normalidad. Se
establece un nivel de confianza del 95%. Se obtuvieron los siguientes datos:
Caso 1 2 3 4 5 6 7 8 9 10 11 12 13 14
X 102 98 111 89 120 114 113 104 117 99 118 123 94 112
Y 81 69 71 58 90 78 81 80 87 91 87 92 78 80
c) Luis es el elemento 10 de la muestra. Calcule su regresión e interprétela.
12.3. Trabajando con fotointérpretes se midió:
X  Memoria icónica.
Y  Errores en el reconocimiento de patrones.
Se obtuvo una muestra representativa a un nivel de significación de 2.5% y se
probó homocedasticidad y normalidad. Se obtuvieron los siguientes datos:

58
Caso 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
X 56 89 78 67 48 98 77 59 81 74 65 92 88 63 80 85
Y 38 13 25 31 32 11 24 35 20 28 20 15 18 30 23 24
c) Arturo es el elemento 10 de la muestra. Calcule su regresión e interprétela

PARA APRENDER MÁS
1. Explique matemáticamente la razón de que al coeficiente correlación de Pearson
también se le llame Coeficiente de correlación producto-momento.
2. Aplique la Ley de los grandes números a la definición operacional de “muestra
grande”.
3. Suponga el siguiente caso: se construye el dispersigrama de una muestra
bivariada y se obtiene una nube de puntos que claramente sugiere una línea
curva. ¿Qué procedería?
4. ¿Cómo puede probarse homocedasticidad en una distribución bivariada?
5. ¿Cómo puede probarse normalidad en una población?
6. La medición a nivel ordinal es medición cuantitativa. Sin embargo, no es aplicable
el coeficiente de Pearson en este nivel. Escriba un ensayo explicando la razón.
7. Escriba un ensayo que ejemplifique la aplicación de un método de correlación
válido para su aplicación en el nivel ordinal.


59
EPÍLOGO
Nec manus nisi intellectus sibi permissus multant
valent, instrumentis et auxitibus res perfecitur6.
F. Bacon (1561-1626)
Hemos terminado una introducción a la estadística inferencial. Solo estudiamos

algunos ejemplos representativos de la enorme variedad de aplicaciones que esta
importante herramienta ofrece al estudio científico del comportamiento, pero si se
ha logrado construir una estructura con los conceptos y procedimientos de la
inferencia estadística, entonces el estudiante ya debe contar con los cimientos y
anclajes sobre los cuales estudiar y comprender, por sí mismo, cualquier caso
particular de estimación de parámetros y prueba de hipótesis. Habrá, como se dijo
al principio, aprendido a aprender sobre la inferencia estadística.
*
La estadística es una rama de la matemática aplicada y como tal tiene un carácter
instrumental para la ciencia, y desde luego la psicología no es la excepción. Ante
un instrumento que permite potenciar la inteligencia como éste, deben hacerse dos
preguntas fundamentales: ¿Para qué sirve? y ¿cómo se usa?
En este curso el énfasis se puso en la primera pregunta, se buscó una comprensión
estructural del problema, los datos de entrada, el proceso y el significado que tiene
el resultado del análisis estadístico. Hacer lo contrario, aunque por desgracia no es
poco frecuente, resulta inaceptable: que en un curso de estadística (o,
generalizando, de cualquier otra rama de la matemática) el estudiante se limite a
sustituir literales por valores en una fórmula, a realizar cálculos y obtener un
resultado que aunque sea correcto le dice muy poco, o nada, es más que una
pérdida de tiempo, es una agresión a la inteligencia. Si se piensa con cuidado,
puede verse que resulta neurótico calcular un valor que no sabemos qué significa,
o bien llegar a una conclusión que no nos dice nada.
Respecto a la segunda pregunta, se postula como principio que la enseñanza
apoyada en algoritmos constituye una herramienta realmente poderosa que permite
resolver cualquier problema de una clase dada siguiendo instrucciones y, de este
modo, llegar necesariamente a resultados correctos; es cierto que existen
problemas no algorítmicos, pero actualmente este ya no es el caso en la inferencia
estadística. Además, debe considerarse que las actuales herramientas de cálculo –
desde una calculadora de bolsillo hasta una computadora- permiten realizar
cualquier cálculo estadístico, por laborioso que sea, en unos pocos segundos;
realmente consume más tiempo capturar y verificar los datos de entrada que
obtener los resultados. En resumen, para un profesional de la conducta (que no es,
ni tiene por qué ser, un matemático) se trata de dejar el procedimiento al algoritmo
y el cálculo a la máquina.
Pero de aquí a limitarse a utilizar paquetes de cómputo, sin estudiar conceptos,
6
Ni la mente ni la mano pueden lograr mucho por sí solas, sin ayudas y herramientas que las perfeccionen.

60
condiciones y procedimientos, resulta inaceptable. Que un maestro acepte que un

paquete –trátese de SPSS, AMOS o cualquiera otro- puede pensar por el psicólogo
no solo es ingenuo, es irresponsable. Sin conocer las condiciones de aplicación de
cada prueba pueden cometerse aberraciones (como calcular medias del sexo o del
estado civil) y el paquete estadístico lo hará, lo que inevitablemente conduce a
conclusiones verdaderamente absurdas. Y todo esto sin tener la menor conciencia
de que lo que se está haciendo.
Apoyarse en la enseñanza por algoritmos permite que el docente, en condiciones
reales dentro del aula, afronte el reto que significa lograr que el alumno entienda
cuándo debe utilizar determinado tipo de estimación de parámetros o cierta prueba
de hipótesis (para qué sirve) y cómo aplicarlo (cómo se usa el algoritmo). Si esto se
logra, el problema del psicólogo se reduce a buscar un método estadístico adecuado
al problema que investiga, así como a los datos disponibles y a aplicar el algoritmo
correspondiente. La enseñanza algorítmica puede transformar la enseñanza de la
matemática aplicada a la ciencia, como es el caso, repetimos, de la estadística
aplicada a la psicología.
La matemática es un instrumento indispensable para la ciencia, para cualquier
ciencia, y la teoría de la probabilidad y la estadística son las ramas de la matemática
que aplican en las ciencias del comportamiento. Parafraseando a Bacon, podemos
decir que las ciencias del comportamiento son muy poca cosa sin probabilidad y
estadística.
*
Concluyamos revisando la parte conceptual. Tenemos que aceptar como principio
que el comportamiento de los organismos vivos es un fenómeno aleatorio el cual, al
menos en el estado actual del conocimiento, no podemos conocer en forma
determinista, pero sí podemos conocerlo en forma probabilista, aunque siempre
existirá un margen de error. Con el avance de la ciencia y la tecnología podemos no
solo medir el error, sino que además podemos aspirar a reducirlo cada vez más.
Esto nos obliga a pensar de manera diferente, más objetiva y a la vez más compleja.
Veamos solo unos ejemplos de lo que queremos decir.
Primero. Si logramos establecer los parámetros de la población concreta a la que
pertenece un sujeto, es decir, de la población concreta que nos interesa, entonces
no nos veremos obligados a utilizar parámetros que fueron establecidos para
poblaciones muy diferentes a ella, que en algunos casos no son comparables.
Tendremos los elementos para evaluar objetivamente los fenómenos psicológicos,
digamos inteligencia, agresividad, ansiedad o cualquier otro que nos interese. Esta,
sencillamente, es la base del diagnóstico. No es posible diagnosticar a un sujeto sin
disponer de un parámetro de comparación y tales parámetros, para ser válidos y
confiables, tienen que estimarse a partir de muestras de la población específica de
interés.
Segundo. En cierta fábrica, nos interesa evaluar el efecto de una intervención
conductual sobre la seguridad en el trabajo. Podemos hacerlo midiendo los
accidentes laborales durante un tiempo, realizando controladamente la intervención
en una segunda fase y posteriormente volviendo a medir la ocurrencia de

61
accidentes. Comparando la primera medida (pretest) con la segunda medida

(postest) podemos evaluar objetivamente el efecto que tuvo la intervención. Deja de
ser necesario creer en el efecto de ella. Si se aplica una metodología sólida
(midiendo adecuadamente, controlando variables extrañas, etcétera), y se
comparan estadísticamente el pretest contra el postest (mediante una prueba de
hipótesis, también adecuada a los datos), las conclusiones serán científicas, dado
un nivel de confianza.
Tercero. Ahora nos interesa decidir, de entre dos exámenes de admisión a un
programa de licenciatura. ¿Cuál debemos elegir? Nuevamente, asumimos que se
aplicó una metodología adecuada (asignación aleatoria, definición de variables,
etcétera) y formamos dos grupos, uno para el examen A y otro para el examen B.
Después obtenemos los puntajes de cada uno de los sujetos aceptados, tanto en el
examen como en el promedio final que obtuvieron al concluir el programa educativo.
Correlacionamos ambas variables (puntaje en el examen contra promedio general
de carrera) en cada grupo y encontramos que el coeficiente de correlación en el
examen B es significativamente mayor que el coeficiente de correlación en el
examen A. Estamos ante una conclusión científica: el examen B tiene un mayor
poder predictivo sobre el aprovechamiento escolar que el examen A. Simple y
llanamente, debe elegirse al examen B porque es mejor que el A.
En casos como los anteriores se habrá pasado de la fe a la ciencia.
*
Esto es lo que estudiamos en este curso. En la práctica real, por supuesto, los casos
pueden multiplicarse y volverse más complejos ante la enorme variedad de
situaciones que se presentan en la psicología, la antropología, la comunicación, la
sociología, la economía y las demás ciencias del comportamiento. Pero si el
profesional de estas disciplinas mira a su práctica desde esta óptica, estará en
posibilidad de que su práctica sea científica.


62
NOTACIÓN
+ Suma
− Resta
 Multiplicación
/ División
 Raíz cuadrada
 Significa, denota, representa
= Igual a
 Menor que
 Menor o igual que
 Mayor que
 Mayor o igual que
H Hipótesis de investigación
H0 Hipótesis nula
H1 Hipótesis alternativa 1
H2 Hipótesis alternativa 2
HT Hipótesis de trabajo
X Dato, una medida de la variable X
Y Dato, una medida de la variable Y
N Tamaño de la población o universo
n Tamaño de la muestra
f Frecuencia con que aparece un dato
 Sumar todos los operandos
% Porcentaje
P Proporción poblacional
p Proporción muestral
 Media aritmética poblacional
Media aritmética muestral
 Desviación estándar poblacional
S Desviación estándar muestral
2 Varianza poblacional
S2 Varianza muestral
r Coeficiente de correlación


63
TABLA 1. PROBABILIDADES ACUMULADAS EN LA

DISTRIBUCIÓN NORMAL
0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993
3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995
3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997
3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998
3.5 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998
3.6 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998
3.7 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
En Excel 2016 los valores están dados por la función:

=DISTR.NORM.ESTAND.N (z,acumulado)
donde:
DISTR.NORM.ESTAND.N ≡ Distribución normal estándar
z ≡ Calificación estándar (valor abscisa)
acumulado ≡ Verdadero para probabilidad acumulada (como en la
tabla); Falso para la función de densidad de probabilidad.

64
TABLA 2. FRACTILES PARA LA DISTRIBUCIÓN Χ2

Niveles de significación ()
GL 0.10 0.05 0.025 0.01
1 2.71 3.84 5.02 6.63
2 4.61 5.99 7.38 9.21
3 6.25 7.81 9.35 11.34
4 7.78 9.49 11.14 13.28
5 9.24 11.07 12.83 15.09
6 10.64 12.59 14.45 16.81
7 12.02 14.07 16.01 18.48
8 13.36 15.51 17.53 20.09
9 14.68 16.92 19.02 21.67
10 15.99 18.31 20.48 23.21
11 17.28 19.68 21.92 24.72
12 18.55 21.03 23.34 26.22
13 19.81 22.36 24.74 27.69
14 21.06 23.68 26.12 29.14
15 22.31 25.00 27.49 30.58
16 23.54 26.30 28.85 32.00
17 24.77 27.59 30.19 33.41
18 25.99 28.87 31.53 34.81
19 27.20 30.14 32.85 36.19
20 28.41 31.41 34.17 37.57
21 29.62 32.67 35.48 38.93
22 30.81 33.92 36.78 40.29
23 32.01 35.17 38.08 41.64
24 33.20 36.42 39.36 42.98
25 34.38 37.65 40.65 44.31
26 35.56 38.89 41.92 45.64
27 36.74 40.11 43.19 46.96
28 37.92 41.34 44.46 48.28
29 39.09 42.56 45.72 49.59
30 40.26 43.77 46.98 50.89
40 51.81 55.76 59.34 63.69
50 63.17 67.50 71.42 76.15
60 74.40 79.08 83.30 88.38
70 85.53 90.53 95.02 100.43
80 96.58 101.88 106.63 112.33
90 107.57 113.15 118.14 124.12
100 118.50 124.34 129.56 135.81
= INV.CHICUAD.CD(probabilidad;grados_de_libertad)
donde:
INV.CHICUAD.CD ≡ Inverso de la distribución Chi Cuadrada de cola derecha
probabilidad ≡ Nivel de significación (α)
grados_de_libertad ≡ Grados de libertad

65
TABLA 3. FRACTILES DE LA DISTRIBUCIÓN T

Niveles de significación ()
GL
0.10 0.05 0.025 0.01
1 3.08 6.31 12.71 31.82
2 1.89 2.92 4.30 6.96
3 1.64 2.35 3.18 4.54
4 1.53 2.13 2.78 3.75
5 1.48 2.02 2.57 3.36
6 1.44 1.94 2.45 3.14
7 1.41 1.89 2.36 3.00
8 1.40 1.86 2.31 2.90
9 1.38 1.83 2.26 2.82
10 1.37 1.81 2.23 2.76
11 1.36 1.80 2.20 2.72
12 1.36 1.78 2.18 2.68
13 1.35 1.77 2.16 2.65
14 1.35 1.76 2.14 2.62
15 1.34 1.75 2.13 2.60
16 1.34 1.75 2.12 2.58
17 1.33 1.74 2.11 2.57
18 1.33 1.73 2.10 2.55
19 1.33 1.73 2.09 2.54
20 1.33 1.72 2.09 2.53
21 1.32 1.72 2.08 2.52
22 1.32 1.72 2.07 2.51
23 1.32 1.71 2.07 2.50
24 1.32 1.71 2.06 2.49
25 1.32 1.71 2.06 2.49
26 1.32 1.71 2.06 2.48
27 1.31 1.70 2.05 2.47
28 1.31 1.70 2.05 2.47
29 1.31 1.70 2.05 2.46
30 1.31 1.70 2.04 2.46
40 1.30 1.68 2.02 2.43
60 1.30 1.67 2.00 2.39
120 1.29 1.66 1.98 2.36
 1.28 1.65 1.96 2.33

= INV.T(probabilidad,grados_de_libertad)
donde:
INV.T ≡ Inverso de la distribución t Student de cola izquierda
grados_de_libertad ≡ Grados de libertad.
Nota: Se asume que se trabaja una prueba direccionada, también llamada prueba de una cola.
Excel tiene una función para dos colas: INV.T.2C. Si tiene dudas. revise [1:50-52].

66
TABLA 4. FRACTILES DE LA DISTRIBUCIÓN F

Proporciona valores críticos para probar hipótesis con  = 0.05.
GL Numerador
2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 
2 19.00 19.16 19.25 19.30 19.33 19.35 19.37 19.38 19.40 19.41 19.43 19.45 19.45 19.46 19.47 19.48 19.49 19.50
3 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81 8.79 8.74 8.70 8.66 8.64 8.62 8.59 8.57 8.55 8.53
4 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5.96 5.91 5.86 5.80 5.77 5.75 5.72 5.69 5.66 5.63
5 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.74 4.68 4.62 4.56 4.53 4.50 4.46 4.43 4.40 4.37
6 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10 4.06 4.00 3.94 3.87 3.84 3.81 3.77 3.74 3.70 3.67
7 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 3.64 3.57 3.51 3.44 3.41 3.38 3.34 3.30 3.27 3.23
8 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.39 3.35 3.28 3.22 3.15 3.12 3.08 3.04 3.01 2.97 2.93
9 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18 3.14 3.07 3.01 2.94 2.90 2.86 2.83 2.79 2.75 2.71
10 4.10 3.71 3.48 3.33 3.22 3.14 3.07 3.02 2.98 2.91 2.85 2.77 2.74 2.70 2.66 2.62 2.58 2.54
11 3.98 3.59 3.36 3.20 3.09 3.01 2.95 2.90 2.85 2.79 2.72 2.65 2.61 2.57 2.53 2.49 2.45 2.40
12 3.89 3.49 3.26 3.11 3.00 2.91 2.85 2.80 2.75 2.69 2.62 2.54 2.51 2.47 2.43 2.38 2.34 2.30
13 3.81 3.41 3.18 3.03 2.92 2.83 2.77 2.71 2.67 2.60 2.53 2.46 2.42 2.38 2.34 2.30 2.25 2.21
14 3.74 3.34 3.11 2.96 2.85 2.76 2.70 2.65 2.60 2.53 2.46 2.39 2.35 2.31 2.27 2.22 2.18 2.13
15 3.68 3.29 3.06 2.90 2.79 2.71 2.64 2.59 2.54 2.48 2.40 2.33 2.29 2.25 2.20 2.16 2.11 2.07
GL Denominador
16 3.63 3.24 3.01 2.85 2.74 2.66 2.59 2.54 2.49 2.42 2.35 2.28 2.24 2.19 2.15 2.11 2.06 2.01
17 3.59 3.20 2.96 2.81 2.70 2.61 2.55 2.49 2.45 2.38 2.31 2.23 2.19 2.15 2.10 2.06 2.01 1.96
18 3.55 3.16 2.93 2.77 2.66 2.58 2.51 2.46 2.41 2.34 2.27 2.19 2.15 2.11 2.06 2.02 1.97 1.92
19 3.52 3.13 2.90 2.74 2.63 2.54 2.48 2.42 2.38 2.31 2.23 2.16 2.11 2.07 2.03 1.98 1.93 1.88
20 3.49 3.10 2.87 2.71 2.60 2.51 2.45 2.39 2.35 2.28 2.20 2.12 2.08 2.04 1.99 1.95 1.90 1.84
21 3.47 3.07 2.84 2.68 2.57 2.49 2.42 2.37 2.32 2.25 2.18 2.10 2.05 2.01 1.96 1.92 1.87 1.81
22 3.44 3.05 2.82 2.66 2.55 2.46 2.40 2.34 2.30 2.23 2.15 2.07 2.03 1.98 1.94 1.89 1.84 1.78
23 3.42 3.03 2.80 2.64 2.53 2.44 2.37 2.32 2.27 2.20 2.13 2.05 2.01 1.96 1.91 1.86 1.81 1.76
24 3.40 3.01 2.78 2.62 2.51 2.42 2.36 2.30 2.25 2.18 2.11 2.03 1.98 1.94 1.89 1.84 1.79 1.73
25 3.39 2.99 2.76 2.60 2.49 2.40 2.34 2.28 2.24 2.16 2.09 2.01 1.96 1.92 1.87 1.82 1.77 1.71
26 3.37 2.98 2.74 2.59 2.47 2.39 2.32 2.27 2.22 2.15 2.07 1.99 1.95 1.90 1.85 1.80 1.75 1.69
27 3.35 2.96 2.73 2.57 2.46 2.37 2.31 2.25 2.20 2.13 2.06 1.97 1.93 1.88 1.84 1.79 1.73 1.67
28 3.34 2.95 2.71 2.56 2.45 2.36 2.29 2.24 2.19 2.12 2.04 1.96 1.91 1.87 1.82 1.77 1.71 1.65
29 3.33 2.93 2.70 2.55 2.43 2.35 2.28 2.22 2.18 2.10 2.03 1.94 1.90 1.85 1.81 1.75 1.70 1.64
30 3.32 2.92 2.69 2.53 2.42 2.33 2.27 2.21 2.16 2.09 2.01 1.93 1.89 1.84 1.79 1.74 1.68 1.62
40 3.23 2.84 2.61 2.45 2.34 2.25 2.18 2.12 2.08 2.00 1.92 1.84 1.79 1.74 1.69 1.64 1.58 1.51
60 3.15 2.76 2.53 2.37 2.25 2.17 2.10 2.04 1.99 1.92 1.84 1.75 1.70 1.65 1.59 1.53 1.47 1.39
120 3.07 2.68 2.45 2.29 2.18 2.09 2.02 1.96 1.91 1.83 1.75 1.66 1.61 1.55 1.50 1.43 1.35 1.25
 3.00 2.60 2.37 2.21 2.10 2.01 1.94 1.88 1.83 1.75 1.67 1.57 1.52 1.46 1.39 1.32 1.22 1.00

=INV.F.CD(probabilidad,grados_de_libertad1,grados_de_libertad2)
donde:
INV.F.CD ≡ Inverso de la distribución de probabilidad F de cola derecha
grados_de_libertad1 ≡ Grados de libertad en el numerador
grados_de_libertad2 ≡ Grados de libertad en el denominador

67
TABLA 5. VALORES CRÍTICOS PARA EL COEFICIENTE

DE PEARSON
Proporciona valores críticos para probar con dirección (una cola) la significación de un
coeficiente de correlación lineal calculado por el método de Pearson.
Nivel de significación (α)
GL 0.10 0.05 0.025 0.01
1 0.9511 0.9877 0.9969 0.9995
2 0.8000 0.9000 0.9500 0.9800
3 0.6870 0.8054 0.8783 0.9343
4 0.6084 0.7293 0.8114 0.8822
5 0.5509 0.6694 0.7545 0.8329
6 0.5067 0.6215 0.7067 0.7887
7 0.4716 0.5822 0.6664 0.7498
8 0.4428 0.5494 0.6319 0.7155
9 0.4187 0.5214 0.6021 0.6851
10 0.3981 0.4973 0.5760 0.6581
11 0.3802 0.4762 0.5529 0.6339
12 0.3646 0.4575 0.5324 0.6120
13 0.3507 0.4409 0.5140 0.5923
14 0.3383 0.4259 0.4973 0.5742
15 0.3271 0.4124 0.4821 0.5577
16 0.3170 0.4000 0.4683 0.5425
17 0.3077 0.3887 0.4555 0.5285
18 0.2992 0.3783 0.4438 0.5155
19 0.2914 0.3687 0.4329 0.5034
20 0.2841 0.3598 0.4227 0.4921
25 0.2546 0.3233 0.3809 0.4451
30 0.2327 0.2960 0.3494 0.4093
35 0.2156 0.2746 0.3246 0.3810
40 0.2018 0.2573 0.3044 0.3578
45 0.1903 0.2429 0.2876 0.3384
50 0.1806 0.2306 0.2732 0.3218
55 0.1723 0.2201 0.2609 0.3074
60 0.1650 0.2108 0.2500 0.2948
70 0.1528 0.1954 0.2319 0.2737
80 0.1430 0.1829 0.2172 0.2565
90 0.1348 0.1726 0.2050 0.2422
100 0.1279 0.1638 0.1946 0.2301
Dada la ecuación r = t/(n-2+t2), obteniendo t con la función de Excel 2016
=INV.T(probabilidad,grados_de_libertad)
donde:
INV.T ≡ Distribución t Student de una cola
grados_de_libertad ≡ Grados de libertad (n-2)
puede calcularse el valor crítico de prueba direccionada, dados cualquier α y n.

68
BIBLIOGRAFÍA
La bibliografía relacionada directa o indirectamente con la estadística inferencial es muy
numerosa; dependiendo del tema concreto que se busque, siempre se encontrará algún
libro más adecuado que otros. Sin embargo, consideramos que las obras que se fichan
y comentan aquí pueden proporcionar al estudiante de un curso introductorio, como es
el que aquí abordamos, elementos suficientes para la comprensión y aplicación de sus
métodos.
Cowles, M. & Davis, C. (1982). “On the origins of the .05 level of statistical
significance”. American Psychologist, May 1982, Vol. 37, No. 5, 553-558.
Un artículo para entender el concepto de nivel de significación −fundamental en la psicología
científica− y su historia. Un trabajo desmitificador.
Cristo, M. y Guerra, C. (2001). Comportamiento de las dócimas paramétricas
respecto a las no paramétricas en distribuciones no normales. Cuba. Instituto
Superior de Ciencias Agrícolas de La Habana. (Tesis de maestría).
Importante estudio sobre la potencia y la eficiencia de pruebas estadísticas. Útil para quien quiera
profundizar en el aspecto matemático del tema.
Daniel, W. (1981). Estadística con aplicaciones a las ciencias sociales y a la
educación. México. McGraw-Hill. (504 p.)
Libro que abarca elementos, realmente muy básicos, de teoría de la probabilidad, así como
técnicas estadísticas descriptivas e inferenciales. Muy útil para varias aplicaciones en ciencias de la
conducta.
Johnson, R. (1979). Estadística elemental. México. Trillas. (592 p.)
Es una obra accesible a estudiantes de licenciatura. Abarca desde conceptos básicos y
elementos de probabilidad, hasta estadística descriptiva e inferencias paramétrica y no paramétrica.
Incluye gran cantidad de ejemplos cuyas respuestas se presentan al final.
Méndez, I. (1976). Modelos estadísticos lineales, interpretación y aplicaciones.
México. Foccavi/Conacyt.
Aunque contiene pistas que ayudan a la comprensión intuitiva, se trata de un estudio orientado a
formalización matemática y, por tanto, de lectura que puede no resultar fácil para un estudiante que
comienza a abordar el estudio de la estadística inferencial. Incluye una bibliografía clasificada que
permite elegir obras conforme al perfil de conocimientos del lector.
Meredith, W. (1977). Manual de tablas estadísticas con aplicación a las ciencias de
la conducta. México. Trillas. (345 pp.)
Se trata de una compilación que fue elaborada especialmente para las ciencias de la conducta.
Contiene una útil colección de funciones numéricas, desde interpolación, logarítmicas y
trigonométricas, hasta integrales y constantes físicas; tablas numéricas diversas; distribuciones de
probabilidad; pruebas de hipótesis, paramétricas y no paramétricas; análisis de correlación y tablas
estadísticas diversas. Aunque el desarrollo de las calculadoras, la computadora y la internet han
vuelto obsoletas ciertas partes del contenido (por ejemplo las tablas de logaritmos y las
trigonométricas), la obra en su conjunto no deja de ser una herramienta básica para la investigación
del comportamiento.
Popper, K. (2008). La lógica de la investigación científica, estructura y función.
Madrid. Editorial Tecnos. (576 pp.)
Libro esencial sobre epistemología científica. En una larga serie de artículos cortos, el autor
aborda sistemáticamente el método de la ciencia contemporánea, desde sus más profundos

69
fundamentos epistemológicos. Rechazando el sentido común y el inductivismo, aproximaciones

ingenuas que proponen que con observar –careciendo de un problema previo- y acumular datos
puede crearse conocimiento científico, Popper configura el método que actualmente aplica la ciencia,
identificando y asumiendo sus limitaciones. Debiera leerlo por completo cualquier estudiante de
ciencias del comportamiento.
Runyon, R. y Haber, A. (1985). Estadística para las ciencias sociales. México. Fondo
Educativo Interamericano. (476 p.)
Asume un enfoque práctico, apoyado en ejemplos claros y directos, se orienta más al
procedimiento estadístico que la teoría matemática. Y esta puede ser precisamente su desventaja,
cuando se carece de antecedentes puede resultar difícil comprender la estructura de los
procedimientos. Conviene usarlo en combinación con otros textos que contengan más teoría.
Siegel, S. (1980). Estadística no paramétrica aplicada a las ciencias de la conducta.
México. Trillas. (437 p.)
Es una obra clásica y muy conocida por la claridad de su exposición de los temas y la inclusión
de ejemplos que se responden dentro de la propia explicación.
Steel R. y Torrie J. (1997). Bioestadística, principios y procedimientos. México.
McGraw-Hill. (622 p.)
Libro de consulta que puede aportar ideas y procedimientos, principalmente para un enfoque
experimental.
Suppes, y Hill, S. (1979). Introducción a la lógica matemática. México. Ed. Reverté.
(296 p.)
Libro accesible, pero riguroso, sobre los temas esenciales de la lógica matemática. Resulta
fundamental para el estudiante que comienza a internarse en la estadística y quiere comprender sus
más importantes fundamentos lógicos. Más aun, se requiere para cualquier aplicación en ciencias
de la conducta que quiera trascender la opinión o el sentido común e internarse en el rigor científico.
Winkler, R. y Hays, W. (1975). Statistics, probability, inference, and decision”. USA.
Holt, Rinehart and Winston. (889 p.)
Es una obra amplia y profunda, que sin embargo da más importancia a la conceptualización y a
la explicación de los temas que al rigor de su formalización matemática. Muy útil para encontrar
conceptos fundamentales de estadística, explicados con gran precisión. No conocemos traducción
al español.
Yamane, T. (1975). Estadística. México. HARLA. (771 pp.)
Un texto clásico e indispensable para comprender los fundamentos de la estadística. No debiera
desanimar al estudiante su contenido matemático, pues con algún esfuerzo es fácil de comprender.
Young, R. y Veldman, D. (1975). Introducción a la estadística aplicada a las ciencias
de la conducta. México. Trillas. (584 p.)
Fue escrito cuando la moda eran los textos para el aprendizaje programado. Haciendo a un lado
las “evaluaciones contingentes”, que muy poco aportan al aprendizaje de la estadística, se trata de
una obra que puede aclarar varios puntos en la estadística inferencial.

70
RESPUESTAS A LOS EJERCICIOS

EJERCICIO 2.1
Se realizó una encuesta sobre aceptación de una decisión de gobierno con un error muestral del 7%
y se encontró que:
Categoría Frecuencia
Aceptación 847
Indeciso 321
Rechazo 1,354
Estime la proporción de la población que acepta la decisión de gobierno.
Respuesta
COMIENZA
PASO 1. e = 0.07.
PASO 2.
Categoría f p
Aceptación 847 0.3358
Indeciso 321 0.1273
Rechazo 1,354 0.5369
Suma 2,522 1.0000
PASO 3. Puesto que la estimación es directa, tenemos que:
P(Aceptación) = 33.58%
PASO 4. Conclusión: Se concluye con un nivel de confianza del 93% que 33.58% de
la población estudiada acepta la decisión de gobierno.
TERMINA

EJERCICIO 2.2
En una encuesta de preferencia electoral, realizada con un margen de error del 5%, se obtuvieron
los siguientes resultados:
Declaración Frecuencia
Partido A 319
Partido B 845
Partido C 143
Abstención 201
Estime la proporción de la votación que se espera para el Partido B.
Respuesta
COMIENZA
PASO 1. e = 0.05.

71
PASO 2.
Declaración f p
Partido A 319 0.2115
Partido B 845 0.5603
Partido C 143 0.0949 ← ajuste +1
Abstención 201 0.1333
Suma 1,508 1.0000
PASO 3. Puesto que la estimación es directa:
P(Partido B) = 56.03%.
PASO 4. Conclusión: Se concluye con un nivel de confianza del 95% que el Partido
B obtendrá el 56.03% de los votos.
TERMINA

EJERCICIO 3.1
Para estimar el cociente de memoria de cierta población, se tomó una muestra representativa al
93%, integrada por 34 sujetos. Se encontró una media muestral de 88.26. Realice la estimación
puntual de la media poblacional.
Respuesta
COMIENZA
PASO 1. e = 0.07.
PASO 2. = 88.26.
μ = 88.26.
PASO 4. Conclusión: Se concluye con un nivel de confianza del 93% que la población
estudiada tiene un cociente de memoria promedio de 88.26.
TERMINA

EJERCICIO 3.2
Se estudió una muestra representativa integrada por 58 sujetos, con un error del 4%, de cierto sector
urbano para estimar su nivel de ingresos en términos de salarios mínimos por día. Se obtuvo una
media muestral de 6.21. Realice la estimación puntual de la media poblacional.
Respuesta
COMIENZA
PASO 1. e = 0.04.
PASO 2. = 6.21.

72
μ = 6.21.
PASO 4. Conclusión: Se concluye con un nivel de confianza del 96% que la población
estudiada tiene un ingreso promedio de 6.21 salarios mínimos por día.
TERMINA

EJERCICIO 4.1
Considere el ejemplo 3.1. Se encontró una desviación estándar muestral de 7.82. Realice la
estimación puntual de la desviación estándar poblacional.
Respuesta
COMIENZA
PASO 1. e = 0.07.
PASO 2. n = 34 Observación:
S>
S = 7.82 y, por tanto
S2 = 61.15.
PASO 3. 2 = 61.15  ((34-1)/34)
2 = 59.35
 = 7.70.
PASO 4. Conclusión: Se concluye con un nivel de confianza del 93% que el cociente
de memoria de la población estudiada tiene una desviación estándar de 7.70
unidades de memoria.
TERMINA

EJERCICIO 4.2
Considere el ejemplo 3.2. Se encontró una varianza muestral 0.69. Realice la estimación puntual de
la desviación estándar poblacional.
Respuesta
COMIENZA
PASO 1. e = 0.04. Observación:
PASO 2. n = 58 S2 >  2
S2 = 0.69.
PASO 3. 2 = 0.69  ((58-1)/58)
2 = 0.68
 = 0.82.
PASO 4. Conclusión: Se concluye con un nivel de confianza del 96% que los ingresos
de la población estudiada tienen una desviación estándar de 0.82 salarios mínimos
por día.

73
TERMINA

EJERCICIO 5.1
A partir del ejemplo 2.1, construya el intervalo de confianza para la categoría Rechazo.
Respuestas
COMIENZA
PASO 1. e = 0.07.
PASO 2.
Categoría f p
Aceptación 847 0.3358
Indeciso 321 0.1273
Rechazo 1,354 0.5369
Suma 2,522 1.0000
PASO 3. 1-(0.07/2) = 0.9650 → en Tabla 1: z = 1.81
PASO 4. p(Rechazo) = 0.5369.
PASO 5. q(Rechazo) = 1-0.5369 = 0.4631.
PASO 6. Calculemos el límite inferior:
p-(z(((pq)/n)))
0.5369-(1.81(((0.53690.4631)/2522))) = 0.5189
ahora el límite superior:
p+(z(((pq)/n)))
0.5369+(1.81(((0.53690.4631)/2522))) = 0.5549
por tanto, el intervalo de confianza es:
0.5189  P(Rechazo)  0.5549.
PASO 7. Conclusión: Se concluye con un nivel de confianza del 93% que entre el
51.89% y el 55.49% de la población estudiada rechaza la decisión de gobierno.
TERMINA

EJERCICIO 5.2.
A partir del ejemplo 2.2, construya el intervalo de confianza para el Partido A.
Respuesta
COMIENZA
PASO 1. e = 0.05.
PASO 2.

74
Declaración f p
Partido A 319 0.2115
Partido B 845 0.5603
Partido C 143 0.0949 ← ajuste +1
Abstención 201 0.1333
Suma 1,508 1.0000
PASO 3. 1-(0.05/2) = 0.9750 → en Tabla 1: z = 1.96.
PASO 4. p(Partido A) = 0.2115.
PASO 5. q(Partido A) = 1-0.2115 = 0.7885.
p-(z(((pq)/n)))
0.2115-(1.96(((0.21150.7885)/1508))) = 0.1909
ahora el límite superior:
p+(z(((pq)/n)))
0.2115+(1.96(((0.21150.7885)/1508))) = 0.2321
por tanto, el intervalo de confianza es:
0.1909  P(Partido A)  0.2321.
PASO 7. Conclusión: Se concluye con un nivel de confianza del 95% que entre el
19.09% y el 23.21% de la población estudiada votará por el Partido A.
TERMINA

EJERCICIO 6.1
De los ejemplos 3.1 y 4.1, tenemos que e = 7%, = 88.26,  = 7.94 y n = 34. Construya el intervalo
de confianza para la media.
Repuesta
COMIENZA
PASO 1. α = 0.07
PASO 2. = 88.26
 = 7.94
n = 34
PASO 3. 1-(0.07/2) = 0.9650, entonces en tablas encontramos: z = 1.81
-(z(/(n)))
88.26-(1.81(7.94/(34))) = 85.80
ahora el límite superior
+(z(/(n)))
88.26+(1.81(7.94/(34))) = 90.72
por tanto, el intervalo de confianza es

75
85.80 ≤  ≤ 90.72.
PASO 5. Conclusión: Se concluye con un nivel de confianza del 93% que el promedio
de memoria de la población estudiada se encuentra entre 85.80 y 90.72.
TERMINA

EJERCICIO 6.2
De los ejemplos 3.2 y 4.2, tenemos que e = 4%, = 6.21,  = 0.84 y n = 58. Construya el intervalo
de confianza para la media.
Respuesta
COMIENZA
PASO 1. α = 0.04
PASO 2. = 6.21
 = 0.84
n = 58
PASO 3. 1-(0.04/2) = 0.9800, entonces en tablas encontramos: z = 2.05
-(z(/(n)))
6.21-(2.05(0.84/(58))) = 5.98
ahora el límite superior
+(z(/(n)))
6.21+(2.05(0.84/(58))) = 6.44
por tanto, el intervalo de confianza es
5.98 ≤  ≤ 6.44.
PASO 5. Conclusión: Se concluye con un nivel de confianza del 96% que el promedio
de ingreso de la población estudiada se encuentra entre 5.98 y 6.44 salarios
mínimos diarios.
TERMINA

EJERCICIO 7.1
Se realizó un estudio con un nivel de confianza del 99% para probar si la pertenencia a estratos
sociales está relacionada con la modalidad de educación media superior elegida. Fueron
seleccionados al azar 390 alumnos de secundaria, se identificó el estrato social al que pertenecían
y la modalidad que eligieron para estudiar la educación media superior. Se obtuvieron los siguientes
datos:
Estrato social a que pertenece el alumno
I, II III IV V
Universitaria 23 40 16 2
Modalidad
Tecnológica 11 75 107 14
elegida
Comercial 1 31 60 10

76
Observe que para cumplir con las condiciones de aplicación de la prueba hubo necesidad de
combinar los estratos I y II
Respuesta
COMIENZA
H0: El estrato social no estará relacionado con la modalidad educativa elegida.
H1: El estrato social estará relacionado con la modalidad educativa elegida.
PASO 2. Se cumplen las condiciones de aplicación porque:
1. Los sujetos inscritos en cada modalidad son diferentes y, en consecuencia, los
grupos son independientes.
2. Ambas variables están transformadas al nivel nominal.
3. Hay 3 grupos.
4. Hay 4 categorías.
5. Ninguna celda tiene frecuencia de cero. Nótese que para satisfacer esta
condición hubo necesidad de combinar las categorías I y II en Estrato Social.
6. Dos celdas, que constituyen el 16.67%, tiene frecuencias observadas menores
a 5.
PASO 3. NC = 99% → α = 0.01.
PASO 4. k=3
r=4
GL = (3-1)(4-1) = 6
PASO 5. En Tabla 2 encontramos que χ2T = 16.81.
PASO 6. Construir nota de cálculo:

Estrato social
I, II III IV V Sumas
23 40 16 2 81
Universitaria 7.27 30.32 38.01 5.40
34.03 3.09 12.75 2.14
11 75 107 14 207
Modalidad
Tecnológica 18.58 77.49 97.13 13.80
elegida
3.09 0.08 1.00 0.00
1 31 60 10 102
Comercial 9.15 38.18 47.86 6.80
7.26 1.35 3.08 1.51
Sumas 35 146 183 26 390
PASO 7. χ2O = 69.38
PASO 8. (χ2O = 69.38) > (χ2T = 16.80) por lo que H0 debe ser rechazada y

77
aceptamos H1.
PASO 9. Se concluye con un nivel de confianza del 99% que en la población de
estudio el estrato social está relacionado con la modalidad educativa elegida.
TERMINA

EJERCICIO 7.2
Para estudiar la relación entre autoritarismo y ocupación elegida en el ejército, se realizó una
investigación con un nivel de confianza del 99%. Fueron seleccionados al azar 237 efectivos, se
midió su nivel de autoritarismo y se identificó su ocupación. Se obtuvieron los siguientes datos:
Autoritarismo
Bajo Medio Alto
Medicina 16 21 57
Armamento 15 22 25
Ocupación
Transmisiones 9 14 28
Suministros 8 9 13
Respuesta
COMIENZA
H0: El autoritarismo no estará relacionado con la ocupación elegida.
H1: El autoritarismo estará relacionado con la ocupación elegida.
PASO 2. Se cumplen las condiciones, pues:
1. Los sujetos de cada profesión son diferentes (están integrados por diferentes
personas). En consecuencia, los grupos son independientes.
2. Ambas variables están transformadas al nivel nominal.
3. Hay 4 grupos.
4. Hay 3 categorías.
5. Ninguna celda tiene frecuencia de cero.
6. Ninguna celda tiene frecuencia observada menor a 5.
PASO 3. NC = 99% → α = 0.01.
PASO 4. k=4
r=3
GL = (4-1)  (3-1) = 6
PASO 5. En Tabla 2 encontramos que χ2T = 16.81.
PASO 6. Nota de cálculo:

78
Autoritarismo
Bajo Medio Alto Sumas
16 21 57 94
Medicina 19.04 26.18 48.78
0.49 1.02 1.39
15 22 25 62
Armamento 12.56 17.27 32.18
0.47 1.30 1.60
Ocupación
9 14 28 51
Transmisiones 10.33 14.20 26.47
0.17 0.00 0.09
8 9 13 30
Suministros 6.08 8.35 15.57
0.61 0.05 0.42
Sumas 48 66 123 237
PASO 7. χ2O = 7.61
PASO 8. (χ2O = 7.61) < (χ2T = 16.81) por lo que H0 no puede ser rechazada.
PASO 9. Se concluye con un nivel de confianza del 99% que la ocupación no afecta
el autoritarismo en la población militar bajo estudio.
TERMINA

EJERCICIO 8.1
Se realizó un estudio con un nivel de confianza del 95% para probar si existen diferencias en el
aprendizaje de los alumnos de dos sistemas escolares. Se diseñó un test estandarizado y se aplicó
a muestras aleatorias obtenidas en cada sistema. Se obtuvieron los siguientes resultados:
Muestras
Sistema escolar A Sistema escolar B
Tamaño 62 51
Media 72.23 74.57
Varianza 64.26 63.01
Respuesta
COMIENZA
H0: No existirá diferencia de aprendizaje entre los sistemas escolares A y B.
H1: El aprendizaje en el sistema escolar A será mayor que en el B.
H2: El aprendizaje en el sistema escolar A será menor que en el B.
PASO 2. Las condiciones se cumplen porque:
1. Los puntajes de aprendizaje son medidas intervalares.
2. Las muestras se obtuvieron al azar.
3. Las muestras son independientes, pues los alumnos del sistema A son

79
diferentes al del B.
PASO 3. α = 0.05.
PASO 4. Estadígrafos:
n1 = 62
n2 = 51
1 = 72.23
2 = 74.57
2
S 1 = 64.26
S22 = 63.01
PASO 5. GL = 62+51-2 = 111
PASO 6. En Tabla 3: tT = 1.66.
PASO 7. Calcular la varianza combinada
S2p = (((n1-1)S21)+((n2-1) S22))/(n1+n2 -2)
S2p = (((62-1)64.26)+((51-1)63.01))/(62+51-2)
S2P = 63.70
tO = ( 1- 2)/(((S2p/n1)+ (S2p/n2)))
tO = (72.23-74.57)/(√((63.70/62)+(63.70/51)))
tO = -1.55
PASO 9. (tO=|1.55|) < (tT=1.66) por lo que no podemos rechazar la hipótesis nula.
PASO 10. Concluimos con un nivel de confianza del 95% que no existe diferencia
significativa en el aprendizaje entre los dos sistemas escolares.
TERMINA

EJERCICIO 8.2
Para probar la eficacia de dos sistemas de incentivos sobre la productividad de los empleados de
una fábrica, se llevó a cabo un experimento con un nivel de confianza del 97.50%. En una planta se
aplicó un plan de bonos de sobresueldo y en otra un plan de bonos de tiempo libre. La productividad
se midió como el número de artículos obtenidos por jornada de trabajo. Se obtuvieron los siguientes
resultados:
Muestras
Sobresueldo Tiempo libre
Tamaño 98 87
Media 113.23 109.12
Varianza 124.34 132.14
Respuesta
COMIENZA
PASO 1. Interesa decidir con cuál de los dos sistemas se obtiene mayor eficacia, por
lo que debemos probar con dirección

80
H0: No existirá diferencia de productividad entre las condiciones sobresueldo y

tiempo libre.
H1: La productividad en sobresueldo será mayor que en tiempo libre.
H2: La productividad en sobresueldo será menor que en tiempo libre.
PASO 2. Asumimos que las condiciones se cumplen porque no sabemos si los
empleados (o las plantas) fueron elegidos al azar.
PASO 3. α = 0.025.
PASO 4. Estadígrafos:
n1 = 98
n2 = 87
1 = 113.23
2 = 109.12
S21 = 124.34
S22 = 132.14
PASO 5. GL = 98+87-2 = 183
PASO 7. Calcular la varianza combinada:
S2p = (((n1-1)S21)+((n2-1) S22))/(n1+n2 -2)
S2p = (((98-1)124.34)+((87-1)132.14))/(98+87-2)
S 2 P = 128.01
PASO 8. Calcular el valor empírico
tO = ( 1- 2)/(((S2p/n1)+ (S2p/n2)))
tO = (113.23-109.12)/(√((128.01/98)+(128.01/87)))
tO = 2.47
PASO 9. (tO=2.47) > (tT=1.96) por lo que debemos rechazar la hipótesis nula. Ahora,
como el signo de tO es positivo, esto es, ( 1=113.23) > ( 2=109.12), aceptamos la
hipótesis alternativa 1.
PASO 10. Concluimos con un nivel de confianza del 97.50% que la primera población
demostró mayor eficacia que la segunda. En otras palabras, bajo la condición de
sobresueldo se obtuvo mayor productividad que bajo la condición de tiempo libre.
TERMINA

EJERCICIO 9.1
Para probar el efecto de un método de estudio sobre el aprendizaje, se realizó un experimento con
un nivel de confianza del 99%. Se midió el aprendizaje de los alumnos en pretest y postest mediante
pruebas en formas equivalentes y obtuvieron los siguientes resultados:
Alumno 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Pretest 86 64 79 92 61 78 64 98 76 68 84 79 67 88 66
Postest 85 67 79 94 68 83 63 99 79 66 87 82 72 78 67

81

Respuesta
COMIENZA
PASO 1. Hipótesis.
H0: No existirá diferencia en el aprendizaje en pretest y postest.
H1: El aprendizaje en pretest será mayor que en postest.
H2: El aprendizaje en pretest será menor que en postest.
PASO 2. Asumimos que se cumplen las condiciones, porque no sabemos si la
muestra es aleatoria.
PASO 3. α = 0.01.
PASO 4. GL = 15-1= 14.
PASO 6. Tabla de cálculo:
Sujeto Pretest Postest d d2
1 86 85 1 1
2 64 67 -3 9
3 79 79 0 0
4 92 94 -2 4
5 61 68 -7 49
6 78 83 -5 25
7 64 63 1 1
8 98 99 -1 1
9 76 79 -3 9
10 68 66 2 4
11 84 87 -3 9
12 79 82 -3 9
13 67 72 -5 25
14 88 78 10 100
15 66 67 -1 1
Medias 76.67 77.93
Sumas -19 247
PASO 7. tO = ((d/n)(n)) / ((((nd2)−(d)2)/(n(n-1))))
tO = ((-19/15)(15)) / ((((15247)−(-19)2)/(15(15-1))))
tO = -1.23
PASO 8. (tO = 1.23) < (tT = 2.62) por lo que no podemos rechazar la hipótesis nula.
PASO 9. Concluimos con un nivel de confianza de 99% que el método de estudio no
produjo efectos significativos sobre el aprendizaje.


82
EJERCICIO 9.2
Para probar la eficacia de un tratamiento psicológico sobre el control del consumo de alcohol, se
realizó un estudio con un nivel de confianza del 90%. Se midió en 13 sujetos la ingesta efectiva de
contenido alcohólico, tanto en pretest como en postest, y se obtuvieron los siguientes resultados:
Sujeto 1 2 3 4 5 6 7 8 9 10 11 12 13
Pretest 108 82 80 123 98 98 94 82 98 83 95 69 101
Postest 115 89 82 119 100 85 89 79 95 76 88 64 97
Respuesta
COMIENZA
PASO 1. Hipótesis
H0: No existirá diferencia en la ingesta de alcohol en pretest y postest.
H1: La ingesta de alcohol en pretest será mayor que en postest.
H2: La ingesta de alcohol en pretest será menor que en postest.
PASO 2. Asumimos que se cumplen las condiciones, porque no sabemos si la
muestra es aleatoria.
PASO 3. α = 0.10.
PASO 4. GL = 13-1 = 12.
PASO 6. Nota de cálculo:
Sujeto Pretest Postest d d2
1 108 115 -7 49
2 82 89 -7 49
3 80 82 -2 4
4 123 119 4 16
5 98 100 -2 4
6 98 85 13 169
7 94 89 5 25
8 82 79 3 9
9 98 95 3 9
10 83 76 7 49
11 95 88 7 49
12 69 64 5 25
13 101 97 4 16
Medias 93.15 90.62
Sumas 33 473
PASO 7. tO = ((d/n)(n)) / ((((nd2)−(d)2)/(n(n-1)))
tO = ((33/13)(13)) / ((((13473)−(33)2)/(13(13-1))))
tO = 1.61
PASO 8. (tO = 1.61) > (tT = 1.36) por lo que debemos rechazar la hipótesis nula. En
consecuencia, como el signo de tO es positivo, esto es, ( 1=93.15) >( 2=90.62),

83
debemos aceptar H1.

PASO 9. Concluimos con un nivel de confianza de 90% que el tratamiento redujo
significativamente la ingesta efectiva de alcohol.
TERMINA

EJERCICIO 10.1
En un experimento diseñado para estudiar los efectos de una droga sobre el sueño MOR, se
estableció un nivel de confianza del 95%. Se seleccionaron al azar 28 adultos normales. Se aplicaron
como tratamientos cuatro dosis de la droga y se midió el tiempo en minutos que tardó en iniciar la
fase MOR. Se obtuvieron los siguientes resultados:
Dosis
A B C D
39 13 10 8
40 10 9 5
34 16 12 8
11 14 5 8
17 15 14 9
30 8 13 5
27 17 11 10
Respuesta
COMIENZA
PASO 1. Hipótesis. Debemos probar sin dirección:
H0: No existirán diferencias entre los tiempos que tardaron los sujetos para
alcanzar el sueño MOR en los cuatro grupos.
H1: Existirán diferencias entre los tiempos que tardaron los sujetos para
alcanzar el sueño MOR en los cuatro grupos.
PASO 2. Asumimos que se cumplen las condiciones, pues la muestra es pequeña y
no sabemos cómo fue extraída.
PASO 3. α = 0.05.
PASO 4. k = 4,
ni = 7,
n = 28,
GL numerador = 4-1 = 3,
GL denominador = 28-4 = 24 por lo que
en Tabla 4: RVT = 3.01

84

Dosis
A B C D
39 13 10 8
40 10 9 5
34 16 12 8
11 14 5 8
17 15 14 9
30 8 13 5
27 17 11 10
ni = 7 7 7 7 n = 28
X = 198 93 74 53 X = 418
X2 = 6,316 1,299 836 423 X2 = 8,874
(X)2/ni = 5,600.57 1,235.57 782.29 401.29 ((X) /ni) = 8,019.72
2
= 28.29 13.29 10.57 7.57

PASO 6. Calcular el valor empírico de prueba:
C = 6,240.14
SCT = 2,633.86
SCTR = 1,779.58
SCE = 854.28
MCTR = 593.19
MCE = 35.60
RVo = 16.66
PASO 7. (RVO = 16.66) > (RVT = 3.01) por lo que debemos rechazar la hipótesis nula
y aceptar la hipótesis alternativa.
PASO 8. Concluimos con un nivel de confianza del 95% que las medias son
diferentes. En otras palabras, el tiempo necesario para iniciar el sueño MOR es
afectado por la dosis de la droga.
En consecuencia, procede aplicar la prueba de Tukey
PASO 9. Construir la matriz de diferencias entre medias (MDEM):
1 2 3 4
1 15.00 17.72 20.72
2 2.72 5.72
3 3.00
4
PASO 10. Calcular el valor crítico para probar diferencias en la MDEM:
DHS = (3.01)  (1/(2))  (((235.60)/7))
DHS = 6.79
PASO 11. En la MDEM cruzamos las celdas en que se aceptó H0.

85
PASO 12. Ahora, con un nivel de confianza del 95%, concluimos sobre las
comparaciones pareadas:
1 > 2
1 > 3
1 > 4
2 = 3
2 = 4
3 = 4
Ahora podemos analizar los efectos por pares. Se observa que la dosis 1 retarda el
sueño MOR más tiempo que las dosis 2, 3 y 4; sin embargo, no existen diferencias
significativas entre los efectos de las dosis 2 y 3, ni entre 2 y 4; finalmente, tampoco
hay diferencia entre las dosis 3 y 4.
TERMINA

EJERCICIO 10.2
En un estudio sobre cuatro sistemas de comunicación encriptada se estableció un nivel de confianza
del 95%. Se seleccionaron 44 sujetos y se asignaron aleatoriamente a cada sistema. Se midió el
nivel de comprensión de un mensaje complejo y se obtuvieron los siguientes resultados:
Sistema
A B C D
15 8 14 16
6 11 15 17
13 8 19 15
8 10 13 18
8 13 16 21
8 7 16 20
11 10 13 24
5 9 13 24
5 13 12 16
13 11 20 21
10 11 18 20
Respuesta
COMIENZA
PASO 1. Hipótesis. Debemos probar sin dirección.
H0: No existirán diferencias en la comprensión del mensaje entre los cuatro
sistemas
H1: Existirán diferencias en la comprensión del mensaje entre los cuatro sistemas
PASO 2. Asumimos que se cumplen las condiciones, pues las muestras son muy
pequeñas (n = 11) y no sabemos cómo se seleccionaron los sujetos que conforman
la muestra (aunque éstos hayan sido asignados al azar a los grupos).
PASO 3. α = 0.05.
PASO 4. k = 4,

86
ni = 11,
n = 44,
GL numerador = 3 y
GL denominador = 40, entonces en tabla encontramos
RVT = 2.84
Sistema
A B C D
15 8 14 16
6 11 15 17
13 8 19 15
8 10 13 18
8 13 16 21
8 7 16 20
11 10 13 24
5 9 13 24
5 13 12 16
13 11 20 21
10 11 18 20
ni= 11 11 11 11 n = 44
X = 102 111 169 212 X = 594
X2 = 1,062 1,159 2,669 4,184 X2 = 9,074
(X)2/ni = 945.82 1120.09 2596.45 4085.82 ((X)2/ni) = 8,748.18
= 9.27 10.09 15.36 19.27
PASO 6. Calcular el valor empírico de prueba:
C= 8,019.00
SCT= 1,055.00
SCTR= 729.18
SCE= 325.82
MCTR= 243.06
MCE= 8.15
RVo= 29.82
PASO 7. Puesto que (RVO = 29.82) > (RVT = 2.84), debemos rechazar la hipótesis
nula y aceptar la hipótesis alternativa.
PASO 8. Concluimos con un nivel de confianza de 95% que las medias son
diferentes. En otras palabras, los sistemas de comunicación encriptada afectan de
manera diferente al nivel de comprensión del mensaje.
En consecuencia, procede aplicar la prueba de Tukey
PASO 9. Construir la matriz de diferencias entre medias:

87
1 2 3 4
1 -0.82 -6.09 -10.00
2 -5.27 -9.18
3 -3.91
4
PASO 10. Calcular DHS:
DHS = (2.84)  (1/(2))  (((28.15)/11))
DHS = 2.44
PASO 11. En la MDEM cruzamos las celdas en que se aceptó H0.
PASO 12. Ahora, con un nivel de confianza de 95%, concluimos sobre las
comparaciones pareadas:
1 = 2
1 < 3
1 < 4
2 < 3
2 < 4
3 < 4
Analizando cada pareja de la MDEM, vemos que en este caso se encontró que no
existe diferencia significativa entre los sistemas 1 y 2; ambos son los sistemas más
eficaces (los que menor comprensión del mensaje permiten). Después está el
sistema 3. Finalmente, el sistema 4 es el menos eficaz, pues es el que mayor
comprensión del mensaje presentó y, por tanto, el que menos encripta el mensaje.
TERMINA

EJERCICIO 11.1
En un estudio sobre delincuencia y familia, realizado con un nivel de confianza del 95%, se clasificó
a 100 jóvenes de educación media conforme a:
X1 ≡ Con antecedentes delictivos
X2 ≡ Sin antecedentes delictivos
Y1 ≡ Pertenecientes a familias integradas
Y2 ≡ Pertenecientes a familias desintegradas
X1 X2
Y1 10 29
Y2 20 41
Respuesta
COMIENZA
PASO 1. Hipótesis:
H0: No existirá correlación entre antecedentes delictivos e integración familiar.

88
H1: Existirá correlación entre antecedentes delictivos e integración familiar.

PASO 2. Por su naturaleza, ambas variables deben considerarse medidas a nivel
nominal y son dicótomas.
PASO 3. α = 0.05.
PASO 4. Obtener el valor teórico:
GL = 1,
α = 0.05,
en Tabla 2: χ2T = 3.84.
PASO 5. Construir la tabla de cálculo:
X1 X2
Y1 10 29
Y2 20 41
PASO 6. Calcular el valor observado:
χ2O=((10+29+20+41)(((1041)-(2920))2))/((10+29)(20+41)(10+20)(29+41))
χ2O = 0.58
PASO 7. (χ2O = 0.58) < (χ2T = 3.84) por lo que no podemos rechazar H0.
PASO 8. Puesto que aceptamos la hipótesis nula, no procede calcular el coeficiente
Phi.
PASO 9. Concluimos con un nivel de confianza del 95% que la delincuencia no está
correlacionada con la integración familiar en la población estudiada.
TERMINA

EJERCICIO 11.2
Se investigó la relación entre turno y aprovechamiento escolar, trabajando con un nivel de confianza
del 99%. Se clasificó a 150 egresados como sigue:
X1 ≡ Graduado
X2 ≡ No graduado
Y1 ≡ Turno matutino
Y2 ≡ Turno vespertino
X1 X2
Y1 55 20
Y2 30 45
Respuesta
COMIENZA
PASO 1. Tenemos una prueba no direccionada:

89
H0: No existirá correlación entre turno y aprovechamiento escolar.

H1: Existirá correlación entre turno y aprovechamiento escolar.
HT: H1
PASO 2. Por su naturaleza, ambas variables deben considerarse medidas a nivel
nominal y son dicótomas.
PASO 3. α = 0.01.
PASO 4. Obtener el valor teórico:
GL = 1,
α = 0.01,
en Tabla 2: χ2T = 6.63.
PASO 5. Construir la tabla de cálculo
X1 X2
Y1 55 20
Y2 30 45
PASO 6. Calcular el valor observado:
χ2O =((55+20+30+45)(((5545)-(2030))2))/((55+20)(30+45)(55+30)(20+45))
χ2O =16.97
PASO 7. (χ2O = 16.97) > (χ2T = 6.64) por lo que debemos rechazar H0 y se aprueba
H1.
PASO 8. Puesto que probamos significación al rechazar la hipótesis nula, procede
calcular el coeficiente Phi:
rφ = ( 16.97/(55+20+30+45))
rφ = 0.3364
PASO 9. Concluimos con un nivel de confianza del 99% que el turno está
correlacionado con el aprovechamiento escolar, con un coeficiente de 0.3364, en la
población estudiada.


90
EJERCICIO 12.1
En un estudio sobre la validez predictiva de un examen de admisión se midió:
X  Calificación obtenida en el examen de admisión.
Y  Promedio general de carrera.
Las dos variables se midieron en escala de 0 a 100 con aproximación a enteros. Se extrajo una
muestra aleatoria con un error probable de 0.05, se probó homocedasticidad y normalidad en ambas
variables y se obtuvieron los siguientes datos:
(50, 80) (39, 84) (58, 87) (49, 84) (38, 67) (51, 67) (55, 78) (59, 80) (39, 79) (42, 82)
(43, 71) (55, 84) (47, 64) (48, 69) (62, 77) (64, 58) (47, 73) (48, 86) (69, 78) (69, 88)
(61, 72) (39, 76) (64, 90) (39, 92) (42, 76) (50, 74) (45, 73) (64, 75) (47, 82) (40, 69)
(40, 79) (54, 59) (48, 94) (59, 78) (54, 79) (60, 69) (59, 93) (48, 74) (64, 78) (55, 77)
(56, 68) (38, 66) (59, 74) (49, 72) (63, 57) (51, 57) (45, 65) (67, 82) (44, 63) (69, 72)
(42, 56) (56, 77) (44, 83) (53, 72) (40, 79) (59, 78) (70, 80) (37, 82) (70, 84) (55, 74)
(59, 90) (42, 72) (54, 80) (64, 70) (63, 75) (54, 93) (46, 78) (52, 83) (52, 74) (66, 85)
(37, 74) (57, 78) (37, 77) (47, 78) (46, 67) (39, 62) (68, 64) (65, 73) (70, 67) (40, 71)
(43, 78) (49, 80) (51, 78) (54, 75) (60, 79) (53, 82) (57, 64) (44, 75) (59, 85) (66, 73)
(54, 63)
c) José es el elemento 36 de la muestra. Calcule su regresión e interprétela
Respuesta
COMIENZA
PASO 1.
H0: El examen de admisión no estará correlacionado con el promedio general de
carrera
H1: El examen de admisión estará correlacionado directamente con el promedio
general de carrera
H2: El examen de admisión estará correlacionado inversamente con el promedio
general de carrera
PASO 2. En este caso sabemos que las condiciones se cumplen porque:
1. Ambas variables son puntajes psicométricos medidos en el nivel intervalar.
2. La muestra se obtuvo aleatoriamente.
3. La muestra es grande.
4. Se probó normalidad.
5. Se probó homocedasticidad.
PASO 3. α = 0.05.
PASO 4. GL = 91-2 = 89.
PASO 5. En Tabla 5: rT = 0.1726.
Sujeto X Y XY X2 Y2
1 50 80 4,000 2,500 6,400
2 39 84 3,276 1,521 7,056
3 58 87 5,046 3,364 7,569

91
Sujeto X Y XY X2 Y2
4 49 84 4,116 2,401 7,056
5 38 67 2,546 1,444 4,489
6 51 67 3,417 2,601 4,489
7 55 78 4,290 3,025 6,084
8 59 80 4,720 3,481 6,400
9 39 79 3,081 1,521 6,241
10 42 82 3,444 1,764 6,724
11 43 71 3,053 1,849 5,041
12 55 84 4,620 3,025 7,056
13 47 64 3,008 2,209 4,096
14 48 69 3,312 2,304 4,761
15 62 77 4,774 3,844 5,929
16 64 58 3,712 4,096 3,364
17 47 73 3,431 2,209 5,329
18 48 86 4,128 2,304 7,396
19 69 78 5,382 4,761 6,084
20 69 88 6,072 4,761 7,744
21 61 72 4,392 3,721 5,184
22 39 76 2,964 1,521 5,776
23 64 90 5,760 4,096 8,100
24 39 92 3,588 1,521 8,464
25 42 76 3,192 1,764 5,776
26 50 74 3,700 2,500 5,476
27 45 73 3,285 2,025 5,329
28 64 75 4,800 4,096 5,625
29 47 82 3,854 2,209 6,724
30 40 69 2,760 1,600 4,761
31 40 79 3,160 1,600 6,241
32 54 59 3,186 2,916 3,481
33 48 94 4,512 2,304 8,836
34 59 78 4,602 3,481 6,084
35 54 79 4,266 2,916 6,241
36 60 69 4,140 3,600 4,761
37 59 93 5,487 3,481 8,649
38 48 74 3,552 2,304 5,476
39 64 78 4,992 4,096 6,084
40 55 77 4,235 3,025 5,929
41 56 68 3,808 3,136 4,624
42 38 66 2,508 1,444 4,356
43 59 74 4,366 3,481 5,476
44 49 72 3,528 2,401 5,184
45 63 57 3,591 3,969 3,249
46 51 57 2,907 2,601 3,249
47 45 65 2,925 2,025 4,225

92
Sujeto X Y XY X2 Y2
48 67 82 5,494 4,489 6,724
49 44 63 2,772 1,936 3,969
50 69 72 4,968 4,761 5,184
51 42 56 2,352 1,764 3,136
52 56 77 4,312 3,136 5,929
53 44 83 3,652 1,936 6,889
54 53 72 3,816 2,809 5,184
55 40 79 3,160 1,600 6,241
56 59 78 4,602 3,481 6,084
57 70 80 5,600 4,900 6,400
58 37 82 3,034 1,369 6,724
59 70 84 5,880 4,900 7,056
60 55 74 4,070 3,025 5,476
61 59 90 5,310 3,481 8,100
62 42 72 3,024 1,764 5,184
63 54 80 4,320 2,916 6,400
64 64 70 4,480 4,096 4,900
65 63 75 4,725 3,969 5,625
66 54 93 5,022 2,916 8,649
67 46 78 3,588 2,116 6,084
68 52 83 4,316 2,704 6,889
69 52 74 3,848 2,704 5,476
70 66 85 5,610 4,356 7,225
71 37 74 2,738 1,369 5,476
72 57 78 4,446 3,249 6,084
73 37 77 2,849 1,369 5,929
74 47 78 3,666 2,209 6,084
75 46 67 3,082 2,116 4,489
76 39 62 2,418 1,521 3,844
77 68 64 4,352 4,624 4,096
78 65 73 4,745 4,225 5,329
79 70 67 4,690 4,900 4,489
80 40 71 2,840 1,600 5,041
81 43 78 3,354 1,849 6,084
82 49 80 3,920 2,401 6,400
83 51 78 3,978 2,601 6,084
84 54 75 4,050 2,916 5,625
85 60 79 4,740 3,600 6,241
86 53 82 4,346 2,809 6,724
87 57 64 3,648 3,249 4,096
88 44 75 3,300 1,936 5,625
89 59 85 5,015 3,481 7,225
90 66 73 4,818 4,356 5,329

93
Sujeto X Y XY X2 Y2
91 54 63 3,402 2,916 3,969
Sumas 4,779 6,879 361,840 259,241 526,459
PASO 7. Cálculo del coeficiente de correlación de Pearson:
rP = ((91361840)–(47796879)) / ((((91259241)–(4779)2)((91526459)–(6879)2)))
rP = 0.0793
PASO 8. (rP=0.0793) < (rT=0.1726) por lo que no podemos rechazar la hipótesis nula.
PASO 9. Se concluye con un nivel de confianza del 95% que el examen de admisión
no está correlacionado con el promedio general de carrera. Esto nos permite afirmar
que no demostró validez predictiva.
Puesto que no pudimos rechazar la hipótesis nula, lo que implica que
las variables no están correlacionadas, no procede realizar análisis de
regresión. Realizarlo implicaría hacer predicciones espurias.
TERMINA

EJERCICIO 12.2
En un estudio con operadores de grúa se midió:
X  Razonamiento visoespacial.
Y  Puntaje de desempeño en el manejo de grúa.
Se extrajo una muestra aleatoria y se probó homocedasticidad y normalidad. Se establece un nivel
de confianza del 95%. Se obtuvieron los siguientes datos:
Caso 1 2 3 4 5 6 7 8 9 10 11 12 13 14
X 102 98 111 89 120 114 113 104 117 99 118 123 94 112
Y 81 69 71 58 90 78 81 80 87 91 87 92 78 80
b) Construya el dispersigrama.
c) Luis es el elemento 10 de la muestra. Calcule su regresión e interprétela.
Respuesta
COMIENZA
PASO1. Hipótesis
H0: El razonamiento visual no estará correlacionado con el desempeño.
H1: El razonamiento visual estará correlacionado directamente con el
desempeño.
H2: El razonamiento visual estará correlacionado inversamente con el
desempeño.
PASO 2. Puesto que la muestra es pequeña y no sabemos cómo se obtuvo,
asumimos que las condiciones se cumplen.
PASO 3. α = 0.05.
PASO 4. GL = 14-2 = 12.

94
PASO 5. rT = 0.4575.
Sujeto X Y XY X2 Y2
1 102 81 8262 10404 6561
2 98 69 6762 9604 4761
3 111 71 7881 12321 5041
4 89 58 5162 7921 3364
5 120 90 10800 14400 8100
6 114 78 8892 12996 6084
7 113 81 9153 12769 6561
8 104 80 8320 10816 6400
9 117 87 10179 13689 7569
10 99 91 9009 9801 8281
11 118 87 10266 13924 7569
12 123 92 11316 15129 8464
13 94 78 7332 8836 6084
14 112 80 8960 12544 6400
Sumas 1,514 1,123 122,294 165,154 91,239

rP = ((14122294)-(15141123))/((((14165154)-(1514)2)((1491239)-(1123)2)))
rP = 0.6611
PASO 8. (rP = 0.6611) > (rT = 0.4575) por lo que debemos rechazar H0. Ahora, como
sabemos que el signo del coeficiente encontrado es positivo, aceptamos H1.
PASO 9. Se concluye con un nivel de confianza del 95% que el razonamiento visual
está correlacionado directamente con el desempeño en el manejo de grúa. En
términos psicológicos, esto implica que el test con que se midió razonamiento
visoespacial demostró validez predictiva.
Puesto que se rechazó H0, lo cual validó al test, procede realizar
análisis de regresión.
PASO 10. Calculamos los parámetros de la recta:
b = ((14122294)-(15141123))/((14165154)-(1514)2)
b = 0.60
a = (1123-(0.601514))/14
a= 15.33
Observación: En estos cálculos, desde b, introducimos un error por redondeo.
Cuando adelante se aplican los valores a y b a otros cálculos, obviamente el
error aumenta. Este error se reduce notablemente, cuando se calcula
directamente, ya sea con una calculadora programada o con una
computadora.

95
PASO 11. Calculemos la regresión de Luis. Sabemos que sus puntajes son:
X = 99
Y = 91
entonces:
Yc(Luis) = 15.33+(0.6099)
Yc(Luis) = 74.73
esto es, conforme a su puntaje de razonamiento visoespacial, se predice que Luis
debió obtener un puntaje de desempeño en manejo de grúa de Yc=74.76, pero
sabemos que realmente obtuvo YO=91, por lo cual:
Regresión(Luis) = 91.00-74.73
Regresión(Luis) = 16.27
Esto es, el desempeño de Luis estuvo 16.27 por encima de lo que podría esperarse
a partir de su razonamiento visual. Explicar esta diferencia es un asunto de
investigación empírica, no de estadística.
PASO 12. Para construir el dispersigrama, sabemos que:
Min Max
X 89 123
Y 58 92
Ahora, para ubicar la recta estimamos Yc para los valores extremos de X:
Yc(89) = 68.73
Yc(123) = 89.13
Para terminar, procedemos a construir el dispersigrama y a ubicar la recta de
tendencia.
Correlación entre Razonamiento visoespacial y

Desempeño en el manejo de grúa
95
90
Manejo de grúa
85
80
75
70
65
60
55
85 95 105 115 125
Razonamiento visoespacial
TERMINA

EJEMPLO 12.3
Trabajando con fotointérpretes se midió:
X  Memoria icónica y
Y  Errores en el reconocimiento de patrones.

96
Se obtuvo una muestra representativa a un nivel de significación de 2.5% y se probó

homocedasticidad y normalidad. Se obtuvieron los siguientes datos:
Caso 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
X 56 89 78 67 48 98 77 59 81 74 65 92 88 63 80 85
Y 38 13 25 31 32 11 24 35 20 28 20 15 18 30 23 24
b) Construya el dispersigrama.
c) Arturo es el elemento 10 de la muestra. Calcule su regresión e interprétela
Respuesta
COMIENZA
PASO1.
H0: La memoria icónica no estará correlacionada con el error en el
reconocimiento de patrones
H1: La memoria icónica estará correlacionada directamente con el error en el
H2: La memoria icónica estará correlacionada inversamente con el error en el
PASO 2. Nuevamente tenemos que asumir que las condiciones se cumplen.
PASO 3. α = 0.025.
PASO 4. GL = 16-2 = 14.
PASO 5. rT = 0.4973.
PASO 6. Tabla de cálculo
Sujetos X Y XY X2 Y2
1 56 38 2128 3136 1444
2 89 13 1157 7921 169
3 78 25 1950 6084 625
4 67 31 2077 4489 961
5 48 32 1536 2304 1024
6 98 11 1078 9604 121
7 77 24 1848 5929 576
8 59 35 2065 3481 1225
9 81 20 1620 6561 400
10 74 28 2072 5476 784
11 65 20 1300 4225 400
12 92 15 1380 8464 225
13 88 18 1584 7744 324
14 63 30 1890 3969 900
15 80 23 1840 6400 529
16 85 24 2040 7225 576
Sumas 1,200 387 27,565 93,012 10,283

97

rP = ((1627565)-(1200387))/((((1693012)-(1200)2)((1610283)-(387)2)))
rP = -0.8759
PASO 8. (rP=0.8759) > (rT=0.4973) por lo que no podemos aceptar la hipótesis nula.
Ahora, como sabemos que el signo del coeficiente encontrado es negativo,
aceptamos la hipótesis alternativa 2.
PASO 9. Se concluye con un nivel de confianza del 97.50% que la memoria icónica
está correlacionada inversamente con el error en el reconocimiento de patrones. En
términos psicológicos, este resultado valida el test de memoria icónica aplicado
como predictor del desempeño en fotointerpretación.
En consecuencia, sí procede realizar análisis de regresión.
PASO 10. Calculamos los parámetros de la recta:
b = ((1627565)-(1200387))/((1693012)-(1200)2)
b = -0.48 [observe que el valor de la pendiente es negativo]
a = (387-(-0.481200))/16
a = 60.19
PASO 11. Calculemos la regresión de Arturo. Sabemos que sus puntajes son:
X = 74
Y = 28
entonces:
Yc(Arturo) = 60.19+(-0.4874)
Yc(Arturo) = 24.67
esto significa que, conforme a su puntaje de memoria icónica, se predice que Arturo
debió cometer 24.67 errores en promedio, pero sabemos que realmente cometió 28,
por lo su regresión es:
Regresión(Arturo) = 28.00-24.67
Regresión(Arturo) = 3.33
esto es, Arturo cometió 3.33 errores por encima de lo que podría esperarse a partir
de su memoria icónica. En términos psicológicos, su desempeño estuvo por debajo
de lo esperado, pues cometió más errores de los predichos a partir de su aptitud.
PASO 12. Pasemos a construir el dispersigrama. Sabemos que:
Min Max
X 48 98
Y 11 38
entonces:
Yc(48) = 37.15
Yc(98) = 13.15
y ya disponemos de los datos necesarios para construir el dispersigrama y ubicar
la recta de tendencia.

98
Correlación entre Memoria icónica y Errores en el

40
Errores en el reconoc. de pat.
35
30
25
20
15
10
45 55 65 75 85 95
Memoria icónica
Una observación final: la pendiente negativa de la recta indica que conforme mayor
memoria icónica, menor número de errores se observan en la muestra estudiada.
Es un resultado esperado, pues la memoria icónica es una medida de la aptitud y
los errores en el reconocimiento de patrones es una medida negativa del
desempeño. Sin duda, lo que más debe interesar al estudiante es comprender el
significado de los resultados.
TERMINA


EstadisticaInferencial Version2021

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

EstadisticaInferencial Version2021

Cargado por

Copyright:

Formatos disponibles

ESTADÍSTICA INFERENCIAL

Adolfo López Suárez

Universidad Autónoma del Estado de México

Contacto Adolfo López Suárez

Estadística Inferencial en Ciencias del Comportamiento Adolfo López Suárez

conocemos ninguna obra publicada que se haya planteado semejante propósito. Al

Estadística Inferencial en Ciencias del Comportamiento Adolfo López Suárez

1. Conceptualizará la estructura de la estadística inferencial.

2. Estimará proporciones en forma puntual e intervalar.

3. Estimará parámetros en forma puntual e intervalar.

4. Probará diferencias entre grupos con variables cualitativas.

5. Probará diferencias entre grupos con variables cuantitativas.

6. Probará correlación lineal con variables cualitativas.

7. Probará correlación lineal con variables cuantitativas.

Estadística Inferencial en Ciencias del Comportamiento Adolfo López Suárez

EVALUACIÓN DEL APRENDIZAJE

Estadística Inferencial en Ciencias del Comportamiento Adolfo López Suárez

Estadística Inferencial en Ciencias del Comportamiento Adolfo López Suárez

Estadística Inferencial en Ciencias del Comportamiento Adolfo López Suárez

No paramétrica 11. Clasificación 22

Los números indican la lección en que se estudia cada prueba.

Estadística Inferencial en Ciencias del Comportamiento Adolfo López Suárez

Estadística Inferencial en Ciencias del Comportamiento Adolfo López Suárez

LECCIÓN 1. NOCIONES BÁSICAS

RECORDEMOS CONCEPTOS PREVIOS

Estadística Inferencial en Ciencias del Comportamiento Adolfo López Suárez

Estadística Inferencial en Ciencias del Comportamiento Adolfo López Suárez

Estadística Inferencial en Ciencias del Comportamiento Adolfo López Suárez

plantearse una proposición probabilista de gran valor científico: “La probabilidad de

Fig. 1.1. La inferencia estadística

DOS FORMAS DE INFERENCIA

Estadística Inferencial en Ciencias del Comportamiento Adolfo López Suárez

es simplemente imposible (piénsese en poblaciones que en estudios concretos

Estadística Inferencial en Ciencias del Comportamiento Adolfo López Suárez

Fig. 1.2. Formas de inferencia estadística

Estadística Inferencial en Ciencias del Comportamiento Adolfo López Suárez

Este sencillo juego de ecuaciones constituye la base del análisis de decisiones en

Estadística Inferencial en Ciencias del Comportamiento Adolfo López Suárez

hipótesis nula. Cuando H0 se acepta, se concluye que no existe lo que se estaba

Estadística Inferencial en Ciencias del Comportamiento Adolfo López Suárez

Estadística Inferencial en Ciencias del Comportamiento Adolfo López Suárez

Estadística Inferencial en Ciencias del Comportamiento Adolfo López Suárez

términos de la inferencia estadística, es más grave aceptar una relación que no

Estadística Inferencial en Ciencias del Comportamiento Adolfo López Suárez

estadística será más eficiente en la medida en que pueda lograr el rechazo de H 0

Estadística Inferencial en Ciencias del Comportamiento Adolfo López Suárez

Estadística Inferencial en Ciencias del Comportamiento Adolfo López Suárez

ALGORITMO GENERAL PARA LA PRUEBA DE HIPÓTESIS

Estadística Inferencial en Ciencias del Comportamiento Adolfo López Suárez

3. En la inferencia lógica, cuando se parte de premisas verdaderas, ¿es posible

Estadística Inferencial en Ciencias del Comportamiento Adolfo López Suárez

40.¿Cómo decidir si hemos de aplicar una prueba paramétrica o una no

Estadística Inferencial en Ciencias del Comportamiento Adolfo López Suárez

LECCIÓN 2. ESTIMACIÓN PUNTUAL DE

Las proporciones son muy utilizadas en investigaciones en las que lo importante es

Estadística Inferencial en Ciencias del Comportamiento Adolfo López Suárez

error muestral del 7% y se encontró que:

Estadística Inferencial en Ciencias del Comportamiento Adolfo López Suárez

LECCIÓN 3. ESTIMACIÓN PUNTUAL DE LA MEDIA

Estadística Inferencial en Ciencias del Comportamiento Adolfo López Suárez

Estadística Inferencial en Ciencias del Comportamiento Adolfo López Suárez

LECCIÓN 4. ESTIMACIÓN PUNTUAL DE LA DESVIACIÓN

La desviación estándar es la medida de variabilidad más estable y la más utilizada