Padró S. Cuaderno de Estadística Teoria

Estadística Aplicada
Teoría completa para Psicología y Teología
UNIVERSIDAD ADVENTISTA DEL PLATA
Autor: Mag. Silvia Inés Padró

UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
Unidad 1: Los datos y la Estadística
Introducción
Todo ciudadano está en continuo contacto con las estadísticas en todos los medios de comunicación. Es común
ver artículos como:
 El índice de desocupación en nuestro país se redujo en el presente año a 9,8%
 El 75% de los aspirantes a ingresar a la carrera de medicina en la universidad de La Plata salió aplazado
en el primer examen de ingresos
 El coeficiente intelectual promedio de los estudiantes de 4to. Grado es de 102 puntos
 Los sueldos mensuales de los empleados de una determinada firma se hallan entre $1.200 y $2.400
 La proporción de enfermeras en un hospital público es de una cada 20 pacientes
Todo lector responsable debe poder comprender la información que se le ofrece para detectar mentiras y tomar
decisiones informadas.
En particular para los que han decidido estudiar una carrera, cualquiera sea esta, a menudo estarán en contacto
con artículos de investigación y por lo tanto deben poder comprender la información cuantitativa que se le
ofrece en los artículos que lee.
Como productor de investigaciones, en el futuro, debe poder utilizar las estadísticas en sus propias
investigaciones.
El significado de la estadística en el contexto de la investigación social se enfoca más en los métodos o
procedimientos utilizados por los investigadores para comprender e interpretar datos. Es parte integral del
proceso de investigación y en la mayoría de las tesis y disertaciones ocupa una posición central.
Definición de Estadística
La estadística es el conjunto de técnicas que se emplean para la recolección, organización, análisis e
interpretación de datos.
Para comprender mejor esta definición analicemos lo que significan algunos términos que intervienen en ella:
Técnicas: son reglas procedimentales, todas con una base matemática, que nos dan formas de realizar la
recolección, la organización, el análisis y la interpretación de los datos
Datos: son los hechos y números que se reúnen, analizan y resumen para su presentación e interpretación. Al
estar reunidos, los datos recopilados en determinado estudio se denomina conjuntos de datos para el estudio
Elementos: son las entidades acerca de las cuales se reúnen los datos. Pueden ser personas, empresas, escuelas,
animales, etc.
Variables: son las características de interés de los elementos. Por ejemplo puede interesarnos estudiar el número
de alumnos de las instituciones escolares, o las ventas promedio de un conjunto de empresas, etc.
Tomemos un ejemplo. En un grupo de jóvenes de ésta región de la provincia se realiza una encuesta en la cual
debían consignar la edad, el sexo, la puntuación obtenida en el test y asignatura preferida en la escuela. Los
datos son los siguientes:
Alumno Edad Sexo Puntuación Asignatura
Javier 16 Masculino 90 Matemática
Martina 17 Femenino 75 Biología
Lorena 17 Femenino 64 Economía
Facundo 18 Masculino 35 Biología
Francisco 16 Masculino 78 Psicología
Analía 15 Femenino 84 Lengua
Alejandra 17 Femenino 92 Contabilidad
Julián 17 Masculino 53 Contabilidad
1
Los elementos son cada uno de los alumnos: Javier, Martina, Lorena, etc. Las variables son: edad,
sexo, puntuación obtenida y asignatura preferida. Los datos son, por ejemplo, respecto de la variable
edad: 16, 17, 17, 18, etc., con respecto a la variable sexo: masculino y femenino, respecto a la variable
puntuación: 90, 75, 64, etc. y respecto de la variable asignatura: matemática, biología, economía, etc.
Datos cuantitativos y cualitativos
Los datos pueden clasificarse como cualitativos o cuantitativos. Los datos cualitativos son etiquetas o
nombres que se utilizan para identificar un atributo de cada elemento. Los datos cuantitativos son
valores numéricos que indican cuánto o cuántos.
Una variable cualitativa es la que tiene datos cualitativos y una variable cuantitativa contiene datos
cuantitativos.
El análisis estadístico apropiado para una variable particular depende de si la variable es cualitativa o
cuantitativa. Si la variable es cualitativa, el análisis estadístico es bastante limitado. Podemos resumir
los datos cualitativos al contar el número de observaciones en cada categoría cualitativa, o bien, al
calcular la proporción de observaciones en cada categoría. No obstante, aun cuando los datos
cualitativos pueden tener una clave o código numérico, las operaciones suma, resta, multiplicación y
división no proporcionan resultados significativos. En cambio, con las operaciones aritméticas se
pueden obtener resultados significativos para variables cuantitativas.
A su vez, la variable cuantitativa puede subclasificarse en discreta y continua dependiendo del tipo de
número que se recoge como dato. Si los números son enteros la variable es discreta y si admiten cifras
decimales (o sea son números reales) la variable es continua. Por ejemplo, si la variable es número de
hijos de una familia, los datos pueden ser 0, 1, 2, 3, etc. y por lo tanto es una variable discreta. Si, en
cambio, se trata de tabular el sueldo que cobra un grupo de empleados de una empresa la variable es
continua porque admite cifras decimales ya que las sumas de dinero pueden contabilizarse hasta los
centavos.
Escalas de medición
Los datos se reúnen mediante una de las siguientes escalas de medición: nominal, ordinal, intervalar y
de razón. La escala de medición permite determinar la cantidad de información que contienen los datos
e indica el resumen de los mismos y el análisis estadístico más apropiado.
Nominal: la escala de medición para una variable es nominal cuando los datos son etiquetas o nombres
que se emplean para identificar un atributo o elemento. Por ejemplo en la tabla anterior es una variable
nominal el sexo y la asignatura preferida.
Ordinal: la escala de medición para una variable es ordinal si los datos tienen las propiedades de datos
nominales y además el orden o rango de los datos es significativo. Por ejemplo cuando se toma en
cuenta una etiqueta sobre la opinión respecto de un servicio que lo califique como malo, regular o
bueno.
Intervalar: la escala de medición para una variable es intervalar si los datos tienen las propiedades de
datos ordinales y el intervalo entre observaciones se expresa en términos de una unidad fija de medida.
Estos datos siempre son numéricos. En el ejemplo anterior la puntuación obtenida en el test es medida
con esta escala pues los valores pueden ser clasificados según el desempeño desde el mejor al más
deficiente, por ejemplo. Además las diferencias entre las puntuaciones son importantes. En nuestro
ejemplo, Analía obtuvo 20 puntos más que Lorena (84 – 64). El cero en la variable intervalar es
convencional (el ejemplo más claro es la temperatura, cuyo 0 es definido de una manera particular para
cada escala)
2
De razón: la escala de medición para una variable es una escala de razón si los datos tienen todas las
propiedades de los datos de intervalo y además el cociente de dos cualquiera de los valores es
significativo. En nuestro ejemplo la variable edad corresponde a esta escala, pues si hablamos de edad,
una persona que tiene 40 años tiene el doble de edad que alguien que tiene 20 años (40/20). Un
requisito de esta escala es que debe contener un valor cero que indica que no existe nada para una
variable en el punto cero. Por ejemplo si la edad es 0 no tiene edad, si el precio es 0 no cuesta nada, es
gratis, el peso 0 significa que no tiene peso. El cero es real, tiene significado.
Las variables cualitativas pueden medirse en la escala nominal u ordinal según el caso, mientras que
las variables cuantitativas lo hacen en las escalas intervalar y de razón.
Series de tiempo y datos transversales

Para fines del análisis estadístico, es importante distinguir entre datos transversales y series de tiempo.
Los datos transversales toman diferentes objetos en un mismo momento para analizarlos, mientras que
en las series de tiempo se toma un solo objeto, o varios, y se sigue su desarrollo en el tiempo. Por
ejemplo, si analizamos las utilidades que dejan diferentes productos manufacturados por una misma
empresa, los datos se toman en forma transversal pues se elige un momento para obtenerlos. En este
caso si queremos comparar la variable utilidad en diferentes productos nos tenemos que asegurar que
los valores hayan sido tomados en situaciones semejantes, por eso se elige un mismo momento, con
una igual situación financiera, costos similares, etc. En cambio, en el caso en que se estudie el
desarrollo de la memoria de un individuo se lo debe evaluar en diferentes momentos de su vida, para
poder comparar los efectos sobre la memoria de la edad, la instrucción escolar, etc.
División de la Estadística
 Estadística descriptiva: la estadística descriptiva comprende las técnicas que se emplean para
resumir y describir datos. Estos métodos pueden ser gráficos o implicar análisis computacional. En
ella se enfatizan los aspectos de presentar y describir los datos recogidos en la investigación. En la
estadística descriptiva, el investigador debe preocuparse por organizar y presentar los datos de una
forma comprensible y sobre todo honesta. La mayor parte de la información estadística que aparece
en los diarios, revistas, informes de compañías y demás publicaciones corresponden a este tipo de
estadística.
 Estadística inferencial: la estadística inferencial comprende las técnicas con las que, con base
únicamente en una muestra sometida a observación, se toman decisiones sobre una población o
proceso estadístico. Dado que estas decisiones se toman en condiciones de incertidumbre, suponen
el uso de conceptos de probabilidad. Se origina en el Renacimiento con el desarrollo de la
probabilidad matemática, que a su vez se basa en el estudio de los juegos de azar. Se desarrolla
plenamente a partir de Karl Pearson (1857-1936) y Ronald Fisher (1890-1962) a principios del
siglo XX.
Está íntimamente relacionada con los conceptos de población, muestra, parámetro y estadísticos.
• Población: es el total de objetos bajo consideración. Es el grupo o conjunto sobre el cual el
investigador quiere hacer una inferencia. La mayor parte de las veces es muy grande y
algunas veces es hipotética. Si, por ejemplo, se quiere demostrar que la semejanza entre
personas afecta el nivel de atracción, la población de “personas semejantes” es hipotética
pues se hace imposible encontrar una población de personas semejantes en todos los
aspectos.
3
• Muestra: aunque el investigador se interesa, la mayor parte de las veces en la población,

muy pocas veces puede llegar a toda ella. Para hacer cualquier estudio se ve obligado a
seleccionar parte de la población. La muestra es la porción de la población seleccionada para
la investigación. La selección se hace porque generalmente el costo, el tiempo y los recursos
son limitados para hacer la investigación con toda la población. Partiendo de los resultados
del estudio con la muestra (si esta es verdaderamente representativa de la población), el
investigador puede hacer inferencias sobre la población.
• Parámetro: es la medida de una característica numérica de la población (media, mediana,
varianza, etc). Es un elemento descriptivo de la población.
• Estadísticos: es una medida que se utiliza para describir una característica numérica de la
muestra, a diferencia del parámetro que es de la población. La estadística inferencial sirve
para determinar cómo un estadístico y un parámetro se relacionan.
Fuentes de datos
Los datos pueden reunirse a partir de fuentes de información existentes o a través de encuestas o
estudios experimentales diseñados con el objetivo de obtener nuevos datos.
Datos publicados
Se pueden utilizar datos publicados previamente que el investigador no tiene que recoger. Estamos en
la época de la tecnología y la información. Las bibliotecas están equipadas con computadoras y a
través de éstas se pueden localizar bancos de datos que otras personas o instituciones han recogido y
almacenado. Estas fuentes de datos para las investigaciones pueden ser:
• Fuentes primarias: son las personas u organizaciones que recogen los datos directamente
• Fuentes secundarias: son las personas u organizaciones que han compilado los datos en tablas y
gráficas. Por lo general, tanto el gobierno como las universidades, son fuentes primarias y
secundarias.
Datos obtenidos de la experimentación
En la investigación, a menudo, se utilizan datos obtenidos a través de la experimentación. Esto ocurre
principalmente en las investigaciones de medicina y ciencias naturales. La investigación consiste en el
montaje de un experimento en que se controlan todas las variables que pueden influir en los resultados
y entonces se maneja la variable independiente y se observan los cambios en la variable dependiente.
Cuando esto ocurre se puede hablar de una relación de “causa y efecto”. La investigación es un
verdadero experimento.
En las ciencias sociales es más difícil puesto que se dificulta imponer controles sobre el medio social.
En el momento de la recolección de datos debe haber control sobre todas las variables que pueden
afectar variaciones en el experimento.
Datos obtenidos a través de cuestionarios
La forma más común de llevar a cabo una investigación en las ciencias sociales es utilizando datos
obtenidos a través de cuestionarios. En estos casos no se ejerce control sobre el comportamiento de las
personas. Sólo se hacen preguntas y se observan las dos variables, independiente y dependiente, al
mismo tiempo.
En los cuestionarios no se busca una relación de causa y efecto, sino de correlación entre dos variables.
Se busca determinar si la magnitud de una variable se relaciona con la magnitud de la otra. Por lo
4
general no se habla de variables independientes y dependientes, sino de predictores y criterios. El

cambio en el predictor no es la causa del cambio en el criterio aunque un cambio implique el otro.
Por ejemplo:
• Causa y efecto: vacuna y prevención de la enfermedad. La vacuna es la causa de que
enfermedad no tenga lugar.
• Correlación: se observa en la relación entre preparación académica y salario. Por lo general,
mientras mayor es la preparación académica, mayor es el salario. Pero esto no siempre ocurre y
la causa del mayor salario puede muy bien ser otra diferente a la preparación académica.
Datos obtenidos de la observación
Se utilizan mucho en antropología y en investigaciones sobre animales. Este método de recoger datos
tiene problemas debido a la subjetividad del observador y al hecho de que la presencia del observador
puede modificar la situación.
Ejercicios
1) Una empresa de viajes internacionales lleva a cabo una encuesta anual con el fin de determinar los
mejores lugares para hospedarse en diferentes ciudades del mundo. En la siguiente tabla se
encuentran organizados los datos de varios hoteles donde el precio de una habitación doble normal
durante la temporada alta va desde $ (precio más bajo) a $$$$ (precio más alto). La puntuación está
dada por la evaluación de usuarios anteriores de los diferentes servicios como restaurante,
ubicación, ambientes y áreas públicas. Las puntuaciones más altas corresponden a nivel de
satisfacción más alto.
Hotel País Precio N° habitaciones Puntuación
Graveteye Manor Inglaterra $$ 18 83,6
Villa D’Este Italia $$$$ 166 86,3
Hotel Prem Alemania $ 54 77,8
Palace Luzern Estados Unidos $$ 47 76,8
Hotel Sheraton Argentina $$$$ 87 80,9
Hotel Maratea Mare Brasil $$$ 56 73,7
Villa Gallici Francia $$ 22 90,6
a) ¿Cuántos elementos hay en este conjunto de datos?
b) ¿Cuántas variables hay en este conjunto de datos?
c) ¿Cuáles variables son cualitativas y cuáles cuantitativas?
d) ¿Qué tipo de escala de medición utilizaría para cada variable?
2) Una dependencia del estado de California clasifica las ocupaciones de los trabajadores como
profesional, de oficina y obrero. Los datos para ser registrados se marcan así, con un 1 los
profesionales, con un 2 los de oficina y con un 3 los obreros. ¿Qué tipo de variable es la ocupación
del trabajador? ¿Qué escala de medición se está usando para esta variable?
3) Dadas las siguientes variables indique si son cualitativas o cuantitativas y diga con qué escala se
mide: edad, sexo, lugar en la lista de alumnos de la clase, marca de automóvil, número de personas
que están a favor de la penalización del aborto, tamaño de una bebida (pequeña, mediana o grande),
método de pago (efectivo, débito, crédito)
4) Según la asociación de lucha contra la bulimia y la anorexia, las pautas culturales han determinado
que la delgadez sea sinónimo de éxito social. Muchos jóvenes luchan por el físico “ideal”
motivados por modelos, artistas o publicidad comercial. En un estudio llevado a cabo en una
5
escuela de nivel medio de la ciudad de Monterrey en México luego de que sus alumnos volvieran
de vacaciones se observaron ciertos signos visibles que pueden corresponderse con la anorexia,
tales como dieta severa, uso de ropa holgada, miedo a engordar, hiperactividad y uso de laxantes.
¿cuál o cuáles te parecen que son la/las variables? ¿De qué tipo es?
5) Un psiquiatra infantil se encuentra recabando datos de un grupo de 30 niños con los cuales realiza
juegos y toma el tiempo que tarda el niño en responder al mismo para correlacionarlo con la edad y
la madurez del mismo. Uno de los juegos consiste en un rompecabezas de 20 piezas. Toma el
tiempo que tarda cada niño y expresa los resultados en minutos. ¿Cuántas variables le parece que
deberá anotar el psiquiatra? Clasifique cada una de las variables y diga en qué tipo de escala se
mide cada una.
6) En los folletos de escuela sabática que se utilizan en la Iglesia Adventista del 7mo Día para realizar
un estudio guiado de la Biblia sobre temas específicos que cambian cada trimestre del año, constan
en la contratapa, datos acerca de alguna división en particular a la cual van dirigidas durante ese
trimestre parte de las ofrendas que se recogen en dicho culto. Estos datos incluyen: las diferentes
uniones en cada país que constituye la división, la cantidad de iglesias en cada unión, el número de
congregaciones en cada unión, los miembros bautizados de cada unión y la población de dicha
unión. ¿Cuáles son los elementos? ¿Cuáles las variables? Clasifique las variables en cualitativas y
cuantitativas. Diga en qué escala se mediría cada una de ellas.
6
Unidad 2: Ordenamiento y representación de datos
Introducción
El objetivo de esta unidad es presentar varios procedimientos tabulares y gráficos que se usan con
frecuencia para resumir datos cuantitativos y cualitativos. Los resúmenes tabulares y gráficos de datos
pueden verse en informes anuales, artículos periodísticos y estudios de investigación. Todos estamos
familiarizados con este tipo de presentación y por lo tanto es importante comprender cómo se preparan
y saber cómo interpretarlos.
Comenzaremos con los métodos tabulares y gráficos de una sola variable.
Datos cualitativos. Distribuciones de frecuencia

Una distribución de frecuencias es un resumen tabular de un conjunto de datos que muestra el número
(o frecuencia) de artículos en cada una de varias clases que no se superponen.
Ejemplo: En una muestra elegida al azar de 50 estudiantes de la Universidad Adventista del Plata se
consideró el país de origen de cada uno de ellos, obteniendo los siguientes datos:
Colombia Brasil Argentina Uruguay Argentina
Argentina Brasil Argentina Paraguay Brasil
Uruguay Paraguay Uruguay Colombia Argentina
Argentina Argentina Paraguay Argentina Colombia
Colombia Argentina Brasil Argentina Brasil
Colombia Paraguay Brasil Brasil Brasil
Brasil Uruguay Paraguay Colombia Argentina
Argentina Colombia Argentina Paraguay Uruguay
Argentina Brasil Argentina Uruguay Argentina
Argentina Argentina Colombia Paraguay Argentina
Para formar una distribución de frecuencias con estos datos debemos contar la cantidad de veces que
aparece cada uno de los países. Como se trata de una variable cualitativa que se mide en escala
nominal, realizamos la tabla por orden alfabético, por ejemplo, ya que no existe una jerarquía en los
datos. Resulta entonces la siguiente tabla:
País de origen Frecuencia (f)
Argentina 19
Brasil 10
Colombia 8
Paraguay 7
Uruguay 6
TOTAL 50
Al ver la tabla podemos determinar que el país que más se repite es Argentina, que más de la mitad de
los alumnos proceden de Argentina y Brasil, que el país menos representado en la muestra es Uruguay.
Frecuencias relativas y porcentuales

Muchas veces nos interesa conocer la proporción o porcentaje de resultados de cada clase. La
frecuencia relativa es una fracción o proporción de la unidad, o sea la totalidad de datos se considera
7
una unidad “1”, mientras que la frecuencia porcentual es una fracción de la totalidad considerada en un
100%.
Para calcularlas procedemos así:
frecuencia de la clase
frecuencia relativa : f r 
n (N  total de datos)
frecuencia porcentual : f %  f r .100%
Vamos ahora a completar la tabla de frecuencias incorporando la frecuencia relativa y porcentual.
País de origen Frecuencia (f) fr f%
Argentina 19 0,38 38
Brasil 10 0,20 20
Colombia 8 0,16 16
Paraguay 7 0,14 14
Uruguay 6 0,12 12
TOTAL 50 1 100
Gráficas de barras, columnas y de torta

Los datos cualitativos pueden representarse con cualquiera de estos gráficos. En el caso del diagrama
de barras en el eje horizontal se indica la frecuencia (cualquiera de las tres) y en el vertical los valores
de la variable. En el diagrama de columna es al revés, en el eje horizontal los valores de la variable y
en el vertical la frecuencia (cualquiera). En el diagrama circular se utiliza habitualmente la frecuencia
porcentual. Observe que tanto el diagrama de barras como el de columna, las mismas (barras o
columnas) deben estar separadas.
Diagrama de columnas
10
9
9
8
7
Frecuencia absoluta (f)
7
6
5 5
5
4 Series1
3
2
2
1
0
8 a 10 11 a 13 14 a 16 17 a 19 20 a 22
Países de origen
8
Diagrama de barras
20 a 22 7
Países de origen
17 a 19 5
14 a 16 9
11 a 13 2 Series1
8 a 10 5
0 2 4 6 8 10
Frecuencia absoluta (f)
Diagrama circular
18%
25%
8 a 10
7%
11 a 13
14 a 16
17 a 19
18%
20 a 22
32%
Ejercicios
1) Se realiza una encuesta y cada pregunta tiene tres alternativas de respuestas a las que llamamos A,
B y C. En una muestra de 120 respuestas, se obtuvieron 60 respuestas A, 24 respuestas B y 36 C.
Forme una distribución de frecuencias absoluta, relativa y porcentual. Realice un gráfico de barras.
2) En la siguiente tabla vemos una distribución de frecuencias relativas de una investigación donde a
las diferentes clases las llamamos A, B, C y D:
Clases Frec. Relativa (fr)
A 0,22
B 0,18
C 0,40
D
Total
a) ¿Cuál es la frecuencia relativa de la clase D?
b) Si el tamaño de la muestra es de 200, ¿cuál es la frecuencia absoluta (f) de la clase D?
9
c) Complete la distribución de frecuencias con la columna para la frecuencia absoluta (f) y la

porcentual (f%)
3) En un cuestionario se obtuvieron 58 respuestas SI, 42 respuestas NO y 20 sin opinión. Trace un
diagrama de torta utilizando las frecuencias porcentuales.
4) Retomando el ejemplo visto antes, la Asociación de lucha contra la Bulimia y Anorexia realiza un
estudio en una escuela de nivel medio observando 27 alumnos con síntomas de anorexia o bulimia.
Los resultados obtenidos son:
Dieta severa Uso de ropa holgada Hiperactividad
Uso de ropa holgada Miedo a engordar Hiperactividad
Miedo a engordar Dieta severa Hiperactividad
Dieta severa Dieta severa Uso de laxantes
Dieta severa Uso de ropa holgada Uso de ropa holgada
Hiperactividad Dieta severa Dieta severa
Uso de laxantes Uso de laxantes Uso de ropa holgada
Uso de laxantes Dieta severa Miedo a engordar
Uso de ropa holgada Uso de laxantes Dieta severa
a) Resuma la información anterior en una tabla de frecuencias

b) Construya un gráfico adecuado
5) Al finalizar una campaña evangelística en un determinado lugar al cual asistieron 40 personas
interesadas, se realiza una encuesta sobre el interés de seguir estudiando la Biblia luego de
terminada la campaña. Las respuestas obtenidas son las siguientes:
Si Si Tal vez Si Si Tal vez No Tal vez Tal vez Si
Si Si Tal vez No Tal vez Si Tal vez No Si Tal vez
Tal vez No Si No Tal vez Si Si Si Si Si
No Tal vez Si Si No Si Si Tal vez No Si
a) Realice una distribución de frecuencias
b) Construya un gráfico circular con los datos utilizando la frecuencia porcentual
c) ¿Cómo calificaría el resultado de la campaña en base a su lectura de la información?
Datos cuantitativos. Distribución de frecuencias

Cuando los datos son cuantitativos hay que tener más cuidado al definir las clases o intervalos. No
puede realizarse la distribución considerando cada valor como una clase porque puede resultar que
sean todos diferentes. Por esta razón se utiliza el ordenamiento en intervalos, definidos adecuadamente
para que los mismos no sean solapables (no se superpongan).
Consideremos por ejemplo el psiquiatra que mencionamos ya en un ejercicio anterior que, estudiando
el nivel de maduración de un grupo de niños toma el tiempo que los mismos necesitan para realizar un
rompecabezas de 20 piezas. El estudio lo realiza con un grupo de 30 niños y tabula los valores
obtenidos en minutos (promediando al minuto más cercano)
12 14 14 18 10 9 15 15 15 17
20 8 18 17 20 25 22 23 21 15
21 22 14 16 19 9 12 10 22 16
En primer lugar debemos determinar cuántos intervalos o clases vamos a utilizar. Esto puede ser
escogido al azar en base a lo que pensamos que puede ser necesario o suficiente o sino utilizando una
fórmula que permite determinar el mismo. Llamamos con “k” el número de intervalos.
10
k  1  3, 322.log(n)
En este caso, resulta k  1  3, 322.log(30)  1  3, 322.1, 477  1  4, 907  5, 907  6

El logaritmo es una operación que en la gran mayoría de los casos nos va a dar una cifra decimal por lo
cual debemos aproximar el resultado a un número entero. Para realizar la aproximación procedemos
así: si el primer decimal que se va a eliminar es un número entre 5 y 9 se aproxima la cifra entera a la
siguiente. En nuestro caso el resultado dio 5,907 por lo tanto, como el primer decimal a eliminar es el 9
la cifra entera que es el 5 se aproxima a 6. Si la primera cifra decimal fuera un número entre 0 y 4 se
deja la cifra entera en el valor que tiene.
Volviendo a los intervalos a formar, resulta que vamos a trabajar con 6 intervalos. Ahora debemos
determinar el ancho del intervalo al cual llamaremos con la letra “w”.
Rango
w
k
El rango de los datos es la diferencia entre el mayor y el menor dato. En este caso resulta:
Rango 25  8 17
w    2, 83
k 6 6
Esto significa que el ancho de cada intervalo debería ser de 2,83. Por lo general no se trabaja con cifras
decimales, pero a diferencia que el valor anterior, este se aproxima siempre hacia arriba. El motivo es
que si aproximamos para abajo va a ocurrir que algún dato quede fuera de los intervalos.
Por lo tanto vamos a trabajar con intervalos de ancho de 3 unidades.
Retomemos el valor del rango, el cual en este caso es de 17. Como nosotros vamos a trabajar con 6
intervalos de 3 unidades de ancho, cubriremos 18 unidades de rango (3.6). Por lo tanto como nos
sobran 1 unidad, puede quedar el primer o el último intervalo con alguna unidad de más. Comenzamos
el primer intervalo con 3 datos que son el 8, 9 y 10 por esa razón la llamamos “8 a 10”. Resultan así:
Tiempo (minutos) f
8 a 10 5
11 a 13 2
14 a 16 9
17 a 19 5
20 a 22 7
23 a 25 2
TOTAL 30
En la práctica los intervalos pueden escribirse como lo hicimos recién, lo cual es habitual cuando la
variable es discreta. Pero también se pueden escribir utilizando la notación exclusivamente matemática
que es, para la primer clase: 8  x  11 . Esto significa que el intervalo comienza con 8 porque dicho
valor está incluido y finaliza en el número anterior a 11, porque al utilizar el símbolo < significa menor
a 11, no está incluido dicho valor y por lo tanto termina en 10. Podemos escribir de 8 a 11 y la segunda
de 11 a 14, y así sucesivamente, pero tenemos que tener cuidado con el solapamiento de datos, o sea,
en este caso debe quedar claro que si hay un dato que indica un tiempo de 11 minutos va en el segundo
intervalo porque no está incluido en el primero.
Este tipo de notación es más común para variables continuas, donde se utilizan cifras decimales. Pero
es importante que lo tengas en cuenta desde ya esta diferencia pues va a ser utilizada en el cálculo de
medidas que haremos luego.
11
Volvamos a la distribución de frecuencias. En el caso de variables cuantitativas a las frecuencias ya

definidas les agregamos las frecuencias acumuladas, la acumulada absoluta (F), la acumulada relativa
(Fr) y la acumulada porcentual (F%). Estas se obtienen sumando clase a clase las frecuencias. En este
caso resultan:
Tiempo f fr f% F Fr F%
(minutos)
8 a 10 5 0,16 16 5 0,16 16
11 a 13 2 0,07 7 7 0,23 23
14 a 16 9 0,30 30 16 0,53 53
17 a 19 5 0,17 17 21 0,70 70
20 a 22 7 0,23 23 28 0,93 93
23 a 25 2 0,07 7 30 1 100
TOTAL 30 1 100
Las frecuencias acumuladas no tienen sentido en el caso de variables cualitativas pero si se pueden
interpretar correctamente en las numéricas. Por ejemplo, veamos qué significan las dos que han sido
resaltadas:
 En la columna de la frecuencia acumulada absoluta está resaltado el valor 16, el cual se obtuvo
sumando los valores 5, 2 y 9 de la columna de la frecuencia absoluta (f). Decimos entonces que
hay 16 niños que utilizaron entre 8 y 16 minutos en resolver el rompecabezas.
 De igual manera, para interpretar el 93 que se encuentra resaltado en la columna de la
frecuencia porcentual acumulada diremos que el 93% de los niños utilizaron tiempos entre 8 y
22 minutos para resolver el rompecabezas.
Gráficos
Los gráficos que se utilizan para variables cuantitativas son tres, dos de ellos que son el histograma y
el polígono de frecuencias emplean las frecuencias comunes (absoluta, relativa o porcentual) y el
tercero que es la ojiva emplea las frecuencias acumuladas, cualquiera de ellas.
El histograma es un gráfico de columnas pero a diferencia de éste las mismas van pegadas (no deben
ir separadas). En el eje horizontal van los intervalos y en el vertical la frecuencia que hayamos elegido:
Histograma
10 9
Cantidad de niños
8 7 8 a 10
6 5 5 11 a 13
4 14 a 16
2 2
2 17 a 19
20 a 22
0
1 23 a 25
Tiempo en minutos
12
El polígono de frecuencias se puede superponer sobre el mismo histograma o bien realizarlo aparte.
Consiste en un diagrama de líneas que une los puntos medios de cada una de las columnas con el punto
medio de un intervalo anterior y otro posterior a los utilizados. Veámoslo así:
Histograma
Cantidad de niños 10 9
8 7 8 a 10
6 5 5 11 a 13
4 14 a 16
2 2
2 17 a 19
20 a 22
0
1 23 a 25
Tiempo en minutos
Respecto del polígono de frecuencias, habitualmente se trata de determinar la forma que tomaría el
mismo si pudiera “suavizarse” a través de una curva. Esta curva no la construimos, sólo la vamos a
tener en cuenta para poder calificar los datos de acuerdo a su simetría. Estos pueden ser de tres tipos,
acorde a la forma que podemos pensar tendría la curva de poder ser construida comparando con los
siguientes:
La ojiva es un diagrama de líneas también pero utiliza las frecuencias acumuladas. Vamos a hacer una
utilizando las frecuencias acumuladas porcentuales resulta:
13
Respecto de la ojiva, esta puede utilizarse para aproximar ciertos valores que pueden interesarnos para
describir un grupo de datos. Los definiremos más tarde dándoles el nombre que corresponde a cada
uno, pero como ejemplo consideremos un par:
El 75% de los niños utilizan

El 50% de los niños utilizan tiempos inferiores a 18
tiempos inferiores a 15 minutos aproximadamente
minutos aproximadamente
Ejercicios
1) Determinado investigador evalúa el nivel de agresividad de un grupo de 25 personas expuestas a
una situación límite, los valores obtenidos son los siguientes: 20, 22, 23, 23, 23, 24, 25, 25, 25, 26,
27, 27, 28, 29, 29, 29, 30, 30, 31, 31, 31, 33, 34, 35, 35. Organice los datos utilizando 4 intervalos.
Realice una distribución de frecuencias absolutas, relativas y porcentuales y las correspondientes
14
acumuladas. Haga un histograma, un polígono de frecuencias y una ojiva con cualquiera de las
frecuencias. De acuerdo a la forma del polígono clasifique la variable.
2) Un grupo de 50 niñas en edad escolar primaria fueron evaluadas en cuanto al nivel de ansiedad que
presentan ante un examen. Los valores hallados con las frecuencias correspondientes son los
siguientes:
N° de niñas Nivel de ansiedad
2 4
3 5
8 7
2 8
5 9
5 10
5 12
10 13
10 16
Realice una distribución de frecuencias de la variable “nivel de ansiedad” utilizando 3 intervalos.
Realice un histograma y un polígono de frecuencias. ¿A qué tipo de forma y simetría corresponde?
Haga una ojiva con la frecuencia porcentual y estime el nivel de ansiedad que corresponde al 50%
de las niñas. Interprete dicho valor.
3) En un informe presentado por un colportor sobre su tarea realizada a lo largo del verano consta el
precio de los libros vendidos y la cantidad de libros de ese precio vendidos por el mismo.
Precio del libro N° libros
(en pesos) vendidos
80 16
90 21
120 33
150 35
180 34
200 28
250 16
320 9
510 4
Realice una distribución de frecuencias de la variable “precio del libro” utilizando 3 intervalos.
Complete la misma con las frecuencias acumuladas. Haga un polígono de frecuencias y una ojiva
con las frecuencias porcentuales. Defina la variable en cuanto a su simetría y forma.
4) En la siguiente tabla de frecuencias se encuentran tabulados los valores correspondientes al número
de alumnos que en una escuela de nivel medio ha realizado entre ninguna y 8 consultas con el
psicopedagogo escolar. Complete la tabla de frecuencias con las acumuladas absolutas y
porcentuales. Interprete el valor de f% del segundo intervalo y el F% del tercer intervalo. Además
responda cuántos niños tienen menos de 6 visitas al psicopedagogo.
N° de visitas N° de niños
0a2 14
3a5 26
6a8 10
TOTAL 50
15
Otros gráficos
Veamos a continuación algunos otros gráficos o esquemas que se utilizan para variables cuantitativas.
1. Gráfico de puntos: es uno de los resúmenes gráficos más sencillo. En un eje horizontal se muestra
el intervalo de los valores que toman los datos. A continuación, el valor de cada dato se representa
con un punto colocado sobre el eje. Si hay más de una observación con el mismo valor se colocan
en dicho valor todos los puntos representativos uno encima del otro. Veamos un ejemplo en el cual
vamos a graficar en dos diagramas de puntos el ritmo cardíaco de dos grupos, uno de fumadores y
el otro de no fumadores.
Ritmo Fumador Género Ritmo Fumador Género
cardíaco (0:no, 1:si) (0: F, 1: M) cardíaco (0:no, 1:si) (0: F, 1: M)
82 0 0 80 1 0
68 0 0 90 1 0
78 0 0 78 1 0
80 0 0 74 1 0
62 0 0 70 1 0
60 0 0 74 1 0
62 0 0 84 1 0
76 0 0 72 1 0
74 0 0 92 1 0
74 0 0 80 1 0
68 0 1 94 1 1
68 0 1 80 1 1
64 0 1 78 1 1
76 0 1 88 1 1
88 0 1 60 1 1
70 0 1 86 1 1
78 0 1 90 1 1
80 0 1 89 1 1
74 0 1 68 1 1
82 0 1 72 1 1
60 70 80 90 100
60 70 80 90 100
Complete el diagrama para los fumadores y compare ambos.
2. Diagrama de tallos y hojas: Este diagrama en realidad es una técnica sencilla para poder resumir
con rapidez un grupo de datos numéricos que pueden encontrarse inicialmente desordenados. Los
valores numéricos que constituyen la muestra se dividen de la siguiente forma, la hoja es el valor
correspondiente a las unidades y la decena o decena y centena en caso de números de tres cifras
16
son los tallos. De esta manera se completa el diagrama. Observemos las puntuaciones obtenidas por
un grupo de 50 estudiantes que se encuentran en la siguiente tabla.
76 65 89 86 45 35 66 55 99 95
87 85 83 84 68 72 74 85 68 76
97 52 24 76 77 80 94 90 64 61
83 84 74 76 68 57 47 65 94 97
47 53 52 64 42 32 33 16 47 69
En primer lugar buscamos cuál es el menor (16) y cuál el mayor (99) entonces los tallos van a ir
desde 1 que es el del menor hasta 9 que es el del mayor. El resto es completar el cuadro como lo
hacemos a continuación:
Tallos Hojas
1 6
2 4
3 532
4 77275
5 27352
6 149556848
7 064762664
8 9334554076
9 4405977
A partir de este primer cuadro podemos, por ejemplo, ordenar de menor a mayor los datos
ordenando las hojas de cada renglón:
Tallos Hojas
1 6
2 4
3 235
4 25777
5 22357
6 144556889
7 024466667
8 033445567 9
9 0445779
Observe que los datos quedan ordenados en intervalos de amplitud 10. De manera que podríamos,
por ejemplo, realizar una distribución de frecuencias y un histograma correspondiente:
Calificación f
10 a 19 1 Histograma
20 a 29 1 12 10 10 a 19
30 a 39 3 10 9 9
N° de alumnos
40 a 49 5 8 7 20 a 29
50 a 59 5 6 5 5 30 a 39
60 a 69 9 4 3
40 a 49
70 a 79 9 2 1 1
80 a 89 10 50 a 59
0
90 a 99 7 1 60 a 69
TOTAL 50 Puntuaciones 70 a 79
17
Si usted presta atención, la forma del histograma es la misma del diagrama de tallos y hojas si lo
rotáramos, lo cual hace que nosotros con el diagrama ya podemos ver la forma que va a tener el
histograma y por lo tanto adelantar la clasificación según la simetría o la forma.
3. Tablas de contingencia: Esta tabla se puede utilizar para resumir de manera simultánea los datos
para dos variables. Por ejemplo, en la siguiente podemos ver resumidos los datos de una encuesta
acerca de la marca deportiva preferida por un grupo de mujeres de acuerdo a la edad de las mismas
Adidas Nike Reebok Topper TOTAL
20 a 34 años 12 26 18 14 70
35 a 49 años 25 20 12 15 72
50 a 64 años 18 11 16 28 73
TOTAL 55 57 46 57 215
Con estas tablas uno puede responder preguntas como las siguientes:
a) ¿Qué porcentaje del total prefiere adidas?
b) ¿Qué porcentaje de las que prefieren Nike tienen entre 35 y 49 años?
c) ¿Qué porcentaje del total tienen más de 34 años?
d) ¿Qué porcentaje del total prefiere Adidas o Topper?
e) ¿Qué porcentaje de las mujeres entre 20 y 34 años prefiere Adidas?
Estos datos de la tabla pueden volcarse en una gráfica de barras o de columnas para dos variables.
Por ejemplo, el que corresponde a la variable “marca deportiva” es la siguiente:
Diagrama de barras
28
Topper 15
14
Marcas deportivas
16
Reebok 12
18
50 a 64 años
11
Nike 20 35 a 49 años
26
20 a 34 años
18
Adidas 25
12
0 10 20 30
Cantidad de mujeres
4. Diagrama de dispersión: este diagrama es una representación gráfica de la relación entre dos
variables cuantitativas. Para ilustrar el diagrama de dispersión consideremos un ejemplo: En la
siguiente tabla se encuentran tabuladas la vejez (en años desde su publicación) y la frecuencia de
uso (en número de consultas por año) de ocho libros.
Vejez (años ) 1 3 2 4 3 5 4 3
N° de Consultas (por año) 40 18 30 21 26 10 13 35
18
En el diagrama colocamos en el eje horizontal la que consideramos variable independiente, que en

este caso es la edad del libro y la otra variable en el vertical.
N° de Consultas (por año)

45
40
N° de consultas al año
35
30
25
20
15 N° de Consultas (por año)
10
5
0
0 2 4 6
Años desde su publicación
Podemos apreciar que a medida que los años de publicación aumentan el número de consultas por
año disminuye. Esto nos habla de una relación inversa entre las variables (crece una y disminuye la
otra).
Podemos pensar en este otro ejemplo: En un grupo de adultos mayores (de 30 a 90 años) se midió
el nivel de dependencia que tienen respecto de sus hijos o familiares. Los valores son los
siguientes:
Edad (años ) 32 38 41 48 54 63 75 77 79 82 86 90
Nivel de dependencia 10 15 12 18 21 25 33 32 38 36 47 45
Nivel de dependencia
50
45
40
35
30
25
20 Nivel de dependencia
15
10
5
0
0 20 40 60 80 100
Edad (años)
Entre estas variables la relación es positiva o directa, ya que al aumentar una de las variables
aumenta el valor de la otra también.
19
Ejercicios
1) En un grupo de 80 profesionales inscriptos en un curso de posgrado de “Clínica Psicoanalítica con
niños” 50 eran hombres. Del grupo de mujeres, 18 eran solteras, y de los hombres, 22 son solteros.
Realice con estos datos una tabla de contingencia y un diagrama de barras de la variable “Género”.
Responde: ¿Qué porcentaje de los profesionales inscriptos son varones? ¿Qué porcentaje de las
mujeres son casadas? ¿Qué porcentaje de los casados son varones?
2) Un psicólogo realiza un test de memoria visual a un grupo de 50 jóvenes de una escuela de nivel
medio. Los puntajes obtenidos fueron: 31, 24, 33, 42, 27, 22, 29, 25, 33, 38, 40, 28, 31, 30, 37, 29,
26, 35, 41, 37, 28, 22, 40, 29, 24, 43, 42, 37, 32, 20, 30, 34, 29, 26, 45, 21, 27, 30, 37, 38, 44, 43,
40, 29, 20, 38, 36, 32, 26, 40. Ordénenlos utilizando un diagrama de tallo y hojas. Luego realice
una distribución de frecuencias organizando los datos en intervalos de amplitud de 5 puntos.
3) Un grupo de 12 mujeres jóvenes de una universidad fueron evaluados en un examen psicofísico y
se tuvo en cuenta su altura y peso. Los valores hallados se encuentran en la siguiente tabla:
Altura 1,62 1,55 1,70 1,53 1,74 1,77 1,80 1,69 1,60 1,66 1,70 1,66
(metros)
Peso (kilos) 51,3 53,6 55 58,3 62,2 61 63,5 57,8 59,4 64 62 61,2
Realiza un diagrama de dispersión con los datos y concluí qué tipo de relación presentan los datos.
4) Al registrarse el puntaje de 5 sujetos en una prueba de razonamiento lógico y el tiempo empleado
para resolverla se obtuvieron los siguientes datos:
Puntaje(de 0 a 20) 15 13 20 15 18
Tiempo (minutos) 60 55 68 50 65
Realice un diagrama de dispersión con los datos y determine si existe algún tipo de relación y de
qué tipo es.
5) En el mes de abril del año 2014 un periódico muy conocido realizó una encuesta a 1018 jóvenes de
14 a 24 años y 1002 adultos de más de 25 años sobre su opinión respecto al nivel educativo en
nuestro país tanto del nivel primario como el secundario. Las respuestas se encuentran tabuladas de
la siguiente manera:
Primaria- Primaria- Primaria- Secundaria- Secundaria- Secundaria- TOTAL
Baja Media Alta Baja Media Alta
Jóvenes 85 420 102 121 268 121 1018
Adultos 69 260 80 228 199 67 1002
TOTAL 154 680 182 349 467 188 2020
Responda: ¿qué porcentaje de jóvenes piensa que el nivel de la primaria es alto? ¿Qué porcentaje
del total son adultos que piensan que el nivel de la secundaria es bajo? ¿Qué porcentaje de los que
piensan que el nivel de la primaria es bajo son adultos? ¿Qué porcentaje del total son adultos que
piensan que el nivel de la secundaria es alto?
20
Unidad 3: Medidas
“El objetivo de la ciencia, y por lo tanto del conocimiento científico, es el desarrollo de explicaciones
de la realidad mediante una estrategia metodológica o método que permita verificar de forma fiable la
validez de la explicación postulada” (Ramos, Catena y Trujillo, 2004:25)
Medir es el proceso por el cual se asignan números o símbolos a atributos de entidades del mundo real
de tal forma que los describa de acuerdo con reglas que son previamente definidas.
Cuando en Estadística hablamos de medir estimamos la proporción entre la dimensión o suceso de un

objeto y una determinada unidad de medida. Constituye una importante parte de la medición la
determinación del error o estimación del error cometido.
Cuando medimos variables cuantitativas como número de personas, altura, peso, etc, es fácil de pensar
el concepto de medición porque lo tenemos íntimamente más asociado a los números.
Medir en psicología es asignar un valor dentro de un continuo a las cualidades psicológicas, se utiliza
porque es más fácil comparar los atributos intra e inter personales con números o datos objetivos. Así
es que, se usa para medir diferentes aspectos psicológicos de una persona tales como conocimiento,
habilidades, capacidades o personalidad.
Dentro de las medidas hablamos de dos grandes grupos: las de posición y las de dispersión.
Medidas de posición
Una medida de posición es un valor calculado de un grupo de datos que sirve para describir a éstos de
alguna manera. Lo común es que nos interese que este valor sea representativo de todos los valores del
grupo, motivo por el cual es el desear cierto tipo de promedio. En sentido estadístico, un promedio es
una medida de tendencia central de una serie de valores. En esta parte trataremos de los diversos
procedimientos estadísticos relativos a las medidas de posición en general. Comenzaremos viendo
dentro de las medidas de posición, las de tendencia central que, como su nombre lo indica, son
aquellas que localizan de diferentes formas un valor central en el conjunto de valores dados.
1. Media
La media aritmética es la medida de tendencia central más conocida. La mayor parte de la gente la
llama promedio. Se puede utilizar sólo con variables cuantitativas en las cuales las escalas de
medición utilizadas son la intervalar o de razón. Esto se debe a que en su cómputo es necesario usar
la suma y la división y estas operaciones sólo se pueden hacer con valores numéricos.
Cuando se trata de la media de una población se utiliza como símbolo una letra griega μ (“mu”) y
cuando es de una muestra se emplea el símbolo x
21
La media corresponde a la suma de todas las observaciones dividida por el número de

observaciones. Esto escrito en una fórmula es:
x
x i
n
Donde x i es cada uno de los valores y “n” es el número total de observaciones.
Consideremos que en el primer año de la facultad se inscriben 220 alumnos que son distribuidos en
cinco grupos. El primer grupo tiene 46 alumnos, el segundo 54, el tercero 42, el cuarto 46 y el
quinto 32. El número promedio de alumnos por curso es:
x
x i

46  54  42  46  32
 44
n 5
Una característica distintiva de la media es que la suma de desviaciones respecto de ella es igual a
cero. O sea si restamos la media de cada valor del grupo de datos y lo sumamos esto va a dar cero.
 x i 
 x   46  44    54  44    42  44    46  44    32  44   0
Por esta razón se dice que la media es el centro de gravedad de los datos.
Además observe que, si uno de los datos es muy diferente del resto, por este motivo antes
descripto, la media se correrá hacia el valor más alto y dejará de ser representativo del conjunto.
Por ejemplo, suponga que la distribución de alumnos en grupo se hace así: 82, 30, 36, 38 y 34, la
media es:
x
x i

82  30  36  38  34
 44
n 5
En este caso la mayoría de los grupos tiene menos de 44 alumnos por lo tanto este valor no es
representativo de la realidad.
Media para datos agrupados
Si los datos se encuentran agrupados en intervalos, como ya hemos visto antes, se procede de
diferente manera, ya que al agrupar los datos en intervalos, los mismos se dejan de lado y se sigue
trabajando con la tabla de frecuencias.
En este caso para calcular la media utilizamos una fórmula en la cual interviene el punto medio de
cada intervalo como representativo de todos los datos de dicho intervalo.
Consideremos por ejemplo que se realizó una entrevista para determinar las edades de los
televidentes en una franja horaria de 18 a 20 horas y se agruparon los datos de 10 en 10.
Por ejemplo, en el segundo intervalo hay 80 datos lo que quiere decir que en la muestra hay 80
personas que tienen edades entre 20 y 29. Al tomar el punto medio de ellos (24,5) consideraremos
que los 80 datos de ese intervalo son todos iguales a 24,5 y de esta manera compensamos las
diferencias pues sabemos que habrá algunos menores y otros mayores que este.
Edad (años) f
20 a 29 35
30 a 39 80
40 a 49 183
50 a 59 124
60 a 69 69
70 a 79 37
80 a 89 6
TOTAL 534
22
La fórmula que se utiliza para calcular la media en caso de datos agrupados es:
x
 (x m .f i )
donde x m es el punto medio del int ervalo
n
Completemos la tabla anterior con los datos necesarios para realizar el cálculo:
Edad (años) f xm x m .f i
20 a 29 35 24,5 857,5
30 a 39 80 34,5 2760
40 a 49 183 44,5 8143,5
50 a 59 124 54,5 6758
60 a 69 69 64,5 4450,5
70 a 79 37 74,5 2756,5
80 a 89 6 84,5 507
TOTAL 534 26233
La media es:
x
 (x m .f i )

26233
 49,12  49
n 534
Por lo tanto, la edad promedio de este grupo de televidentes en la franja horaria de 18 a 20 horas es
de 49 años.
2. Mediana
La mediana se utiliza principalmente con variables ordinales y junto con la moda son las únicas dos
medidas de tendencia central que se puede usar con variables cualitativas.
La mediana se define como la puntuación que queda en el medio exacto de la distribución. En
términos visuales corresponde a la puntuación en el mero medio, después que todas las
puntuaciones han sido colocadas en orden (ascendente o descendente).
El método para determinar la mediana en el caso de variables numéricas depende de si el número
de observaciones es par o impar. Si hay un número impar de observaciones, la mediana
corresponde al valor que se encuentra en el medio. Pero si el número de observaciones es par,
entonces se toman los dos valores que se hallan en el medio de la distribución, se suman y se divide
entre dos. Cuando el número de observaciones es impar, la mediana corresponde a un valor de la
distribución. Cuando el número de observaciones es par, la mediana no es necesariamente un valor
de la distribución. Los empates cuentan como puntuaciones diferentes.
Por ejemplo:
 Si los datos son 2, 7, 9, 12 y 15 la mediana es 9
 Si los datos son 2, 7, 9, 12, 15 y 20, la mediana es el punto del medio entre 9 y 12, o sea
10,5
 Si los datos son 2, 7, 9, 9, 15 y 20 la mediana es el punto del medio entre 9 y 9, o sea 9.
 Si la variable fuera cualitativa ordinal y los datos fueran: malo, malo, regular, bueno, bueno,
bueno y muy bueno, la mediana es bueno
 Si la variable es cualitativa y los datos fueran: malo, malo, regular, bueno, bueno y muy
bueno, la mediana es entre regular y bueno.
Datos agrupados
En este caso, al igual que el caso anterior, el cálculo de mediana se realiza mediante una fórmula
que en realidad calcula en forma aproximada la mediana ya que una vez que los datos han sido
organizados en intervalos, los mismos se han dejado de lado.
23
La fórmula que se utiliza es la siguiente:

 0, 5.n  Fi 1 
Me  Li    .w
 fi 
Donde:
 Li: Es el límite exacto inferior del intervalo que contiene la mediana. Este límite es el exacto.
En caso de que los intervalos estén escritos de manera que el número en que termina un
intervalo es el mismo en el que comienza el siguiente, dicho valor es el límite inferior exacto.
Si fuera que el número donde termina el intervalo anterior no es el mismo donde comienza el
siguiente, por ejemplo un intervalo es de 20 a 29 y el próximo es de 30 a 39, el límite inferior
exacto de este último es 29,5 que es el promedio entre el valor en el que termina el anterior y el
que comienza este.
 n : Es el número total de datos de la distribución
 Fi-1 : Es la frecuencia acumulada del intervalo anterior al que contiene la mediana
 fi : es la frecuencia absoluta del intervalo que contiene la mediana
 w: es el ancho del intervalo

Veamos el cálculo de la mediana en el ejemplo utilizado antes para la media:
Edad (años) f F
20 a 29 35 35
30 a 39 80 115
40 a 49 183 298
50 a 59 124 422
60 a 69 69 491
70 a 79 37 528
80 a 89 6 534
TOTAL 534
Para determinar el intervalo que contiene la mediana buscamos el intervalo que contiene el valor
central. Si hay 534 datos, el valor central ocupa la posición 267 (534/2). Mirando la columna de la
frecuencia acumulada podemos ver que en el primer conjunto hay 35 datos (del 1 al 35), en el
segundo intervalo llegamos al dato 115, o sea que hay 80 datos que son del 36 al 80, en el tercero
llegamos al dato 298 (del 80 al 298) por lo tanto el dato 267 se encuentra en el tercer intervalo.
Marcamos el intervalo porque de el dependen los valores que vamos a tomar en la fórmula.
 0, 5.n  Fi 1 
Me  Li    .w
 fi 
 0, 5.534  115 
Me  39, 5    .10  39, 5  0, 83.10  47, 8
 183
3. Moda
La moda es la medida de tendencia central más fácil de determinar. Corresponde a la categoría o
valor de la variable que más se repite. Se utiliza mayormente en variables cualitativas pues puede
24
ser calculada en cualquiera de ellas y es la única que se puede tomar en el caso de variables
cualitativas nominales.
Puede ocurrir que no haya moda o que haya más de una.
Ejemplos:
• Si los datos son 2, 3, 4, 4, 5, 8, 12 la moda es 4
• Si los datos son 2, 3, 3, 4, 5, 5, 12 hay dos modas, 3 y 5, se dice que es bimodal
• Si los datos son 2, 3, 5, 6, 8 y 9 no hay moda
• Si los datos son malo, malo, regular, bueno, bueno y bueno la moda es bueno
• Si los datos son: matemática, física, lengua, matemática y química la moda es matemática.
Datos agrupados
En este caso, al igual que los anteriores, se trabaja con una fórmula que es la siguiente:
  i 1 
Mo  Li    .w
  i 1   i 1 
Donde
Li : límite exacto inf erior del int ervalo que contiene la mod a
 i 1 : diferencia entre frecuencia del int ervalo y el anterior
 i 1 : diferencia entre frecuencia del int ervalo y el siguiente
w : ancho del int ervalo
Para seleccionar en la tabla de frecuencias cuál es el intervalo en el cual se encuentra la mediana,
simplemente y acorde a su definición señalamos el intervalo que tiene mayor frecuencia.
Edad (años) f F
20 a 29 35 35
30 a 39 80 115
40 a 49 183 298
50 a 59 124 422
60 a 69 69 491
70 a 79 37 528
80 a 89 6 534
TOTAL 534
Aplicamos la fórmula
  i1   103 
Mo  Li    .w  39, 5   .10  39, 5  0, 63.10  45, 8
  i 1   i 1   103  59 
Relación entre media, mediana y moda

Si la distribución de datos es simétrica, la media, mediana y moda deben coincidir. En una
distribución asimétrica positiva la media es mayor que la mediana y en una asimétrica negativa la
media es siempre menor que la mediana. Estas dos últimas afirmaciones son siempre verdaderas,
independientemente de que la distribución sea unimodal o no.
Ejercicios
1) En el siguiente diagrama circular se muestran los resultados de una encuesta de opinión llevada
a cabo sobre 30646 personas de la ciudad de Buenos Aires y Gran Buenos Aires y publicada en
el diario Clarín hace un par de años:
25
¿Alguna vez fue al psicólogo?

16%
Si, pero dejé la terapia
31%
No, no creo en la
psicología
No, pero lo haría
25%
Si, voy actualmente
28%
Realice un cuadro y complete una distribución de frecuencia con las absolutas, relativas y
porcentuales. ¿Cuál es la medida de tendencia central que puede calcular en este caso? ¿cuál es
su valor?
2) Los siguientes son los puntajes de un grupo de adolescentes en un test de agudeza visual: 25,
12, 15, 23, 24, 39, 13, 31, 19, 16. Calcule la media, la mediana y la moda. Diga qué tipo de
simetría tienen estos datos. Exprese el resultado obtenido.
3) En un grupo de estudiantes se considera el número de ensayos que necesita cada uno para
memorizar una lista de 6 pares de palabras. Los resultados fueron (en minutos): 5, 8, 3, 9, 6, 7,
10, 6, 7, 4, 6, 9, 5, 6, 7, 9, 4, 6, 8, 7. Calcule la media, mediana y moda y describa los datos
según su simetría. Exprese el resultado obtenido.
4) Un grupo de 20 actores fue sometido a la misma experiencia que los estudiantes del ejercicio
anterior. Obtuvieron un valor medio de 4,8. ¿Cuál es el grupo de mejor desempeño? Justifique
su respuesta.
5) Luego de realizar una serie de conferencias sobre temas de salud y alimentación se tomó una
encuesta a los participantes de la misma acerca de la necesidad que veían de realizar cambios
alimenticios en su vida. Los resultados fueron los siguientes:
Respuestas Frecuencia (f)
Ninguno 17
Pocos 29
Varios 39
Muchos 23
TOTAL 108
¿Qué medidas de tendencia central puede calcular de estos datos? Calcule las mismas. Exprese
el resultado obtenido.
6) El ministerio de la mujer de cierta localidad se encuentra colaborando con un grupo de

psicólogos que llevan adelante una investigación sobre el estado civil de 100 mujeres que se
encuentran bajo tratamiento por depresión. Los datos obtenidos son los siguientes:
26
Estado civil Frecuencia (f)

Soltera 18
Casada 10
Divorciada 10
Viuda 62
TOTAL 100
¿Puede, mediante el uso de una medida de tendencia central, expresar alguna conclusión
respecto del estado civil que caracteriza este grupo de damas?
Otras medidas de posición

Además de las medidas de tendencia central existen otras medidas de posición que pueden calcularse
en los datos cualitativos y cuantitativos, depende cuáles sean estos. Las mismas son: cuartiles, deciles
y percentiles.
1. Cuartiles: Los cuartiles son una medida de uso común en estadística. Son valores que dividen la
totalidad de datos en cuatro grupos iguales. Como es una medida de posición los datos deben ser
ordinales, o sea numéricos o cualitativos ordinales. Se los acostumbra a llamar con los siguientes
símbolos:
Q1 : primer cuartil
Q2 : segundo cuartil (coincide con la mediana)
Q3 : tercer cuartil
En caso de ser datos sueltos los cuartiles se pueden calcular encontrando cuál es la posición que
ocupan dentro de la lista de datos, obviamente ordenados de menor a mayor. Esto se puede hacer
de la siguiente forma:
n 1
Q1 : primer cuartil en la posición
4
2  n  1
Q2 : segundo cuartil en la posición
4
3  n  1
Q3 : tercer cuartil en la posición
4
Tenga en cuenta que si el resultado de la fórmula nos da un número entero nos indica exactamente
cuál es la posición del dato. En caso de que nos dé un número decimal con primer decimal 5, el
cuartil correspondiente se encuentra entre dos datos. Por ejemplo, si el primer cuartil nos da en la
posición 7,5 quiere decir que es el número que se encuentra entre el dato 7 y el dato 8. Dicho valor
se encuentra como promedio entre los dos.
Veamos un ejemplo. Consideremos que se tabularon las edades de un grupo de 12 estudiantes de
nivel medio y los resultados fueron: 12, 13, 15, 15, 15, 16, 17, 17, 17, 18, 18, 19. Calculamos los
cuartiles:
n  1 12  1
Q1 : primer cuartil en la posición   3, 25  3
4 4
2  n  1 2.(12  1)
Q2 : segundo cuartil en la posición   6, 5
4 4
3  n  1 3.(12  1)
Q3 : tercer cuartil en la posición   9, 75  10
4 4
27
Esto quiere decir que el primer cuartil es el dato que ocupa la tercera posición, el segundo cuartil
(coincide con la mediana) es el número que se encuentra en medio del sexto y séptimo dato y el
tercer cuartil es el dato que se encuentra en la décima posición. Por lo tanto se calcula así:
12 13 15 15 15 16 17 17 17 18 18 19
El segundo cuartil es 16,5 El tercer cuartil es 18, lo

El primer cuartil es 15, lo (número medio entre 16 y cual quiere decir que el 75%
cual quiere decir que el 25% 17), lo cual quiere decir que de los jóvenes es menor de
de los jóvenes es menor de el 50% de los jóvenes es 18 años.
15 años. menor de 16,5 años.
En caso que los datos estén agrupados se procede, al igual que la mediana, con una fórmula que es
la siguiente:
 0, 25.k.n  Fi 1 
Q k  Li    .w
 fi 
Tomemos el mismo ejemplo que vimos en las medidas de tendencia central:
Edad (años) f F
20 a 29 35 35
30 a 39 80 115
40 a 49 183 298
50 a 59 124 422
60 a 69 69 491
70 a 79 37 528
80 a 89 6 534
TOTAL 534
Para determinar en qué intervalo se encuentra el cuartil que buscamos lo que debemos calcular es
la primera parte de la fórmula que se encuentra entre corchetes, o sea : 0,25.k.n y ese número nos
dirá en forma aproximada qué ubicación tiene el dato que buscamos. Con este valor y utilizando, al
igual que hicimos para calcular la mediana, la frecuencia acumulada, determinamos el intervalo
que lo contiene. Por ejemplo, en este caso:
Primer cuartil: 0,25.1.534 = 133,5 o sea que se encuentra en el intervalo de 40 a 49 años
Tercer cuartil: 0,25.3.534 = 400,5 o sea que se encuentra en el intervalo de 50 a 59 años
Aplicamos la fórmula para calcularlos:
 0, 25.534  115 
Q1  39, 5    .10  39, 5  0,10.10  40, 5
 183
 0, 25.3.534  298 
Q3  49, 5    .10  49, 5  0, 83.10  57, 8
 124
Interpretamos estos valores de la siguiente forma: El 25% de los televidentes que miran programas
de TV en la franja horaria de 18 a 20 horas tiene 41 años o menos (aproximamos el valor 40,5 al
siguiente), mientras que el 75% de dichos televidentes tiene 58 años o menos.
2. Deciles: Estos valores, al igual que los anteriores, son medidas de posición. En este caso dividimos
al total de datos en 10 grupos iguales. Los deciles son llamados de la siguiente forma:
28
D1 : primer decil
D2 : segundo decil
..................
D9 : noveno decil
Estos valores pueden ser calculados para datos sueltos, calculando la posición que ocupa dicho
valor. En este caso, las fórmulas son las siguientes:
n 1
D1 : primer decil en la posición
10
2  n  1
D2 : segundo decil en la posición
10
...........
k  n  1
D k : k  ésimo decil en la posición
10
Si tomamos el mismo ejemplo que para los cuartiles, o sea las edades de un grupo de adolescentes
que concurre al nivel medio, cuyos valores son 12 13 15 15 15 16 17 17 17 18 18 19,
calculamos algunos deciles por ejemplo:
n  1 12  1
D1 : primer decil en la posición   1, 3  1
10 10
4  n  1 4.(12  1)
D 4 : cuarto decil en la posición   5, 2  5
10 10
8  n  1 8.(12  1)
D8 : octavo decil en la posición   10, 4  10
10 10
El 10% de los datos (primer decil) tiene edades de 12 años o menos ya que es el dato que se
encuentra en la primera posición. El 40% de los adolescentes tiene 15 años o menos (es el dato que
se encuentra en la quinta posición) Por último podemos afirmar que el 80% de los adolescentes
tiene edades de 18 años o menos pues es el dato que se encuentra en la décima posición.
Respecto a datos agrupados se trabaja con la fórmula:
 0,10.k.n  Fi 1 
D k  Li    .w
 fi 
Tomemos el mismo ejemplo que vimos en las medidas de tendencia central:
Edad (años) f F
20 a 29 35 35
30 a 39 80 115
40 a 49 183 298
50 a 59 124 422
60 a 69 69 491
70 a 79 37 528
80 a 89 6 534
TOTAL 534
Para determinar en qué intervalo se encuentra el decil que buscamos lo que debemos calcular es la
primera parte de la fórmula que se encuentra entre corchetes, o sea : 0,10.k.n y ese número nos
dirá en forma aproximada qué ubicación tiene el dato que buscamos. Con este valor y utilizando, al
igual que hicimos para calcular la mediana, la frecuencia acumulada, determinamos el intervalo
que lo contiene. Por ejemplo, en este caso:
29
Primer decil: 0,10. 1. 534 = 53,4 o sea en el segundo intervalo

Cuarto decil: 0,10. 4 .534 = 213,6 o sea en el tercer intervalo
Noveno decil: 0,10. 9. 534 = 480,6 o sea en el quinto intervalo
Aplicamos las fórmulas y resultan los siguientes valores:
 0,10.1.534  35 
D1  29, 5    .10  29, 5  0, 23.10  31, 8  32
 80
 0,10.4.534  115 
D 4  39, 5    .10  39, 5  0, 54.10  44, 9  45
 183
 0,10.9.534  422 
D9  59, 5    .10  59, 5  0, 85.10  67, 9  68
 69
El 10% de los televidentes tienen edades de 32 años o menos, o sea de 20 a 32 años. El 40% de los
televidentes tienen edades de 20 a 45 años y el 90% de los televidentes edades de 20 a 68 años.
3. Percentiles y rango percentil.

El percentil es una puntuación o dato en el cual o por debajo del cual se encuentra un porcentaje
específico de la distribución. El percentil “n” es el dato por debajo del cual, incluyéndose, se
encuentra el n por ciento de la población.
Los percentiles se utilizan a menudo cuando se informan las puntuaciones en las pruebas
estandarizadas. Le permiten al examinado determinar qué porcentaje de la población de
examinados se encuentra por debajo de él. Consideremos las notas de un grupo de 180 estudiantes:
NOTA f F NOTA f F
55 1 1 80 11 92
56 1 2 81 7 99
57 0 2 82 3 102
58 0 2 83 6 108
59 0 2 84 7 115
60 1 3 85 7 122
61 1 4 86 12 134
62 0 4 87 14 148
63 2 6 88 6 154
64 3 9 89 2 156
65 1 10 90 3 159
66 2 12 91 2 161
67 4 16 92 1 162
68 5 21 93 3 165
69 4 25 94 5 170
70 3 28 95 4 174
71 4 32 96 2 176
72 5 37 97 0 176
73 5 42 98 1 177
74 4 46 99 2 179
75 4 50 100 1 180
76 7 57 TOTAL 180
77 9 66
78 7 73
79 8 81
30
Por ejemplo, si buscamos el percentil 20 buscamos el valor por debajo del cual se encuentra el 20%
de los datos. Podemos buscar su posición, con lo cual trabajamos con fórmulas parecidas a las de
los cuartiles y deciles pero de esta forma:
k(n  1)
xk 
100
En este caso, para hallar el percentil 20 buscamos la posición del dato de la siguiente forma:
20(180  1)
x 20   36, 2  36
100
Para identificar el dato 36 nos fijamos en las frecuencias acumuladas, con lo cual determinamos
que es la nota 72. O sea que el 20% de los estudiantes obtuvo una nota inferior o igual a 72.
Como ejemplo calculemos un par de percentiles mas:
50(180  1)
P50  x 50   90, 5 entre el dato 90 y 91 o sea P50  80
100
80(180  1)
P80  x 80   144, 8  145 o sea P80  88
100
Por lo tanto el 50% de los alumnos obtuvo notas inferiores o iguales a 80 y el 80% de los alumnos
obtuvo notas iguales o inferiores a 88.
El rango percetil es la posición que ocupa un dato. El rango percentil de un valor dado se determina
hallando el por ciento de datos con valores iguales o inferiores al dato dado.
Por ejemplo el rango percentil de 65 que es el dato número 10 es:
180          100%
10           x%
10.100%
x  5, 6%
180
Por lo tanto el 5,6% de los datos es igual o inferior a 65.
Si los datos son acumulados, la fórmula que se utiliza es similar a la que vimos para el caso de las
dos medidas anteriores:
 0, 01.k.n  Fi 1 
Pk  Li    .w
 fi 
Por ejemplo, vamos a considerar nuevamente la distribución de datos correspondientes a las edades
de un grupo de televidentes que tomáramos en los dos casos anteriores y calculemos dos
percentiles como ejemplo:
Edad (años) f F
20 a 29 35 35
30 a 39 80 115
40 a 49 183 298
50 a 59 124 422
60 a 69 69 491
70 a 79 37 528
80 a 89 6 534
TOTAL 534
31
Vamos a calcular el percentil 35 y el percentil 82 por ejemplo. Para ubicar el intervalo en el cual se
encuentra cada uno hacemos el cálculo del primer sumando del numerador del corchete. O sea
0,01 . 35 . 534 = 186,9 buscamos el dato 187 que se encuentra en el tercer intervalo
0,01 . 82 . 534 = 437,9 buscamos el dato 438 que se encuentra en el quinto intervalo
 0, 01.35.534  115 
P35  39, 5    .10  39, 5  0, 39.10  43, 4  43
 183
 0, 01.82.534  422 
P82  59, 5    .10  59, 5  0, 23.10  61, 8  62
 69
Lo interpretamos diciendo que el 35% de los televidentes tiene edades inferiores o iguales a 43
años mientras que el 82% de los televidentes tiene edades inferiores o iguales a 62 años.
Para calcular el rango percentil de un dato en particular, la fórmula que aplicamos es la siguiente:
 x  Li 
 Fi 1  w .f i 
RPk    .100%
 n 
 
Calculemos por ejemplo el rango percentil correspondiente a la edad de 52 años:
 52  49, 5 
 298  10
.124 
 298  0, 25.124   298  31
RP52    .100%    .100%    .100%  61, 6%
 534   534   534
 
Por lo tanto el 61,6% de los televidentes tiene edades iguales o inferiores a 52 años, o sea entre 20
y 52 años.
Ejercicios
1) Considere los ejercicios 2 y 3 de las medidas de tendencia central y calcule en cada uno de ellos los
cuartiles 1 y 3, los deciles 4, 6 y 9 y los percentiles 32 y 78. Interprete los valores hallados. Calcule
en el caso del ejercicio 2 el rango percentil del puntaje 24 de agudeza visual.
2) Los resultados de un test de aptitud tomado a un grupo de 100 personas arrojó los siguientes datos:
Edad (años) f F
0,5 a 5,5 7
5,5 a 10,5 12
10,5 a 15,5 21
15,5 a 20,5 32
20,5 a 25,5 28
TOTAL 100
Calcule el primer y tercer cuartil, los deciles 1 y 8, los percentiles 42 y 89 y el rango percentil
correspondiente al puntaje 12 de aptitud.
Medidas de dispersión
Este grupo de medidas nos da una idea en cuanto a lo disperso o no que se encuentran los datos entre
sí. Puede ocurrir que todos los datos sean relativamente cercanos entre si y por lo tanto al valor central,
32
como puede suceder también que se haya datos muy alejados respecto del valor central. Veremos el
rango o amplitud, el rango o amplitud intercuartil, la varianza y el desvío estándar.
1. Rango o amplitud
Esta medida se calcula sólo sobre variables numéricas. Es la medida de dispersión más fácil de
obtener y ya la hemos utilizado al construir intervalos. Es la diferencia entre el valor máximo y
mínimo.
Consideremos un grupo de 18 estudiantes que realizó una tarea que se puntúa de 1 a 10 y
obtuvieron las siguientes notas: 6, 2, 4, 4, 7, 3, 6, 7, 7, 5, 6, 5, 6, 5, 6, 1, 7, 3. Buscamos el mayor
dato que es 7 y el menor que es 1. Por lo tanto el rango es:
R=7–1=6
Esto quiere decir que la totalidad de datos se distribuye entre 6 unidades.
2. Rango o amplitud intercuartil
Es la diferencia entre el tercer y el primer cuartil. Si tomamos los datos anteriores debemos primero
ordenarlos de menor a mayor y buscar el primer y tercer cuartil.
1, 2, 3, 3, 4, 4, 5, 5, 5, 6, 6, 6, 6, 6, 7, 7, 7, 7
Calculemos la posición que corresponde al primer y tercer cuartil.
1.(18  1)
x1   4, 75  5  Q1  4
4
3.(18  1)
x3   14, 25  14  Q3  6
4
Rango int ercuartil IQ  6  4  2
3. Varianza
La varianza de un grupo de observaciones indica la dispersión de esos valores alrededor de la
media. Siendo más precisos, la varianza es el promedio de los cuadrados de las diferencias entre
cada observación y la media. Si los datos son sueltos se calcula de la siguiente forma:
 x 
2
i x
2 
n
Tomando el ejemplo anterior, primero calculamos la media de los valores sumándolos y
dividiéndolos por 18 que es la cantidad de datos y luego la varianza:
1 2  3  3  4  4  5  5  5  6  6  6  6  6  7  7  7  7
x 5
18
 x 
2
i x (1  5)2  (2  5)2  2.(3  5)2  2.( 4  5)2  3.(5  5)2  5.(6  5)2  4.(7  5)2
 2
   3,11
n 18
Observe que en el caso del 3, 4, 5, 6 y 7 se utilizó un factor multiplicando el paréntesis porque, por
ejemplo, el 5 se repite 3 veces y en lugar de escribir 3 veces el paréntesis se lo multiplica por 3.
La letra que indica la varianza “σ” se denomina sigma y se utiliza cuando los datos corresponden a
una población. Si se tratara de una muestra se usa la letra “s” y la fórmula cambia a la siguiente:
 f .  x x  
2
s2 
i m

n 1
Para poder calcularla hay que completar la tabla de frecuencias como veremos siguiendo el mismo
ejemplo que hemos tomado correspondiente a las edades de los televidentes de una franja horaria
de 18 a 20 horas
33
Edad (años) f xm x m x  x m x 
2

fi x m.  x 
2
20 a 29 35 24,5 -24,5 600,25 21008,75

30 a 39 80 34,5 -14,5 210,25 16820
40 a 49 183 44,5 -4,5 20,25 3705,75
50 a 59 124 54,5 5,5 30,25 3751
60 a 69 69 64,5 15,5 240,25 16577,25
70 a 79 37 74,5 25,5 650,25 24059,25
80 a 89 6 84,5 35,5 1260,25 7561,50
TOTAL 534 93483,50
Los cálculos se hicieron retomando el valor de la media de 49 años calculada antes.
 f .  x x  
2
i m
 93483, 50
s2    175, 39
n 1 533
4. Desvío estándar
El estadístico más ampliamente utilizada para describir la dispersión de una distribución es el
desvío estándar. El desvío es la raíz cuadrada positiva de la varianza. Por lo tanto es
aproximadamente el promedio de las diferencias entre las observaciones y la media.
En el caso anterior, si se trata de una población como la de notas, el desvío estándar es:
  3,11  1, 76
Esto lo interpretamos diciendo que la distancia promedio de los datos de la población de notas a la
media que es 5, es de 1,76.
En el caso de los datos agrupados resulta:
  175, 39  13, 24
O sea que la diferencia promedio de las edades de los televidentes de la muestra respecto de la
media de 49 años es 13,24.
Ejercicios
1) Considere los ejercicios 2 y 3 de las medidas de tendencia central y calcule en cada uno de ellos la
varianza y el desvío estándar. Interprete los valores hallados. Calcule el rango intercuartil.
2) Los resultados de un test de aptitud tomado a un grupo de 100 personas arrojó los siguientes datos:
Edad (años) f
0,5 a 5,5 7
5,5 a 10,5 12
10,5 a 15,5 21
15,5 a 20,5 32
20,5 a 25,5 28
TOTAL 100
Calcule la varianza y el desvío estándar. Interprete ambos valores. Calcule el rango intercuartil.
Diagrama de caja
34
Es una gráfica que describe la distribución de un conjunto de datos en referencia a los valores de los
cuartiles como medidas de posición el valor del rango intercuartil como medida de referencia de la
variabilidad. Para su construcción veamos el siguiente indicativo y luego lo haremos con los ejemplos
que venimos siguiendo en la teoría de las medidas de variabilidad.
Barrera Barrera Barrera
Barrera Externa
Externa Interna Interna
Me
1,5.IQ 1,5.IQ
IQ
3.IQ 3.IQ
Consideremos el caso de las notas. La mediana es 5,5 pues al ser 18 datos es el punto medio entre el
dato que ocupa la posición 9 y el que ocupa la posición 10 que son un 5 y un 6. Los cuartiles son 4 y
6. Al calcular la longitud de los brazos o sea la distancia de la caja a la barrera interna es 2 . 1,5 = 3 y
la distancia a la barrera externa es 3.2 = 6.
El diagrama de caja que verá a continuación está generado con el software estadístico SPSS que
siempre lo ubica en forma vertical:
Como puede apreciar, en el diagrama los brazos van hasta la barrera interna. Cualquier dato que
quedara fuera de esos brazos habría que ver si están dentro de las barreras externas, sino serán
considerados anómalos.
Todos los datos de este ejercicio se encuentran dentro de las barreras internas.
35
Unidad 4: Probabilidad. Distribuciones binomial, Poisson y Normal
Respecto del tema de probabilidad vale aclarar que sólo daremos conceptos básicos necesarios para
abordar el tema que nos interesa de esta unidad.
La probabilidad está relacionada con un conjunto de experimentos denominados experimentos
aleatorios que son aquellos en los cuales no podemos predecir en forma exacta el resultado que vamos
a obtener pero si sabemos que el mismo estará dentro de un conjunto conocido. Por ejemplo, si tiramos
un dado no sabemos qué número nos va a salir, pero si sabemos que será un número del 1 al 6. Este es
un experimento aleatorio. El conjunto de resultados posibles se denomina espacio muestral y
habitualmente se lo denomina con la letra S. En este caso el espacio muestral es: S  1, 2, 3, 4, 5, 6 .
Todo subconjunto de este espacio muestral son denominados sucesos y se denominan con letras
mayúsculas como A, B, C, etc. Por ejemplo:
A: lanzamos un dado y obtenemos un número par
B: lanzamos un dado y obtenemos un número impar
C: lanzamos un dado y obtenemos un número menor que 5
Los conjuntos de resultados posibles de cada uno de ellos son:
A  2, 4, 6
B  1, 3, 5
C  1, 2, 3, 4
El concepto a priori de probabilidad dice que la probabilidad de que ocurra un suceso cualquiera es el
cociente entre el número de maneras diferentes en que puede ocurrir el suceso y el número total de
resultados posibles. Por ejemplo, en el caso del suceso A, el número de maneras diferentes en que
salga un número par en el dado es 3 (el 2, 4 o 6) y el número total de resultados posibles del dado es 6,
por lo tanto la probabilidad de que salga un número par en el dado es:
3
p   0, 5
6
Vale aclarar que la probabilidad siempre es un número positivo ya que tanto numerador como
denominador son cantidades de elementos en un conjunto y no pueden tomar valores negativos. Por
otro lado el numerador siempre es menor o a lo sumo igual que el denominador, por lo tanto es un
número entre 0 y 1.
De igual manera podemos calcular la probabilidad de los otros dos sucesos.
Veamos un ejemplo a través de una tabla de contingencia que vimos en la segunda unidad.
Primaria- Primaria- Primaria- Secundaria- Secundaria- Secundaria- TOTAL
Baja Media Alta Baja Media Alta
Jóvenes 85 420 102 121 268 121 1018
Adultos 69 260 80 228 199 67 1002
TOTAL 154 680 182 349 467 188 2020
Podemos calcular algunas probabilidades. Por ejemplo, si de este grupo de 2020 encuestados se elige
uno al azar:
a) ¿cuál es la probabilidad de que sea un joven?
b) ¿cuál es la probabilidad de que considere que el nivel de secundario es bajo?
c) ¿Cuál es la probabilidad de que sea un adulto que considera que el nivel de primaria es medio?
d) ¿Cuál es la probabilidad de que siendo un joven considere que la primaria tiene nivel bajo?
36
e) ¿Cuál es la probabilidad de que habiendo considerado que la secundaria tiene nivel alto sea un
adulto?
Resolvamos cada una de las preguntas:

1018
a) p   0, 504
2020
349
b) p   0,173
2020
260
c) p   0,129
2020
85
d) p   0, 083
1018
67
e) p   0, 356
188
Estos resultados pueden ser expresados como porcentajes multiplicándolos por 100. Por ejemplo
en la pregunta a podemos decir que la probabilidad de que el encuestado escogido sea un joven es
del 50,4%.
Distribuciones de probabilidad
Una distribución de probabilidad es una lista o tabla que incluye todos los posibles resultados de un
suceso y su probabilidad. Si la variable es discreta y finita esto se puede hacer sin problema. En
caso de que la variable sea continua (y toma todos los valores decimales entre dos valores dados) el
número de resultados posibles es infinito y por lo tanto no puede construirse esta tabla, sino que la
misma ya viene calculada y las que vamos a utilizar se encuentran al final del apunte como anexo.
Por ejemplo, si volvemos al caso del dado, la distribución de probabilidad es:
Resultado p
1 0,167
2 0,167
3 0,167
4 0,167
5 0,167
6 0,167
TOTAL 1
Consideremos por ejemplo el espacio muestral de tirar dos veces una moneda. Llamando C al
resultado cara y X al resultado ceca o cruz, el espacio muestral es: S  CC,CX, XC, XX . La
distribución de probabilidad es:
Resultado p
CC 0,25
CX 0,25
XC 0,25
XX 0,25
TOTAL 1
37
Por ejemplo, se puede pedir la probabilidad de sacar una cara, en cuyo caso será la suma del
segundo y tercer caso o sea 0,5, o que no salga ninguna cruz, en cuyo caso es el primer caso, 0,25.
Modelos matemáticos
Estas distribuciones de probabilidad que estábamos viendo surgen de observaciones o de
fenómenos cuyas leyes se conocen bien como en el caso de los dados. Cuando el fenómeno se ha
observado cuidadosamente se puede crear un modelo matemático que lo describe. Esta es la
función más importante de las matemáticas, facilitar el estudio de la naturaleza con modelos que la
interpretan. Estos modelos o funciones cuando estudian la distribución de probabilidad se llaman
Funciones de distribuciones de probabilidad. Hay modelos para variables discretas y otros para
variables continuas. A nosotros nos interesa particularmente estudiar los modelos binomial y
Poisson para variables discretas y Normal para variables continuas.
1. Distribución binomial
Este modelo corresponde a los experimentos en los cuales las observaciones son independientes
unas de otras, cada resultado puede clasificarse como éxito o fracaso y además la probabilidad
de éxito no cambia de una a otra observación. Por ejemplo, es un experimento binomial arrojar
un dado y ver la probabilidad de que salga un 3 o un 5. En este caso la probabilidad de éxito es
2/6 y la de fracaso 4/6. Si volvemos a arrojar el dado las probabilidades de sacar 3 o 5 sigue
siendo la misma al igual que la de fracaso. Además el experimento de arrojar un dado no tiene
memoria, lo cual hace que sean independientes, o sea, si sale un 3 en una primera tirada,
cuando tiramos de nuevo puede volver a salir el 3, el dado no tiene memoria.
Vamos a utilizar una tabla para calcular las probabilidades que en realidad responden a una
fórmula pero no nos interesa ya que directamente utilizaremos la tabla.
Veamos a continuación una página de la tabla para que veas qué datos necesitas conocer para
poder obtener la probabilidad que ya está calculada en la tabla:
38
Los elementos que intervienen son tres: n, x y p. Con la letra “n” se indica el número de veces
que se repite el experimento, con la letra “x” se indica el número de éxitos esperado en esa
cantidad de veces que se realizó el experimento y “p” es la probabilidad de éxito.
Por ejemplo, supongamos que un colportor conoce que la probabilidad de realizar una venta
cuando es recibido en un hogar es de 0,35. Si hoy visitará a 7 familias, ¿cuál es la probabilidad
de realizar 4 ventas?
Miremos en la tabla la columna correspondiente a la probabilidad 0,35, el valor de n es 7 y el
valor de x es 4. La probabilidad que buscamos es 0,1442.
Ejercicios
1) El 15% de los hombres encuestados han presentado antecedentes de ataques de pánico
posteriores a algún episodio crítico en su vida. Si se elige un grupo de 10 hombres, ¿cuál es
la probabilidad de que ninguno haya tenido un ataque de pánico? ¿Cuál es la probabilidad
de que más de 3 hayan sufrido un ataque de pánico?
2) Por experiencia, se sabe que al realizar una encuesta en un barrio de ciudad y preguntar si la
familia desea recibir estudios bíblicos, el 30% responde que sí. Si se planifica visitar un
barrio que tiene 20 viviendas, ¿cuál es la probabilidad de que ninguno acepte estudios
bíblicos? ¿Cuál es la probabilidad de que 5 acepten estudios bíblicos? ¿Cuál es la
probabilidad de que 10 o más lo acepten?
2. Distribución de Poisson
Esta distribución se usa para estimar la probabilidad de que un suceso ocurra cierto número de
veces en un determinado espacio continuo (tiempo, superficie, volumen, etc), por ejemplo,
39
podría ser el número de clientes que ingresa a un negocio en una hora, o el número de árboles
por hectárea, etc. El modelo exige que la probabilidad de ocurrencia es igual en dos intervalos
cualesquiera de igual longitud y que sea independiente de la ocurrencia en otro intervalo.
Al igual que el caso anterior, existe una fórmula para calcular estas probabilidades pero no la
veremos, sólo usaremos la tabla que se encuentra como anexo al final.
Veamos una página de la tabla para ver cómo se maneja.
Como puede ver en la tabla sólo hay dos datos, x y μ. El primer valor, “x” es el número de
éxitos esperado en la muestra y el segundo valor “μ” es el promedio de veces que ocurre por
unidad de continuo.
Por ejemplo, si el número promedio de personas que ingresa por hora en un cajero automático
es de 4,6, ¿cuál es la probabilidad de que en una hora determinada ingresen 7 personas? En este
caso μ = 4,6 y x = 7. Buscamos en la tabla el valor que corresponde es 0,0869. Interpretamos
este valor utilizando porcentajes por ejemplo diciendo que el 8,69% de las veces se espera que
en una hora ingresen 7 personas (o sea cada 100 horas se espera que en 8,69 ≈ 9 de ellas
ingresen 7 personas)
Ejercicios
1) Si en una iglesia determinada se bautizan en promedio 12 personas por año, ¿cuál es la
probabilidad de que en un año cualquiera se bauticen 15 personas? ¿Cuál es la probabilidad
de que en 6 meses se hayan bautizado más de 10 personas? ¿Cuál es la probabilidad de que
en un mes se bauticen 4 personas?
2) Si un psicólogo determina que entre sus pacientes ha encontrado que por año dos jóvenes
que hacen terapia indican que han tenido pensamientos suicidas. ¿Cuál es la probabilidad
que en un año cualquiera se presenten más de 4 jóvenes con este problema? ¿Y que no se
presente ninguno?
3. Distribución normal
La distribución normal es el caso que veremos para variables continuas. En este caso la gran
diferencia que vamos a ver con las dos anteriores en las que se puede encontrar la probabilidad
40
de que la variable tome un valor determinado, es que en este caso la probabilidad de que tome
un valor específico es cero. Esto se debe a que el número total de resultados posibles es infinito
porque estamos contando los números decimales entre dos valores dados los cuales son
infinitos. Entonces la probabilidad de que la variable tome uno de esos valores sería el
resultado de dividir 1 por infinito que es un número muy grande por lo tanto el resultado tiende
a cero. Lo que hacemos es calcular las probabilidades de que la variable se encuentre en un
intervalo determinado.
La distribución normal es un modelo matemático que resuelva muchas situaciones de la vida
real. Sirve para aproximar la binomial en el caso de que se trata de un número muy grande de
experimentos y es la base de la inferencia estadística.
La forma gráfica de la distribución normal es la de una campana conocida como campana de
Gauss. Es simétrica respecto de la media.
La forma de la curva normal va variando de acuerdo al valor de la media y el desvío. En el gráfico

siguiente pueden ver dos curvas normales con la misma media y diferente desvío estándar.
Las probabilidades vienen dadas por áreas bajo la curva normal entre dos valores de la variable.
Supongamos que tenemos una distribución normal con media μ y queremos calcular la probabilidad
entre dos valores de la variable que llamaremos x 1 y x 2 . La probabilidad viene dada por la
siguiente área:
41
Las áreas se encuentran tabuladas en una tabla que se encuentra también en el anexo pero cuyo uso
explicaremos enseguida. Observe la siguiente gráfica:
Acá podemos ver que el área a un desvío estándar a izquierda y derecha de la media es 68,26%, a
dos desvíos a cada lado de la media es de 95,44% y a tres desvíos a uno y otro lado es de 99,72%.
Como el área total bajo la curva es 1 (uno) ya que es el valor máximo que puede tomar la
probabilidad, estas áreas pueden ser escritas como 0,6826; 0,9544 y 0,9972.
Obviamente, para cada ejercicio de curva normal habría una curva diferente al cambiar el valor de
la media y del desvío. Por esa razón la tabla se hizo sobre una en particular que es la que tiene
media 0(cero) y desvío 1 (uno). Lo que debemos hacer es llevar o transformar cada ejercicio a este
caso particular que se llama normal estándar.
Veamos primero cómo es la tabla y cómo se la maneja. Luego veremos cómo hacemos esta
transformación.
Observe la tabla a continuación. En ella figuran valores que se denominan z (esto es para
identificar que se trata de una distribución normal estándar). En la primera columna de la izquierda
los valores de z van desde 0,0 a 3,0. En la primera fila horizontal encuentra valores que van desde
0,00 a 0,09. Estos son los segundos decimales. O sea que para un valor de z por ejemplo de 2,37
nosotros debemos buscar en la primera columna 2,3 y luego en la primera fila buscar .07 entonces
vemos donde confluyen ambos valores y ese es el valor del área o probabilidad. Vea como lo
señalamos en la tabla. El valor correspondiente es 0,4911. Ahora la pregunta es ¿qué área es esta?
Observe la curva normal que se encuentra dibujada sobre la tabla y verá que el área sombreada es
la que está entre 0 y el valor de z hallado. Por lo tanto hemos encontrado el área entre 0 y 2,37.
42
Ahora veremos cómo hacemos para resolver un ejercicio en el cual la distribución normal no tenga
media 0 y desvío 1. En ese caso los valores de la variable se deben transformar a la normal estándar
y usar la tabla anteriormente vista. La fórmula de transformación es la siguiente:
x 
z

Consideremos por ejemplo que se ha determinado que la media de la altura de las jóvenes de 18 a
20 años en un determinado lugar es 1,65 metros con un desvío estándar de 0,09 metros. Si
deseamos conocer la probabilidad de que una joven tenga una altura entre 1,65 metros y 1,80
metros debemos transformar este último valor a z. No es necesario transformar el 1,65 metros pues
como es la media corresponde al 0 de la estándar.
x   1, 80  1, 65
z   1, 67
 0, 09
Buscamos este valor de z en la tabla y la misma nos da el valor de la probabilidad de que la altura
se encuentre entre 1,65 y 1,80 ya que 1,65 es la media.
P(1, 65  x  1, 80)  P(0  z  1, 67)  0, 4525
Si la pregunta fuera, por ejemplo, ¿cuál es la probabilidad de que una joven tenga una altura
inferior a 1,60? debemos ver primero qué valor le corresponde de z a 1,60. Luego, como está
43
solicitando la probabilidad de que sea menor a 1,60 metros, entonces el área es la de la izquierda de
dicho valor de z, no la que nos da la tabla que es la que va entre 1,60 y 1,65 que es la media.
En primer lugar aclaremos que, como el área total bajo la curva es 1 (uno) el área de la mitad, o sea
la que va desde la media a la derecha o a la izquierda es 0,5 ya que la curva es simétrica.
Por otro lado, pensemos que al transformar los valores de x a la normal z, la cual tiene como media
el valor 0, por lo tanto, si los valores de x están a la izquierda de la media nos darán valores de z
negativos pues están a la izquierda de 0. Nuestra tabla no tiene valores negativos, esto es porque al
ser simétrica, el área entre 0 y 1,67 por ejemplo es la misma que hay entre -1,67 y 0.
Veamos cómo respondemos la pregunta anterior.
Primero hallamos el valor de z que corresponde a 1,60 metros.
x   1, 60  1, 65
z   0, 56
 0, 09
Al buscar en la tabla el valor de z = 0,56 la tabla nos dará el área entre 0 y 0,56 que no es la que
buscamos. Pero como sabemos que el área de la mitad de la curva es 0,5 procedemos así:
P(x  1, 60)  P(z  0, 56)  0, 5  0, 2123  0, 2877
Esta es la probabilidad de que la altura de la joven sea inferior a 1,60 metros.
Ejercicios
1) Calcule las siguientes probabilidades utilizando la tabla normal:
a) P(0  z  1, 38)
b) P( 2, 11  z  0)
c) P( 1, 17  z  2, 23)
d) P(z  1, 74)
e) P(z  2, 28)
f ) P(z  1, 45)
g) P(0, 76  z  2, 35)
2) Según una encuesta llevada a cabo por una revista especializada, el número de horas que los
jóvenes utilizan las redes sociales por día tiene una distribución normal con media de 3,5 horas y
desvío de 1,3 horas. ¿Cuál es la probabilidad de que un joven escogido al azar utilice las redes
sociales menos de 2 horas? ¿Cuál es la probabilidad de que la utilice entre 1 y 4,5 horas? Si se
considera peligroso para su relacionamiento social directo que permanezca más de 6,5 horas diarias
en las redes sociales, ¿qué porcentaje de los jóvenes están en esta franja de peligro?
3) El tiempo necesario para terminar un examen final en determinado curso se distribuye
normalmente con una media de 80 minutos y un desvío estándar de 10 minutos. ¿Cuál es la
probabilidad de terminar el examen en una hora o menos? ¿Cuál es la probabilidad de que el
alumno termine el examen entre 60 y 75 minutos? Suponga que en el grupo hay 70 alumnos y que
el tiempo de examen es de 90 minutos y luego las hojas son retiradas, ¿cuántos alumnos puede
estimar que no alcanzarán a terminar el examen?
Puntuaciones z
Las puntuaciones z que pueden obtenerse de un valor dentro de una distribución de observaciones nos
permite describir el lugar que ocupa dentro del conjunto.
44
Supongamos que nos informan que alguien llamado Alan tomó 9 sesiones con la psicoterapeuta.
Suponga también que desconocíamos la cantidad de sesiones tomadas por otros pacientes con la
misma terapeuta. En este caso sería difícil decir si Alan asistió a muchas o pocas sesiones en relación
con otros pacientes. Sin embargo si sabemos que la media es 6 y el desvío estándar es 2,57. Con estos
datos queda claro que Alan asistió a una cantidad de sesiones superior al promedio. También podemos
ver que la cantidad de sesiones en las que Alan se excedió del promedio (3 sesiones más) era un poco
más alta que la cantidad de sesiones en que los pacientes de la terapeuta generalmente varían respecto
del promedio. Miremos la situación gráficamente:
1σ 1σ 1σ 1σ
0,86 3,43 6,00 8,57 11,14
9,00 cantidad de sesiones

tomadas por Alan
¿Qué es una puntuación z? Es la transformación de una observación que describe mejor el lugar que
esta observación ocupa en la distribución. Específicamente, una puntuación z indica a qué cantidad de
desvíos estándar por encima de la media (si da positivo) o por debajo de la media (si da negativo) se
encuentra el valor. El desvío estándar se transforma así en una especie de patrón, una unidad de
medida propiamente dicha. Si buscamos el valor de z que corresponde a las 9 sesiones a las que asistió
Alan nos da:
x  96
z   1, 17
 2, 57
Por lo tanto Alan está a 1,17 desvíos estándar por encima de la media. Si otra paciente asistió a 6
sesiones su puntuación z es 0 por lo que coincide con la media. Si un paciente asiste a 1 sola sesión,
nos da una puntuación z de -1,95 o sea que está por debajo de la media el doble de veces de lo que
varían típicamente con respecto al promedio los pacientes de la terapeuta.
En la práctica, las puntuaciones z tienen muchos usos. También son parte importante de muchos de los
procedimientos estadísticos que veremos luego. Es importante familiarizarse con ellos.
Veamos otro ejemplo que presenta Arthur y Elaine Aron (2001, página 53). Supongamos que un
psicólogo especializado en el desarrollo observó a un niño de tres años llamado Peter, en una situación
estándar de laboratorio, mientras jugaba con otros niños de su edad. Durante la observación, el
psicólogo controló la cantidad de veces que Peter hablaba con los otros niños. El resultado luego de
varias observaciones, fue que Peter habló con los otros niños aproximadamente 8 veces por hora de
juego. Sin ningún patrón de comparación, sería difícil sacar alguna conclusión pero supongamos que
se sabía, por investigaciones previas, que en similares condiciones la cantidad media de veces que los
niños hablan por hora de juego es de 12 con un desvío estándar de 4. Con esta información podemos
ver que Peter habló con menos frecuencia que la media. El puntaje z es de -1, o sea que podemos decir
que habla una cantidad veces inferior que la media pero no es extremadamente menor. Pero si hay un
niño llamado Ian que habla 20 veces, este tiene una puntuación z de 2 o sea que hablará dos veces más
de lo que los niños tienden a desviarse de la media, lo cual lo calificaría como un niño muy locuaz.
45
Fórmula para conversión de una puntuación z

Supongamos que en una prueba de matemática la media fue de 77 y el desvío de 8 puntos. Si un niño
presenta una puntuación z de -1,5 por ejemplo en la prueba, o sea que se encuentra a 1,5 desvíos
estándar por debajo de la media, ¿cuál fue su puntaje en la prueba?
Para calcularla sólo debemos despejar la x de la fórmula de transformación en z.
x 
z  x  z.  

Por lo tanto, en este caso la puntuación que le corresponde a este alumno es x = (-1,5).8+77 = 65
puntos.
Ejercicios
1) En una medición estándar de capacidad auditiva, la media es 300 y el desvío estándar es de 20. a)
Calcule las puntuaciones z de las personas que presentaron registros de 340, 310 y 260 e interprete;
b) Calcule las puntuaciones brutas de aquellas personas cuyas puntuaciones z en la prueba fueron
2,4; 1,5 y -4,5. Interprete.
2) La puntuación de una persona en una prueba de aptitud verbal es de 81 y de 6,4 en la prueba de
aptitud numérica. En el caso de la prueba de aptitud verbal, la media para las personas en general
es 50 y el desvío estándar es 20. En el caso de la prueba de aptitud numérica, la media es en general
0 y el desvío 5. ¿Cuál es la mayor aptitud de esta persona, la verbal o la numérica? Explique su
respuesta a una persona que nunca asistió a un curso de estadística.
46
Unidad 5: Correlación y regresión lineal

Cuando vimos los gráficos, estudiamos uno que se denomina diagrama de dispersión. Este es un
diagrama de puntos que se puede realizar cuando tenemos datos sobre dos variables las cuales
queremos determinar si se encuentran relacionadas o no.
Por ejemplo vimos el nivel de dependencia de los adultos respecto de sus descendientes o familiares, el
cual nos dio el siguiente gráfico:
50
40
30
20
10
0
0 50 100
Edad (años)
También vimos el ejemplo de la relación entre el número de consultas que reciben los libros de una
biblioteca y los años que transcurrieron desde su publicación:
N° de Consultas (por año)

50
N° de consultas al año
40
30
20 N° de Consultas (por
10 año)
0
0 2 4 6
Años desde su publicación
Los estudios de correlación tratan de medir el grado de asociación que existe entre dos variables. Estos
estudios sobre la relación entre variables son muy comunes en las ciencias sociales.
Sin embargo, como hay diferentes escalas para medir las variables veremos que la medida o
coeficiente de correlación que se utilice va a depender directamente de las escalas de medición de las
variables.
La correlación no implica causalidad. Por ejemplo, existe una correlación alta entre la talla del zapato
y las destrezas de lectura pero es obvio que la talla del zapato no es la causa de las destrezas lectoras.
Existe una variable oculta que es el crecimiento de los niños que resulta ser una de las causas.
A menudo una tercera variable o una combinación de variables que no vemos puede ser la causa de la
correlación. Por lo tanto siempre es importante asegurarse de que al hablar sólo se menciona
47
asociación y relación, jamás causa y efecto o dependencia. Los términos que suelen utilizarse es el de
variable independiente para la causa y variable dependiente para el efecto. Muchas veces a los
investigadores no les agrada utilizar estos términos, y aun cuando no podamos determinar con certeza
cuál es la causa y cuál es el efecto, es posible utilizar el conocimiento sobre una variable para predecir
los valores correspondiente a la otra variable. Entonces se suele llamar a la independiente, o sea a la
que se utiliza para predecir los valores de la otra, variable predictora, mientras que la otra variable
puede llamarse dependiente o variable de criterio.
Cuando los valores altos de una variable coinciden con los altos de la otra, los bajos con los bajos y los
medianos con los medianos, decimos que hay una correlación positiva (como es el caso de la edad de
los adultos y el nivel de dependencia). Como la gráfica se aproxima a una línea recta, la llamamos
correlación lineal.
A veces, la relación entre las variables no es positiva. Por el contrario, los valores altos coinciden con
los bajos y los bajos con los altos (como el segundo caso, la relación entre las consultas y los años
desde su publicación de los libros). A esto se lo denomina correlación negativa. Este ejemplo también
corresponde a una correlación lineal.
En algunos casos, la relación entre dos variables no sigue una línea recta positiva o negativa, sino un
patrón más complejo denominado correlación curvilínea. Por ejemplo, se sabe que hasta determinado
nivel, una mayor ansiedad fisiológica hace que uno se desempeñe mejor en cualquier tarea (como por
ejemplo una prueba matemática). A partir de ese nivel, una mayor ansiedad fisiológica hace que el
rendimiento empeore. Es decir, desde estar casi dormido a un nivel moderado de ansiedad, la
efectividad aumenta. Al superar ese nivel moderado, el aumento de la ansiedad puede acelerar
demasiado a un individuo, impidiéndole tener un buen rendimiento. Este patrón curvilíneo en
particular está representado en la siguiente figura:
Efectividad en el desempeño
0 1 2 3 4 5 6
Nivel de ansiedad
A través del método usual de cálculo de la correlación que veremos a continuación, obtenemos el
grado de correlación lineal. Si el verdadero patrón de asociación es curvilíneo, calcular la correlación
con el método usual podría dar como resultado muy poca correlación o una correlación nula. Por eso
es muy importante observar los diagramas de dispersión para descubrir estas relaciones más
interesantes antes de realizar correlaciones automáticamente con la fórmula que veremos a
continuación, ya que una línea no es la única relación posible.
El coeficiente de correlación toma valores que irán desde (-1) a 1 y podemos en forma aproximada
decir que corresponden a gráficos como los siguientes:
48
El grado de correlación indica en qué medida existe un patrón claro de alguna relación en particular
entre dos variables. Si la correlación es positiva los valores del coeficiente de correlación, también
denominado Coeficiente de Pearson nos dará valores entre 0 y 1. Si la correlación es negativa, los
valores del coeficiente de Pearson estarán entre (-1) y 0. Los casos ideales son cuando el coeficiente da
1 o (-1). En este caso todos los puntos del diagrama de dispersión se encuentran sobre la recta.
Mientras que si los puntos forman una nube en la cual no vemos correlación de ningún tipo, o por lo
menos no es lineal, la correlación nos dará cero (0).
Para calcular el valor del coeficiente, al cual se lo designa con la letra “r” existen más de una fórmula,
nosotros usaremos una que considero es más práctica y nos llevará, a pesar de que son muchos, a
realizar menos cálculos que con los otros.
Llamando con la letra x a los valores de la variable predictora y con y a los valores de la variable
dependiente, la formula resulta:
n. (x.y)   x. y
r
 n. x 2   x 2  .  n y2   y 2 
       
El símbolo  significa “sumatoria” o sea al decir x significa que debemos sumar todos los
valores de la x, o sea de la variable predictora.
Vamos a calcular el coeficiente de correlación de los dos ejemplos que tomamos.
49
Primero veamos la relación entre la edad de los adultos (que será tomada como variable predictora) y
el nivel de dependencia (variable dependiente)
Edad (x) Dependencia x.y x2 y2

(y)
32 10 320 1024 100
38 15 570 1444 225
41 12 492 1681 144
48 18 864 2304 324
54 21 1134 2916 441
63 25 1575 3969 625
75 33 2475 5625 1089
77 32 2464 5929 1024
79 38 3002 6241 1444
82 36 2952 6724 1296
86 47 4042 7396 2209
90 45 4050 8100 2025
  765   332   23940   53353   10946
n. (x.y)   x. y 12 . 23940  765 . 332
r  
 n. x 2   x   .  n y2   y   12 . 53353  (765)2  . 12 . 10946  (332)2 
       
2 2
287280  253980 33300 33300 33300

  
640236  585225 . 131352  110224 55011 . 21128 1162272408 34092,12
r  0, 977
Observe bien el orden en que se fueron realizando las operaciones.
¿Cómo interpretamos los valores de r?
Si el valor de r nos da positivo se trata de una correlación positiva y si nos da negativo es una correlación
negativa.
Obviamente si 1 o -1 son los valores perfectos, si los valores son cercanos a ellos hablaremos de una correlación
muy alta (o sea muy cercana a la perfecta).
Si fuera cercana a 0 decimos que es nula o casi nula. El resto de los valores podemos interpretarlos por la
siguiente tabla:
Valor de r Interpretación
1 Perfecta
0,90 – 1,00 Muy alta
0,70 – 0,90 Alta
0,50 – 0,70 Moderada
0,30 – 0,50 Baja
0,00 – 0,30 Muy poca
0 Nula
Existe otro coeficiente relacionado con el de correlación y se denomina coeficiente de determinación.

El coeficiente de determinación es el cuadrado del de correlación ( r 2 ) y por lo tanto siempre da un
50
número positivo. Este coeficiente nos representa el porcentaje de la varianza de una de las variables
que está asociada a la otra variable.
Por ejemplo, en el caso anterior donde r = 0,977, resulta r 2  0, 954 , que interpretamos diciendo que el
95,4% de la varianza del nivel de dependencia se relación con la variación de la edad de los adultos. O
sea que las variaciones en valores del nivel de dependencia queda explicado en un 95,4% por la
variación de las edades de los adultos considerados. El restante 4,6% se debe a otras causas no
analizadas.
Ejercicios
1) Un investigador estaba interesado en la relación entre el grado de empatía de los psicoterapeutas y
el nivel de satisfacción de sus pacientes con la terapia. Como estudio piloto se analizaron cuatro
parejas de terapeutas y pacientes. Estos son los resultados:
Número de pareja Empatía del Satisfacción del
terapeuta paciente
1 70 4
2 94 5
3 36 2
4 48 1
Realice un diagrama de dispersión considerando la empatía del terapeuta como variable predictora.
Calcule el coeficiente de correlación y el de dispersión e interprete ambos en el contexto del
problema.
2) Un especialista en educación se encuentra estudiando si existe relación entre el número de horas
que los alumnos dedican al estudio y la calificación obtenida. Encuesta a 5 alumnos escogidos al
azar y los resultados son los siguientes:
Alumno Horas de estudio Calificación
obtenida
1 0 52
2 10 95
3 6 83
4 8 71
5 6 64
Realice un diagrama de dispersión considerando las horas de estudio como variable predictora.
Calcule el coeficiente de correlación y el de dispersión e interprete ambos en el contexto del
problema.
3) Luego de una campaña de evangelización se recogen a través de una encuesta un conjunto de
personas que desean recibir estudios bíblicos. Estos nombres fueron distribuidos entre diferentes
miembros de iglesia que se comprometieron a visitar a dichos interesados. Cada uno de ellos llevó
10 nombres pero algunos procedieron a la inmediata visita mientras otros tardaron más días en
hacerlo. En el siguiente cuadro se exponen los datos correspondientes a los días que se tardó en
hacer el contacto a través de una primera visita y el porcentaje de los interesados que aceptaron
seguir el estudio bíblico. (Entiéndase que cada miembro de iglesia recibió 10 nombres y el
porcentaje nos indica cuántos de esos 10 aceptaron seguir estudiando la Biblia)
Persona (miembro Número de días Porcentaje de
de Iglesia) que tardó la visita interesados que
estudia la Biblia
1 0 70
51
2 10 20
3 3 70
4 2 90
5 5 60
6 8 30
7 1 80
Realice un diagrama de dispersión considerando el número de días transcurridos antes de la visita
como variable predictora. Calcule el coeficiente de correlación y el de determinación e interprete
ambos valores en el contexto del problema.
4) Una persona que investiga el funcionamiento de la memoria realiza un experimento para
comprobar la teoría de que cantidad de exposiciones a una palabra aumenta las probabilidades de
ser recordada. Dos individuos son elegidos al azar para observar una lista de 10 palabras una sola
vez, otros dos individuos observan la lista dos veces y así sucesivamente hasta llegar a 8
exposiciones de cada palabra y 16 participantes en total. La tabla siguiente indica los resultados del
experimento. Construya el diagrama de dispersión colocando la cantidad de exposiciones en el eje
horizontal, o sea considerándola variable predictora y la cantidad de palabras recordadas en el eje
vertical. Calcule el valor del coeficiente de correlación y el de determinación. Interprete ambos
valores.
Individuo Cantidad de Cantidad de
exposiciones palabras recordadas
1 1 4
2 1 3
3 2 3
4 2 5
5 3 6
6 3 4
7 4 4
8 4 6
9 5 5
10 5 7
11 6 2
12 6 9
13 7 6
14 7 8
15 8 9
16 8 8
5) Para realizar este ejercicio deberá hacer uso de su Biblia. Lea Génesis 5:1-32 y Génesis 11:10-32.
Allí puede encontrar las generaciones desde Adán a Taré, padre de Abraham. Deberá extraer los
siguientes datos: número de generación y edad del patriarca. A continuación con esos datos realice
una tabla como la siguiente:
Patriarca Generación Edad
Adán 1 930
Set 2 912
… … …
Realice un diagrama de dispersión considerando el número de generación como variable predictora
y la edad del patriarca como variable dependiente. Entre los valores va a haber uno que se puede
52
considerar “extraño” porque difiere del resto, evalúe si le parece que debe o no incorporarse en la
tabla. Justifique su decisión.
Luego calcule el valor del coeficiente de correlación y de determinación. Interprete ambos en el
contexto de la lectura.
Posteriormente dividamos la tabla en dos partes, por un lado consideremos todos aquellos
patriarcas que vivieron y murieron antes del diluvio (hasta Lamec) y en otra desde Noe hasta Tare.
Volvamos a hacer el diagrama de dispersión de cada una. Calculemos los coeficientes de
correlación y determinación de cada tabla. Verá que hay diferencias. ¿Puede interpretarlas a ambas
en forma independiente y relacionada?
Regresión
Anteriormente se determinó el nivel de correlación entre dos variables mediante el cálculo del
coeficiente de Pearson. Vimos que cuando la correlación era alta, se podía visualizar una recta que
pasaba entre los puntos. Si la correlación es 1 o (-1) todos los puntos coinciden con la recta.
A partir de ahora, a esa recta se la llamará línea de regresión de y en x y va a servir para predecir
los valores de una variable en términos de los valores de la otra. Esta predicción no es exacta, en
realidad se cometen errores los cuales se pueden determinar.
Esta recta se denomina habitualmente como y  A  Bx siendo A y B dos números que reciben el
nombre de ordenada al origen y pendiente respectivamente. Gráficamente la ordenada al origen es
el punto donde la recta, al ser graficada, intercepta al eje vertical. En tanto que la pendiente nos
dice en cuánto aumenta (o disminuye) el valor de la variable dependiente cuando la predictora
aumenta en una unidad.
Estos valores se calculan de la siguiente manera:
n .  (x.y)   x .  y
B Ay B x
n .  x2    x 
2
Donde y es la media de los valores de y o sea la suma de todos los valores de la variable
dependiente dividido por la cantidad de valores. Análogamente x es la media de los valores de la
variable predictora.
Volvamos al caso que analizamos antes, el del nivel de dependencia de los adultos mayores
respecto de su edad. Copiamos de nuevo la tabla que ya confeccionamos:
Edad (x) Dependencia x.y x2 y2
(y)
32 10 320 1024 100
38 15 570 1444 225
41 12 492 1681 144
48 18 864 2304 324
54 21 1134 2916 441
63 25 1575 3969 625
75 33 2475 5625 1089
77 32 2464 5929 1024
79 38 3002 6241 1444
82 36 2952 6724 1296
86 47 4042 7396 2209
53
90 45 4050 8100 2025

  765   332   23940   53353   10946
Ahora hacemos los cálculos de A y B
n. (x.y)   x. y 12 . 23940  765 . 332 287280  253980

B   
n. x 2    x 
2
12 . 53353  (765) 2
640236  585225
33300 33300
  0, 605  0, 6
55011 234, 54
332 765
A  yB. x   0, 6 .  27, 67  0, 6 . 63, 75  10, 58  10, 6
12 12
La recta resulta ser la siguiente: y = -10,6 + 0,6 x

Veamos ahora en un gráfico superpuesto el diagrama de dispersión y la recta de regresión:
50
45
40
35
30
25
20
15
10
5
0
0 20 40 60 80 100
Edad (años)
Vimos que la correlación es positiva y alta, por lo que podemos ver que los puntos están muy
cercas de la recta de regresión.
Respecto de la pendiente, en este caso nos dio 0,6, esto significa que por cada año que aumenta la
edad (que es la variable predictora) el nivel de dependencia crece en 0,6 puntos.
Esta recta podemos utilizarla para predecir valores de la variable dependiente pero siempre dentro
del intervalo en que fue estudiada. Observe que el primer dato de edad es 32 años y el mayor 90.
Podemos predecir el nivel de dependencia para edades entre esos dos valores. Por ejemplo, si
queremos calcular el nivel de dependencia para un adulto de 70 años reemplazamos en la fórmula
de la recta la x por 70. Resulta:
y = -10,6 + 0,6 . x = -10,6 + 0,6 . 70 = -10,6 + 42 = 31,4
Por lo tanto un adulto de 70 años tiene un nivel de dependencia de 31,4.
Ejercicios
Calcule las rectas de regresión para todos los ejercicios realizados en el apartado anterior
correspondientes al cálculo del coeficiente de correlación.
54
Unidad 6: Inferencia estadística. Test de hipótesis. Intervalos de confianza
Muestreo y distribuciones muestrales

Ya hemos mencionado que una población es el conjunto de todos los elementos de interés en un
estudio, mientras que una muestra es un subconjunto de la población.
La inferencia estadística tiene como propósito construir estimaciones y pruebas de hipótesis acerca de
las características de una población por medio de la información contenida en una muestra.
Es obvio que por diferentes razones, de acuerdo al tipo de población con el cual estemos trabajando, se
hace difícil y a veces imposible estudiar la población completa. Por este motivo trabajamos con una
parte de la misma. La muestra sólo nos da una estimación de los valores de la población, pero
aplicando métodos adecuados de muestreo, los resultados muestrales darán buenas estimaciones de las
características de la población.
Hay diferentes formas de tomar una muestra. Los tipos de muestras se clasifican en dos grandes
grupos, las probabilísticas y las no probabilísticas.
Las muestras probabilísticas son aquellas en las cuales los sujetos que forman parte de la muestra se
seleccionan con base en probabilidades conocidas. En cambio en las no probabilísticas no se utilizan
estos conceptos. El utilizar muestras probabilísticas nos favorecen a la hora de sacar conclusiones
posteriormente de los valores hallados, ya que podremos expresar esas conclusiones en virtud de las
probabilidades que ocurran.
Muestras probabilísticas
 Muestra aleatoria simple: cada sujeto de la población tiene la misma oportunidad de selección que
cualquier otro sujeto. Esta selección al azar es semejante a la extracción de números en un sorteo.
Sin embargo, suele emplearse para este tipo de muestreo una tabla de números aleatorios o un
programa de cómputo generados de números aleatorios (random.org) para identificar los elementos
numerados de la población que serán seleccionados para la muestra. Supongamos que tengo un
grupo de 100 personas entre las cuales debo elegir 10 para la muestra. Con el programa random
obtuve los siguientes números aleatorios: 66, 06, 59, 94, 78, 70, 08, 37, 12 y 55. De esta manera,
habiéndole dado una numeración a las 100 personas quedaron escogidas las 10 de la muestra.
55
 Muestra sistemática: es una muestra aleatoria cuyos elementos se seleccionan de la población a un

intervalo uniforme en una lista ordenada, como sería el caso de la elección de cada décima persona
de la lista, por ejemplo. Otro caso sería el de elegir una casa cada 3 de una cuadra por ejemplo para
visitar y hacer una encuesta.
 Muestra estratificada: Los elementos de la población son primeramente clasificados por el
investigador en distintos grupos o estratos, sobre la base de una o más características importantes.
Luego de cada estrato se toma una muestra aleatoria simple. Por ejemplo, en el caso de las 100
personas, primero se las divide por género en varones y mujeres. Luego de cada grupo elegimos 5
por sorteo o utilizando random.
 Muestra por conglomerados: En este caso los elementos de la población ocurren naturalmente en
subgrupos. Debemos tomar una muestra aleatoria de cada uno de los subgrupos que se denominan
conglomerados. Por ejemplo, si debiéramos considerar tomar una muestra de alumnos de la UAP,
ellos están naturalmente distribuidos en cuatro conglomerados que son las facultades: Ciencias
Económicas, Humanidades, Teología y Salud. De cada uno de esos conglomerados tomamos una
muestra aleatoria de igual número de elementos utilizando sorteo o random.
Entre las muestras no probabilísticas existen también diferentes tipos:

 Muestra de juicio: es aquella en la que un individuo selecciona los elementos a incluir en la
muestra según su propio juicio y sin utilizar el sorteo o números aleatorios
 Muestra de cuota: es aquella en la cual el investigador selecciona los elementos pero restringido
por varias cuotas preestablecidas en relación con género, raza, edad, etc., que tratan de simular
características de la población. Es similar al caso de la muestra estratificada con la diferencia que
aquí dentro de cada cuota no se utiliza la selección aleatoria.
 Muestra por trozos: se toma un grupo de sujetos fácilmente agrupados por conveniencia. Por
ejemplo, si quiero elegir un grupo de alumnos de la UAP tomo el grupo de mis alumnos
únicamente.
Distribución muestral
Se llama así a una distribución en la cual tomamos un gran número de muestras de una población y de
cada muestra evaluamos las características, por ejemplo la media. Por ejemplo, si consideramos una
población que está formada por los elementos 2, 3, 7, 8, 9 tomamos muestras de tamaño 3. En realidad
podemos tomar 10 muestras diferentes considerando como tal a dos muestras que tienen al menos un
elemento distinto.
En cada muestra vamos a calcular la media.
Muestra x
2, 3, 7 4
2, 3, 8 4,33
2, 3, 9 4,67
3, 7, 8 6
3, 7, 9 6,33
7, 8, 9 8
56
2, 7, 8 5,67
2, 7, 9 6
2, 8, 9 6,33
3, 8, 9 6,67
Si tomamos toda la población y calculamos la media y desvío estándar resulta: x  5, 8 s  2, 78

Observe que si sumamos todas las medias obtenidas de cada muestra y dividimos por el número de
muestras vamos a obtener el mismo valor:
x i58
 5, 8
n 10
O sea que la media de las medias calculadas sobre cada muestra tomada coincide con la media de la
población y esto es un dato importante a la hora de estimar a partir de una muestra los elementos o
parámetros de la población.
En cuanto al desvío estándar si nosotros calculamos el desvío de todas las muestras respecto de esta
media calculada antes, o sea 5,8; el desvío de esta distribución muestral resulta ser el cociente entre el
desvío de la población por el número de elementos de la muestra. O sea:
 2, 78
x    1, 61
n 3
En la práctica, los investigadores casi nunca tienen la oportunidad de seleccionar muchas muestras
diferentes de una población. Lleva mucho trabajo poder lograr una sola muestra y estudiar a los que la
conforman. Sin embargo, afortunadamente podemos determinar las características de una distribución
de muestras en forma directa utilizando reglas simples, sin necesidad de seleccionar siquiera una sola
muestra. La única información que necesitamos es: a) las características de la distribución de la
población de individuos y b) tamaño de cada muestra.
La forma de la distribución de medias es, al menos, aproximadamente normal si: a) cada muestra
incluye 30 valores o más, o bien; b) la distribución de observaciones de la población de individuos es
normal. En otras palabras tiende a ser aproximadamente simétrica y unimodal.
Observe cómo quedaría el gráfico de nuestra distribución de medias, considerando que sólo tienen 3
elementos cada una:
9
8
7
6
5
4
3
2
1
0
1 2 3 4 5 6 7 8 9 10
57
Prueba de hipótesis
La prueba de hipótesis es un procedimiento sistemático para determinar si los resultados de un
experimento a través del cual se analiza una muestra, sustentan una teoría o innovación práctica
determinada que se aplica a una población. (Aron y Aron, 2006, pág 177))
La prueba de hipótesis es un tema central para todas las investigaciones científicas. Casi todas las
publicaciones de investigaciones en psicología utilizan la prueba de hipótesis.
Ejemplo
Consideremos un ejemplo ficticio propuesto por Aron y Aron (2006, 178). Durante varios años se ha
desarrollado un gran proyecto de investigación. En el contexto del proyecto se ha administrado a bebes
recién nacidos una vitamina especial, y luego se ha controlado su desarrollo durante los primeros dos
años de vida. Hasta ahora, la vitamina no ha acelerado el desarrollo de los bebés. La distribución de la
edad en la que éstos y todos los bebés comienzan a caminar está representada por la curva que verá a
continuación. En ella observamos que la media es de 14 meses, el desvío estándar es de 3 meses y las
edades siguen una curva normal. Mirando la curva podemos observar que menos del 2% de los bebés
comienzan a caminar antes de los 8 meses de edad (estos bebés se encuentran 2 desvíos estándar por
debajo de la media de edad para comenzar a caminar).
Uno de los investigadores del proyecto ha tenido una idea. Sobre la base de algunas nuevas teorías,
razona que si la vitamina que toman los bebés estuviera más refinada, su efecto podría ser
notablemente mayor, y que los bebés que tomaran la versión con alto grado de refinamiento deberían
comenzar a caminar mucho antes que los otros bebes. Como el costo de realizar este refinamiento es
muy alto se elige una muestra y se hace la prueba en ella tomándola como grupo experimental y
esperando que la media de este grupo disminuya respecto de la otra.
El investigador utilizará el siguiente razonamiento: comúnmente las chances de que un bebé comience
a caminar a los 8 meses de edad o antes serían menores al 2%. Por lo tanto caminar a los 8 meses es
altamente inverosímil. ¿Pero qué sucede si los bebés que estamos estudiando tienen una media que
indica que comienzan a caminar a los 8 meses? Si esto sucede, podremos rechazar la idea de que la
vitamina especialmente purificada no produce ningún efecto. Si rechazamos la idea de que la vitamina
especialmente purificada no produce ningún efecto, debemos aceptar la idea de que sí produce un
efecto.
58
Este tipo de razonamiento al revés, contrario a lo que uno predice, es el corazón de la estadística
inferencial en psicología. Es algo como una doble negación. Uno de los fundamentos de este método
es que podemos determinar directamente la probabilidad de obtener un resultado experimental
determinado si la situación de que no se produzca diferencia es verdadera. En el ejemplo de la
vitamina purificada, los investigadores saben cuáles son las probabilidades de que los bebés caminen a
diferentes edades si la vitamina especialmente purificada no produce ningún efecto. Es la probabilidad
de que un bebé camine a distintas edades lo que ya conocemos por analizar bebés en general, es decir,
bebés que no han recibido la vitamina purificada.
El proceso de la prueba de hipótesis

Lo explicaremos siguiendo este ejemplo ficticio planteado anteriormente. Vamos a ver un
procedimiento de 5 pasos que se utiliza para realizar este test.
1er. Paso: Replantear el problema sobre las poblaciones en función de hipótesis nula y
alternativa o de investigación.
De esta manera la población se divide en dos grupos:
Población1: bebés que no toman la vitamina especialmente purificada
Población 2: bebés que toman la vitamina especialmente purificada.
La población 1 representa una especie de línea de base de lo conocido, en tanto que la población 2 son
aquellos que reciben el tratamiento experimental.
La predicción del investigador está basada en una teoría acerca de cómo funcionan las vitaminas de
este tipo. La predicción es que los bebés de la población 2 en general caminarán antes que los de la
población 1. Podemos decirlo en forma más concreta expresando que la media de la población 2 es
menor que la media de la población 1. En símbolos es  2  1 .
Si la predicción es incorrecta se mantiene la situación contraria, o sea que los bebés de la población 2
no caminan antes de los bebés de la población 1. Esta predicción contraria implica que no hay
diferencia entre las medias de las dos poblaciones. Esta es la llamada hipótesis nula porque se utiliza
generalmente para indicar una situación en la que no existe diferencia entre dos poblaciones (la
diferencia es nula). En símbolos es  2  1 .
La hipótesis nula y la alternativa son completamente opuestas. Si una es verdadera la otra no puede
serlo. Esta oposición, y la concentración directa en la hipótesis nula, es un punto central de la lógica de
la prueba de hipótesis. Muchas veces a la hipótesis alternativa también se la llama hipótesis de
investigación.
2do. Paso: Determinar las características de la distribución comparativa
Una vez planteadas las hipótesis debemos analizar cómo podríamos utilizar la información que
obtenemos sobre una muestra para realizar esta elección. La pregunta que planteamos es la siguiente:
dado un determinado resultado muestral (o sea una observación realizada) ¿qué probabilidad teníamos
de obtener ese resultado si la hipótesis nula fuera verdadera?
Para responder esta pregunta, debemos saber cómo sería la situación si la hipótesis nula fuera
verdadera. Es decir, necesitamos conocer los detalles de la distribución de la población de la cual
proviene la muestra si la hipótesis nula fuera verdadera. Si conocemos la distribución de la población
de la que proviene nuestra muestra y sabemos que se trata de una distribución normal, nos
59
encontramos en una buena posición pues podemos determinar directamente la probabilidad de obtener
cualquier valor de la distribución utilizando la tabla.
Si la población de la cual se toma la muestra tiene una distribución normal, también la distribución de
muestreo de la media tendrá distribución normal, sin importar el tamaño de la muestra, pero debemos
conocer la media y el desvío estándar de la población. Pero, ¿qué ocurre con una población sin
distribución normal? Hay un teorema de la estadística matemática que permite la aplicación de la
distribución normal a estas distribuciones de muestreo. Este teorema se llama “Teorema central del
límite” y establece que cuando el tamaño de la muestra se incrementa, la distribución de muestreo de
la media se aproxima en cuanto a su forma a la distribución normal, independientemente de la forma
de la distribución de la población de la que fue tomada la muestra. Para efectos prácticos puede
suponerse que la distribución de muestreo de la media tiene una distribución aproximadamente normal,
incluso en las poblaciones o procesos menos normales, siempre que el tamaño de la muestra sea
mayor o igual a 30. Si la población es normal pero no tenemos como dato el desvío estándar de la
misma y tomamos una muestra de menor tamaño, realizaremos el trabajo con otra distribución llamada
“t” pero para esto debemos tener el sustento de que la población de la cual fue tomada la muestra tiene
distribución normal.
3er. Paso: Determinar el valor muestral de corte en la distribución comparativa en el que

debería rechazarse la hipótesis nula
Lo ideal sería que antes de realizar un estudio, los investigadores establezcan un objetivo con el cual
comparar su resultado, es decir, qué valor extremo necesitaría tener la muestra para poder sacar una
conclusión confiable. Específicamente, determinar el valor que necesitaría arrojar la muestra para
decidir rechazar la hipótesis nula, cuán extremo debería ser ese valor para que resulte demasiado
improbable que pudiera obtenerse tal valor extremo si la hipótesis nula fuer verdadera. Este punto se
llama punto muestral de corte o punto crítico y está relacionado íntimamente con una probabilidad de
error que estamos dispuestos a tolerar. Ese error se denomina habitualmente error tipo I y es el error
que se comete al rechazar la hipótesis nula siendo esta verdadera. A la probabilidad de cometer este
error se la denomina nivel de significancia del test. Por lo general se trabaja con niveles de
significancia de 0,01 o 0,05, lo cual quiere decir nos planteamos una probabilidad de equivocarnos
rechazando la hipótesis nula de un 1% o un 5%. Aclaremos que hay otro tipo de error, denominado
error tipo II que tiene que ver con la posibilidad de aceptar la hipótesis nula siendo esta verdadera.
Este error no lo vamos a calcular.
Analicemos nuestro ejemplo. Sabemos que si la hipótesis nula fuera verdadera sería muy improbabile
que un bebé camine a los 8 meses o antes. Dicho punto está 2 desvíos por debajo de la media y sólo
puede ocurrir menos de un 2% de las veces. Basándonos en la distribución comparativa, los
investigadores pueden plantearse por adelantado, antes de realizar la experiencia, como punto de corte
los 8 meses de edad, diciendo que si la muestra da un promedio igual o inferior a ese valor la hipótesis
nula se rechaza y se acepta la alternativa de que los bebes que consumieron esa vitamina purificada
tienen un promedio inferior a la media de la población 1 en cuanto al tiempo en que empiezan a
caminar. Si la media de la muestra en estudio nos diera un valor mayor de 8 meses, supongamos 9
meses, se sostiene la hipótesis nula, no se la puede rechazar porque no hay la evidencia necesaria para
hacerlo. En este caso habría que realizar una investigación más profunda.
Por lo general al plantear este punto crítico no se utilizan valores concretos sino la puntuación z que
corresponde a la probabilidad que nos planteamos como posible error. Si vamos a trabajar como en
60
este caso con una probabilidad del 2%, deberíamos buscar cuál es el valor de z, a la izquierda de la
media, que deja por debajo de él un área de 0,02. Si vamos a la tabla, y aproximando al valor más
cercano, obtenemos que la puntuación z correspondiente es z = -2,05. El procedimiento nos exige
entonces obtener la puntuación z de la media muestral y ver si es inferior a este valor o mayor.
Como explicamos antes, habitualmente se trabaja con las probabilidades del 1% y del 5% y con dos
tipos probables de pruebas, bilaterales y unilaterales. Esto quiere decir lo siguiente: si la hipótesis nula
será rechazada tanto si el valor obtenido es mayor o menor que la media planteada (bilateral) , o bien la
hipótesis nula sólo se rechaza si el valor muestral es menor (unilateral izquierda) o mayor (unilateral
derecha).
Por ejemplo, si la hipótesis nula hubiese dicho que las medias de ambas poblaciones son iguales
 2  1 y la alternativa hubiese dicho que son distintas  2  1 sin aclarar si una es mayor o menor
que la otra, y por lo tanto la hipótesis nula se va a rechazar si da que  2  1 o  2  1 , este es el caso
de un test bilateral. En cambio, si fuese como nuestro ejemplo que dice que  2  1 y sólo se rechaza
si la media de la población 2 es menor que la 1 se denomina test unilateral, en este caso por izquierda.
Los valores de z correspondientes a los niveles de significancia habituales del 0,05 y 0,01 se tabulan y
son los siguientes:
0,05 0,01
Bilateral  1,96  2,575
Unilateral izquierda - 1,645 - 2,33
Unilateral derecha 1,645 2,33
4to Paso: Determinar el valor muestral en la distribución comparativa

El siguiente paso es realizar la experiencia y encontrar la media de la muestra tomada. Luego se
obtiene la puntuación z del valor hallado.
Supongamos que los investigadores de nuestro ejemplo realizaron el estudio y la media de la muestra
que tomó la vitamina purificada fue de 9 meses y la muestra compuesta por 30 niños. Cuando
obtenemos el valor de z que le corresponde a este valor debemos hacer el siguiente cálculo:
x   x   9  14
z    9,13
x 
n
3
30
Observe que se utiliza el desvío de la distribución de medias, ya que estamos encontrando la

puntuación z de una media respecto de la media de la población.
5to Paso: Decidir si se rechaza o no la hipótesis nula

Este paso simplemente se reduce a comparar el valor obtenido con el valor puesto como crítico (-2,05).
Como este valor es menor al punto crítico rechazamos la hipótesis nula a favor de la alternativa, o sea
que consideramos que el consumo de la vitamina purificada disminuye la media del tiempo que
necesita el bebé para empezar a caminar.
Si rechazamos la hipótesis nula significa que los resultados de la experiencia sostienen la hipótesis de
investigación o alternativa. Los investigadores no dirían que el resultado prueba la hipótesis de
investigación o que los resultados muestran que la hipótesis es verdadera. Estas palabras son muy
fuertes siendo que a las conclusiones se llega utilizando probabilidades. En la prueba de hipótesis, se
basan en la poca probabilidad de que ocurra algo contra una probabilidad mayor de que no ocurra.
61
Cuando el resultado no es lo suficientemente extremo como para llegar a rechazar la hipótesis nula, no
decimos que se acepta la hipótesis nula, sino que el resultado no es lo suficientemente determinante
como para rechazarla.
Ejemplo
Un grupo de psicólogos clínicos de un centro residencial de tratamiento psiquiátrico creen haber
desarrollado un nuevo tipo de terapia que aliviará, en mayor grado que la terapia que se está utilizando
en este momento, la depresión de los pacientes. Sin embargo, como sucede con cualquier tratamiento
no se puede descartar la posibilidad de que provoque peores resultados en algún paciente. Se
selecciona al azar una muestra de pacientes considerada como grupo experimental y se le suministra
una nueva terapia en lugar de la usual. La depresión del paciente se medirá con una escala estándar que
se aplica a todos los pacientes luego de 4 semanas. Se sabe que cuando se trabaja con el tipo de terapia
tradicional el nivel de estrés promedio es de 69,5 con un desvío estándar de 14,1 (cifras obtenidas por
una encuesta nacional de 75000 pacientes psiquiátricos a los que se trató con la terapia tradicional). En
la muestra se tomaron 42 pacientes y la media del nivel de depresión obtenida fue de 61,3.
Población 1: los pacientes que reciben la terapia tradicional
Población 2: los pacientes que reciben la terapia alternativa
Hipótesis nula: 1   2 (la nueva terapia no cambia el promedio del nivel de depresión)
Hipótesis alternativa: 1   2 (la nueva terapia cambia el promedio del nivel de depresión, se toma en
cuenta la posibilidad que la cambie para disminuirla o para aumentarla)
Nivel de significancia: 0,05
Prueba bilateral, por lo tanto tomamos dos valores de z críticos, que en este caso serán – 1,96 y 1,96
Cómo se decide: Si la puntuación z de la muestra es inferior a - 1,96 o superior a 1,96 se rechaza la

hipótesis nula, mientras que si la puntuación z se encuentra entre – 1,96 y 1,96 no se rechaza la misma.
Región de
rechazo
62
x   x   61, 3  69, 5
Cálculo de la puntuación z del valor muestral: z    14,1  3, 76
x 
n 42
Este valor es inferior a – 1,96 y corresponde por lo tanto rechazar la hipótesis nula y considerar que de
acuerdo a esta muestra el nivel de depresión de una persona cambia al aplicar la terapia alternativa.
Ejercicios
1) Una psicóloga interesada en los sentidos del gusto y del olfato ha realizado una serie extensiva de
estudios en los que hace probar a alumnos universitarios 20 tipos de alimentos diferentes (damasco,
chocolate, cereza, ajo, etc.) Cada alimento se suministra en forma de gota sobre la lengua. De toda
la población de alumnos de la universidad la cantidad media que los alumnos pueden identificar
correctamente entre estos 20 alimentos son 14 con un desvío estándar de 4. Ella cree que la
precisión de las personas está más relacionada con el olfato que con el gusto. Por lo tanto repite la
prueba utilizando un procedimiento que impide utilizar el olfato. Se toma una muestra de 32
alumnos y la media de este grupo es de 12 alimentos. Utilizando un nivel de significancia del 0,05
realice la prueba correspondiente.
2) Un psicólogo que trabaja en un sanatorio propone la teoría de que una persona se recuperará más
rápido de una complicada cirugía del corazón si los amigos y la familia están en la habitación con
el paciente durante las primeras 48 horas siguientes a la operación. Se sabe que el tiempo promedio
de recuperación de este tipo de cirugía tiene una distribución normal con media de 12 días y un
desvío estándar de 5 días. El procedimiento se prueba con una muestra de 8 pacientes que se
recupera en una media de 10 días. Utilizando un nivel de significancia de 0,05, ¿qué conclusión
puede sacar el investigador?
3) Robins y John (1997) realizaron un estudio sobre el narcisismo (egolatría) en el que se comparaban
individuos que habían tenido valores altos con individuos que habían obtenido valores bajos. Una
de las preguntas era ¿cuántas veces se miran al espejo en un día típico? Al informar sobre los
resultados, los investigadores dijeron: “tal como se había predicho, los individuos con un alto
grado de narcisismo informaron que se miraban al espejo con más frecuencia que los individuos
con un bajo nivel de narcisismo. (media 1: 5,8 y media 2; 4,7 con un valor de la probabilidad
inferior a 0,05). Explique el resultado informado por estos psicólogos.
4) Un investigador ha descubierto que ciertos sonidos hacen a las ratas mucho más agresivas y predice
que los sonidos también disminuirán sus desempeños en cuanto a tareas de aprendizaje.
Supongamos que se sabe que una rata promedio, ordinaria, puede aprender a correr correctamente
un laberinto en 18 pruebas con un desvío estándar de 6 y que la distribución de esta prueba es
normal. El investigador prueba una rata ordinaria en el laberinto pero haciéndole escuchar el sonido
y la misma necesita 30 intentos para aprender el laberinto. Utilizando un nivel de significancia de
0,05, ¿qué conclusión puede sacar el investigador?
5) Un psicólogo especializado en temas de familia ha desarrollado un elaborado programa de
capacitación para contribuir a la adaptación de hombres sin hijos casados con mujeres con hijos
adolescentes. A partir de investigaciones previas, se sabe que estos hombres, un mes después de
mudarse con la nueva esposa y sus hijos sufre un nivel de estrés de 85 con desvío estándar de 15.
Se prueba el programa de capacitación a un grupo de 36 hombres en esta situación y se obtiene que
en dicho grupo el nivel de estrés es de 74. Con un nivel de significancia de 0,05, ¿qué conclusión
debe sacar el investigador?
63
6) Por estudios llevados con anterioridad en una determinada unión de la Iglesia Adventista, se
conoce que el número promedio de bautismos en la misma por año es de 32 con un desvío de 11. El
número de bautismos sigue en dicho lugar una distribución normal. Si se realiza una campaña
evangelística en tres etapas con el propósito de que cada etapa vaya profundizando los temas
alcanzados en una etapa anterior. El proceso lleva un año y al finalizar el mismo se realizan 45
bautismos. Considerando un nivel de significancia de 0,05, ¿puede confirmar que el número de
bautismos en dicha unión luego de la campaña es diferente al habitual?
Intervalos de confianza
Aquí trataremos otro tema importante para la estadística inferencial, el cual es la estimación de la
media de una población desconocida sobre la base de valores muestrales.
La mejor estimación de la media poblacional es la media muestral. Si nosotros tomamos una muestra,
supongamos de 64 alumnos de quinto grado que recibieron instrucciones especiales para realizar una
prueba de nivel académico y luego obtuvimos la media del puntaje obtenido por esos 64 alumnos y
resultó ser de 220, si afirmamos que la media de la población de todos los alumnos de quinto grado
que realizan una prueba de nivel académico luego de haber recibido una instrucción especial es de 220
puntos, estaríamos realizando una estimación puntual.
En realidad, no podemos especificar con el solo dato de una muestra cuál es el valor del parámetro
poblacional. Por ese motivo la estimación la hacemos por medio de un intervalo y hablamos entonces
de intervalos de confianza. Se le da este nombre porque en dicho intervalo vamos a tomar en cuenta
qué probabilidad de que la media poblacional esté incluida dentro del mismo. Ese nivel de
probabilidad es el nivel de confianza con el cual estimamos. Habitualmente se trabaja con niveles de
confianza del 90%, 95% o 99%. (No olvide que en Estadística nunca podemos afirmar un resultado
con un 100% de certeza)
Los límites de confianza se basan en la distribución de medias. Lo que necesitamos saber es dónde
comienza y donde termina el 95%, por ejemplo, central de las medias en esa distribución.
Por lo general trabajamos con el puntaje z de los extremos del intervalo a determinar. Esto se puede
hacer si conocemos que la población es normal pues cualquier distribución de medias de dicha
población tiene también distribución normal. También se puede usar aún sin conocer si la población es
normal si el tamaño de muestra es mayor o igual que 30. Si las muestras fueran de menor número de
elementos pero la población es normal y conocemos el desvío estándar de la misma, también podemos
utilizar la puntuación z.
Ya lo vimos antes, los valores de z correspondientes a un nivel de confianza del 95% son – 1,96 y
1,96; los correspondientes a un nivel de confianza del 90% son – 1,645 y 1,645 y los correspondientes
al 99% - 2,575 y 2,575. Estos valores se obtienen de la tabla normal, teniendo en cuenta que la
probabilidad central, alrededor de la media, sea respectivamente 0,95, 0,90 y 0,99.
De esta manera, el intervalo de confianza de la media puede escribirse de la siguiente forma:
  
 
  x  z.x     x  z.


n

El sumando z . se denomina error de estimación. Es lo que sumamos y restamos a la media
n
muestral para determinar los límites del intervalo de confianza. Este error depende fundamentalmente
64
de dos factores, z y n. El valor de σ no lo consideramos como variable pues dicho valor es una
constante que caracteriza la población.
Por lo tanto, a medida que aumenta z aumenta el error de estimación, o sea que mayor es la amplitud
del intervalo. Esto quiere decir que si aumentamos el nivel de confianza, aumentamos también la
amplitud del intervalo. Esto no es bueno en general, porque si estamos estimando la media, cuanto
menor sea la amplitud del intervalo mejor es la estimación. Por ejemplo, volvamos a la puntuación que
nos dio en promedio de la muestra 220. Si yo digo que la media de la población está entre 100 y 340
seguro que incluyo en el intervalo la media poblacional pero es muy poco preciso. No es lo mismo que
decir, por ejemplo que está entre 190 y 250 que es mucho más pequeño y contiene menos valores.
Por otro lado, el error de estimación es inversamente proporcional al tamaño de la muestra n. O sea
que cuanto mayor sea el tamaño de la muestra, menor es el error de estimación. Si el tamaño de la
muestra se disminuye el error de estimación aumenta.
Veamos un ejemplo. En el caso anterior, con la muestra de 64 alumnos que nos dio un puntaje de 220,
agreguemos el dato de que la población tiene un desvío de 48 puntos. Vamos a realizar un intervalo de
confianza del 95%
 48 
 
  x  z. x     220  1, 96 .

     220  11, 8      208, 2 ; 231, 8 
64 
Comparemos con uno del 90% de confianza, que según lo visto va a ser menos amplio:
 48 
 
  x  z. x     220  1, 645 .

     220  9, 9      210, 1 ; 229, 9 
64 
Ahora consideremos que disminuimos el tamaño de la muestra a 40 individuos y mantengamos la
confianza en el 95%
 48 
 
  x  z. x     220  1, 96 .

     220  14, 9      205, 1 ; 234, 9 
40 
Muestras representativas
La lógica de los intervalos de confianza es un poco más sutil de lo que podría parecer a simple vista.
Esta sutileza está relacionada con el hecho de que los intervalos de confianza son estimaciones basadas
sólo en información sobre una muestra.
Supongamos que de alguna forma sabemos que la población de alumnos de quinto grado que recibe
instrucciones especiales tiene una media de 210. Este valor quedó comprendido dentro del intervalo de
confianza del 95% que hicimos antes. Si la media hubiese sido 210 no sería sorprendente que al tomar
una muestra de 64 alumnos, los investigadores especializados en educación obtuvieran una media de
220. Esta media muestral está dentro de los límites del 95% de la distribución de medias.
Sin embargo, en las investigaciones en general no conocemos la media de la población que estamos
analizando. En realidad los investigadores e educación no tendrían forma de saber que la verdadera
media de la población de los alumnos de quinto grado que reciben instrucciones especiales es de 210.
Todo lo que conocen es la media muestral y con ella determinan el intervalo de confianza que vimos
antes (208,2 ; 231,8).
De todos modos, si los investigadores hubieran encontrado que su muestra tenía una media de 190
(seguimos considerando que la media poblacional es 210). Si la media es 210 y realizamos un
intervalo de confianza del 95% alrededor de este valor resulta:
 48 
 
  x  z. x     210  1, 96 .

     210  11, 8     198, 2 ; 221, 8 
64 
65
El valor de nuestra muestra, 190, cae fuera de este intervalo, o sea que la probabilidad de que ocurra es
inferior al 5%, o sea que es bastante improbable que ocurra. Se dice entonces que la muestra obtenida
no es representativa de la población.
Ejercicios
1) Cierta población de individuos tiene una media de 40 y un desvío estándar de 6 y sigue una
distribución normal. Indique si cada una de las siguientes muestras es representativa o no de la
población. Considere un 95% de confianza.
a) Muestra de tamaño 10 con media 44
b) Muestra de tamaño 81 con media 42
c) Muestra de tamaño 16 con media de 42
2) Un grupo de 25 mujeres entre 70 y 80 años de edad fueron seleccionadas al azar de la población
general de mujeres de esa edad para determinar el tiempo de reacción. Las mismas tuvieron un
tiempo de reacción promedio de 15 segundos. Suponiendo que el desvío estándar de la población
es de 5 segundos (y además la población es normal) establezca un intervalo de confianza del 90%
para el tiempo de reacción promedio del total de mujeres entre 70 y 80 años que participan del
curso.
3) Si el coeficiente intelectual de un grupo de 42 estudiantes de cierto establecimiento dio un nivel
promedio de 108 con un desvío estándar de 17 puntos, estime mediante un intervalo del 99% de
confianza el coeficiente intelectual de todos los estudiantes de dicho establecimiento.
4) Un grupo de colportaje se encuentra realizando una evaluación de las campañas realizadas en cierta
zona de nuestro país. Tomando en cuenta los datos de 30 colportores que llevaron a cabo su tarea
en dicha zona, se encontró que el promedio de textos de salud vendidos durante un mes es de 72
con un desvío estándar de 18. Estime mediante un intervalo de confianza del 95% cuál es el
número de textos de salud que pueden venderse en un mes en dicha zona del país.
5) Un psicólogo está interesado en las condiciones que afectan la cantidad de sueños que las personas
recuerdan por mes y en los cuales se encuentran solos. Se conoce que en la población general, el
número de sueños promedio que recuerda una persona por mes que se encuentra solo es de 5 con
un desvío estándar de 4. El psicólogo analiza 36 individuos que han experimentado recientemente
un hecho traumático haciéndoles llevar un registro de sus sueños durante un mes. La media resultó
de 8 en dicha muestra. ¿Llegaría usted a la conclusión de que las personas que han sufrido
recientemente una experiencia traumática tienen una cantidad de sueños significativamente
diferente a los de la población en general?
Observación: hasta aquí hemos mencionado que, tanto para test de hipótesis como para intervalos de
confianza, trabajamos con los puntaje z, o sea con la distribución normal. Aclaramos en su momento
que esto se puede hacer cuando se sabe que la población es normal o bien cuando no se puede asegurar
esto pero se conocen los parámetros de la población, especialmente el desvío estándar σ de la misma.
Si nosotros no conociéramos este desvío estándar poblacional pero sabemos que la población es
normal o bien tomamos muestras de tamaño mayor o igual a 30 elementos, podemos trabajar con el
desvío muestral al cual denominamos “s” indistintamente y utilizándolo en lugar de σ. El único
problema se presenta cuando no conocemos σ y las muestras que tomamos son de menor tamaño.
66
Distribución “t” para muestras pequeñas

Anteriormente vimos que cuando las muestras son grandes el teorema del límite central nos permite
considerar la normalidad de la distribución. Si tomamos muestras pequeñas, o sea de un tamaño menor
que 30, de una población que sabemos que es normal pero de la cual no conocemos el desvío estándar
poblacional usaremos esta otra distribución denominada “t de Student” o simplemente “t”.
Observe a continuación la tabla de esta distribución:
Como puede ver, la distribución es también simétrica con media en 0 y el área bajo la curva en su
totalidad también da como resultado 1. A partir de n = 30 en adelante los valores que nos da la
distribución t coinciden con los de la normal. De forma que sólo la usaremos para este caso, cuando la
muestra es pequeña y no se conoce el desvío estándar de la población, sino que el mismo se estima a
partir del desvío estándar de la muestra.
En la tabla puede observar que hay dos elementos a tener en cuenta. En la primera fila se encuentran
las áreas de la cola superior que es además la que está sombreada en la tabla. Estos valores van desde
0,10 a 0,005 en forma decreciente. En la primer columna se encuentran los llamados grados de libertad
que no es otra cosa más que el tamaño de la muestra menos 1.
Ejemplo 1
67
Supongamos, como ejemplo, que en una muestra de tamaño 18 de una población conformada por
estudiantes universitarios se determinó el promedio de nivel de estrés en épocas de examen y dio como
resultado una media de 76 con un desvío estándar (en la muestra) de 14. Deseamos, con estos datos
realizar una estimación del nivel de estrés del total de la población de estudiantes universitarios con
una confianza del 95%. Podemos ver que la muestra es pequeña y el desvío estándar que se conoce no
es el de la población sino el de la muestra. Corresponde en este caso utilizar la distribución “t”.
Si vamos a realizar un intervalo de confianza del 95% esto quiere decir que la suma de las dos colas
que queden a izquierda y derecha será del 5% restante. Por lo tanto, teniendo en cuenta la simetría,
cada cola cubre un área del 2,5% o sea 0,025.
De manera que para calcular los valores de t que corresponden a los puntos extremos del intervalo
observamos en la tabla la columna del 0,025 que es la cola derecha (también la izquierda) y para los
grados de libertad buscamos el valor 17 (18 – 1). Resulta que t = 2,110. Ahora vamos a proceder a
armar el intervalo de confianza igual que lo hicimos antes pero con la diferencia de que en vez de z
usamos t.
 14 
 
  x  z. x     76  2,110 .

     76  7      69 ; 83 
18 
Concluimos que el nivel de estrés de la población estudiantil de esa universidad en épocas de
exámenes tiene un nivel de estrés que se encuentra entre los valores 69 y 83 con un 95% de confianza.
Ejemplo 2
Consideremos ahora un test de hipótesis. Un estudio sobre el conocimiento de la Biblia que tienen los
estudiantes del nivel secundario de la escuela adventista de un determinado lugar ha evaluado que el
mismo se encuentra en un puntaje de 6 en una escala del 0 al 10. En el último año se ha invertido más
tiempo de las clases de Historia Sagrada en la realización con los alumnos de 5to y 6to año del año
bíblico. Finalizada la experiencia se tomó una muestra de 22 de esos alumnos y se evaluó el
conocimiento de la Biblia. El puntaje de la muestra fue de 8 con un desvío de 2,2. Con un nivel de
significancia del 0,05, ¿puede usted concluir que la realización del año bíblico con los estudiantes
aumenta el conocimiento que tienen los mismos de la Biblia?
Hipótesis nula: μ = 6 (puntaje histórico conocido de la población)

Hipótesis alternativa: μ > 6 (se cree que el puntaje ha aumentado)
68
Prueba unilateral izquierda
Nivel de significación 0,05
Punto crítico: t = 1,721 (Trabajamos con la distribución t porque la muestra es pequeña y el desvío
que se nos da como dato es el muestral. El valor corresponde a la cola de 0,05 y 21 grados de libertad)
Criterio de decisión: Si el valor de t de la muestra es menor que 1,721 no rechazamos la hipótesis nula
y si es mayor a 1,721 la rechazamos y estamos en condiciones de afirmar que el año bíblico ha
incrementado el conocimiento de los alumnos de la Biblia.
x  86 2
Cálculo del t muestral: t m     4, 25
s 2, 2 0, 47
n 22
Conclusión: Hay evidencia suficiente para rechazar la hipótesis nula. Podemos afirmar que la
realización del año bíblico con los estudiantes de 5to y 6to año de una escuela secundaria adventista de
cierto lugar ha incrementado el conocimiento que los mismos tienen de la Biblia.
Ejercicios
1) En una investigación para validar la versión en español del Test Conductual de Memoria de
Rivermead para población mayor de 70 años, Alonso y Prieto (2004) informan una media de 16,1
en una población de personas entre 70 y 75 años en Tenerife. Si se toma una muestra aleatoria de
25 personas de ese rango etario en dicha ciudad y se encuentra una media de 16,8 con un desvío
estándar de 4,2; ¿es evidencia suficiente para afirmar que el rendimiento en el test de las personas
entre 70 y 75 años en Tenerife es mayor a 16,1? Trabaje con un nivel de significancia de 0,05.
2) El nivel de altruismo de un grupo de personas se puede medir a través de un test en el cual se
realizan diferentes preguntas relativas a situaciones tanto cotidianas como extremas. El nivel de
altruismo promedio de los estudiantes de una universidad cristiana es de 16 en una escala que va
desde el 0 al 25. Dentro de esa población estudiantil se toma una muestra de 27 jóvenes que tienen
la particularidad de reunirse semanalmente en grupos pequeños de oración y se realiza el test,
dando en la muestra una media de 20 con desvío estándar de 4,6. Con un nivel de significancia del
0,05, ¿qué conclusión puede sacar respecto del nivel de altruismo en jóvenes que asisten a los
grupos pequeños de oración?
3) Se desea estimar el nivel de ansiedad de una población adulta entre 35 y 55 años en una ciudad.
Para ello se toma una muestra de 18 adultos en ese rango etario y se encuentra que el promedio del
nivel de ansiedad es de 12 puntos con un desvío de 3 puntos. Estime, mediante un intervalo de
confianza del 95% el nivel de ansiedad de la población adulta entre 35 y 55 años en dicha ciudad.
4) Si consideramos el valor hallado en la muestra del ejercicio anterior como la media de la población
adulta de entre 35 y 55 años en esa ciudad, y ahora elegimos dentro de la misma población una
muestra de 15 personas que tienen un nivel de religiosidad mayor (medido en base a un test
independiente de la creencia que posean). En esta muestra el nivel de ansiedad resulta ser de 10
69
puntos con un desvío de 3,1 puntos. Con un nivel de significancia del 0,05 ¿puede afirmar que las
personas que tienen mayor nivel de religiosidad tienen menor nivel de ansiedad? Explique.
Intervalos de confianza y test de hipótesis para diferencia de medias

En este apartado veremos algunos ejemplos de ambos temas cuando lo que deseamos es comparar dos
poblaciones que se encuentran diferenciadas de algún modo. Por ejemplo, dos grupos de alumnos de
igual edad que dan la misma materia con diferentes profesores. Podría interesarnos determinar la nota
promedio de ambos grupos para compararlos sabiendo que la diferencia entre ellos es únicamente el
docente. También podemos pensar en dos grupos de niños de diferentes culturas que son evaluados en
cuanto a su capacidad lingüística por ejemplo, para determinar la influencia que la cultura de los
distintos sitios influye en dicha capacidad.
En estos casos hablamos de diferencias de medias. Vamos a explicarlo a través de un ejemplo.
Consideremos el primer caso. Tenemos dos docentes, a uno lo llamaremos A y al otro B. Ellos tienen
varios cursos de alumnos de edades similares donde desarrollan la misma asignatura, Matemática. Se
toma una muestra de los alumnos de cada profesora y hallamos los valores que ve en la tabla.
Grupo A Grupo B
x 1  72 x 1  78
1  15 2  19
n 1  38 n 2  32
Lo que deseamos es determinar es si el promedio de notas de todos los alumnos del profesor A son
iguales o no al promedio de notas de los alumnos del profesor B.
Hipótesis nula: 1   2 (el promedio de notas de ambos grupos es el mismo)

Hipótesis alternativa: 1   2 (el promedio de notas de ambos grupos no es el mismo)
Estas hipótesis también pueden ser planteadas como una diferencia (de allí el nombre de diferencia de
medias)
Hipótesis nula: 1   2  0 (el promedio de notas de ambos grupos es el mismo)

Hipótesis alternativa: 1   2  0 (el promedio de notas de ambos grupos no es el mismo)
Trabajaremos con un nivel de significancia del 0,05. Vale aclarar que usaremos distribución normal ya
que ambas muestras son mayores a 30 individuos, además de que el dato relativo al desvío estándar
que se nos da a conocer es el poblacional.
Es una prueba bilateral, ya vimos que los valores de z críticos que corresponden son – 1,96 y 1, 96.
Criterio de decisión: Si el valor de z de la muestra es menor a – 1,96 o mayor a 1,96 rechazamos la

hipótesis nula y si toma valores entre – 1,96 y 1,96 no la rechazamos.
70
La fórmula para calcular el valor de z de la muestra cuando se trata de una diferencia de medias es la
siguiente:
zm 
 x  x      
1 2 1 2
12 2 2

n1 n 2
Aplicamos los datos de nuestro problema y resulta:
zm 
 x  x         72  78   0 
1 2 1 2 6

6
 1, 45
  2 2 2
15 19 2
5, 92  11, 28 17, 20
 2
1

n1 n 2 38 32
El valor obtenido se encuentra entre -1,96 y 1,96 por lo tanto no hay evidencia suficiente para afirmar
que las notas de ambos grupos son diferentes.
Otro ejemplo
Consideremos a continuación dos grupos conformados uno de ellos por hombres entre 35 y 55 años y
el otro por mujeres en el mismo rango de edades. Los valores correspondientes a los niveles de estrés
promedio de ambos grupos, el desvío estándar y la cantidad de personas que se tomó en cada uno de
ellos como muestra se encuentran en la siguiente tabla:
Varones Mujeres
x1  51 x 2  42
s1  17 s2  20
n 1  35 n 2  38
Deseamos encontrar un intervalo de confianza del 95% para la diferencia entre los niveles de estrés de
varones y mujeres en el rango de edades de 35 a 55 años en esa ciudad.
La fórmula es la siguiente:
 12 22 
1  2     x1  x 2   z.
 

 n 1 n 2 
Vale aclarar que aquí usaremos en forma indistinta el valor de s en lugar del de σ ya que las muestras
son mayores que 30. Resulta entonces:
 12 2 2   172 202 

1  2    x1  x 2  z. 
n1 n 2 
  1   2     51  42   1, 96 .


35 38 

 
1  2    9  1, 96 . 
18, 78  1   2    9  8, 5   1   2    0, 5 ; 17, 5 
Concluimos que la diferencia en los niveles de estrés entre hombres y mujeres puede variar de 0,5
puntos a 17,5 puntos. Observe que esta es la diferencia entre el nivel de estrés de los hombres y el de
las mujeres y ambos límites nos dieron positivos. Esto nos está informando además que el nivel de
estrés de los hombres en ese rango etario es superior al de las mujeres siempre. Si el intervalo hubiese
tenido un extremo negativo y el otro positivo, por ejemplo (-0,8 ; 4,5), nos está indicando que existe la
71
posibilidad de que la diferencia entre los niveles de estrés de hombres y mujeres valga 0, en cuyo caso
podríamos pensar que existe la posibilidad de encontrar una muestra en la que no difieran.
Ejercicios
1) Para probar la eficacia de un curso de estimulación temprana, se administra un test de CI a un
grupo experimental después de un año de aplicarlo y se encontró que la media del CI es de 106
puntos. El grupo compuesto por 20 niños fue elegido en forma aleatoria de la población de niños de
3 a 5 años de un establecimiento en particular de la cual se conocía que el promedio del CI es de
103 puntos con un desvío estándar de 4,8 puntos. ¿Puede afirmar con una significancia del 0,05 que
el curso de estimulación temprana aumenta el CI aplicado un año a niños de entre 3 y 5 años de ese
lugar?
2) Un psicólogo desarrolla la teoría de que las personas pueden escuchar mejor después de comer una
comida abundante. Se dividieron al azar 6 individuos para comer una comida abundante o una
comida frugal. Después de comer, se probó el sentido auditivo de los participantes. Los valores
observados de capacidad auditiva (los números más altos indican mayor capacidad) son los que
aparecen en la tabla:
Comida abundante Comida frugal
Sujeto Capacidad Sujeto Capacidad
auditiva auditiva
A 22 D 19
B 25 E 23
C 25 F 21
El desvío estándar poblacional de ambos grupos es 1,73 y 2 respectivamente. Utilizando un nivel
de significancia de 0,05, ¿diría que los resultados sostienen la teoría del psicólogo?
3) Veinte estudiantes asignados al azar a un grupo experimental reciben un programa de instrucción y
treinta participantes de un grupo de control no lo reciben. Después de 6 meses se prueba a ambos
grupos en cuanto a sus conocimientos. El grupo experimental tiene una media de 38 en la prueba
con un desvío estándar poblacional estimado de 3 y el grupo de control una media de 35 con un
desvío estándar poblacional estimado en 5. Utilizando el nivel de 0,05 ¿cuál sería la conclusión del
experimentador?
4) Un investigador se encuentra realizando un estudio acerca de la influencia que tiene en el
rendimiento de los estudiantes universitarios de una institución su nivel de religiosidad, el cual es
evaluado mediante un test adecuado. Se sabe que el promedio general de notas de los estudiantes
de ese sitio es de 65 con un desvío de 24 puntos. Escogida una muestra de 28 estudiantes que
presentan un nivel de religiosidad elevado se calcula su promedio general resultando este de 78
puntos con un desvío estándar de 19. Utilizando un nivel de significancia de del 0,05 ¿puede
afirmar que el nivel de religiosidad influye en el rendimiento del estudiante universitario elevando
el mismo respecto de la media habitual?
Pruebas Chi-Cuadrada
El uso de la distribución de probabilidad chi cuadrada en la inferencia estadística tiene varios usos
entre los cuales nos interesa la bondad de ajuste y la independencia de dos variables.
A continuación observará la forma de la tabla chi cuadrada. Como puede ver es asimétrica y los datos
que necesitamos para trabajarla son el área de la cola derecha y los grados de libertad que en cada caso
veremos cómo se contabiliza.
72
Bondad de ajuste
La hipótesis nula en una prueba de bondad de ajuste es una estipulación sobre el patrón esperado de
frecuencias en un conjunto de datos. Esta distribución puede responder a una distribución uniforme,
Poisson, binomial, normal, etc. Nosotros, mediante el uso de esta prueba, podremos ver si dicha
distribución corresponde o no a la que suponemos.
Por ejemplo, consideremos un colportor que ha subdividido su región de influencia en cuatro
territorios. El supone que el número de ventas en cada subregión es la misma. Luego de realizar 40
ventas comprueba que las mismas se distribuyen de la siguiente forma:
Territorio Total
A B C D
N° de ventas obtenido 6 12 14 8 40
N° de ventas esperado 10 10 10 10 40
73
Hipótesis nula: Los datos se distribuyen en forma uniforme (igual en todas las regiones)
Hipótesis alternativa: Las ventas no se distribuyen en forma uniforme
Grados de libertad: debemos restar al número de resultados diferentes (en este caso 4) el número de
estimadores paramétricos que utilizamos (por ejemplo si tuviéramos que estimar la media seria 1, si
tuviéramos que estimar la media y el desvío serían 2, en este caso no estimamos ningún parámetro
porque el colportor supone que en todas las zonas vende igual, por eso el número de ventas esperado
es de 10 en cada zona, no estimamos nada así que corresponde restar 0) y luego restamos 1.
g.l. = 4 – 0 – 1 = 3
Buscamos en la tabla el valor que corresponde para 2 con una cola de 0,05 y 3 grados de libertad, y
resulta 2  7, 81
Si el valor muestral de 2 nos da menos que 7,81 concluiremos que no se puede rechazar la hipótesis
nula, mientras que si nos da mayor rechazamos la nula a favor de la alternativa.
Para calcular el valor de 2 de la muestra aplicamos la siguiente fórmula:
 fo  fe 
2
 2
m 
fe
En este caso resulta:
 fo  fe   6  10 12  10 14  10  8  10 

2 2 2 2 2
16 4 16 4
2
         4
10 10 10 10 10 10 10 10
m
fe
Como este valor es menor al que nos da la tabla no podemos rechazar la hipótesis nula, por lo tanto
concordamos con lo que opina el colportor de que las ventas en todas las subregiones es la misma, o
sea se distribuye uniformemente.
Ejercicios
1) Un director de una pequeña clínica de psicoterapia intenta planificar la contratación de personal
temporario para que colabore con la tarea de admisión de los pacientes y se pregunta si la actividad
de la clínica difiere entre las distintas temporadas del año. El año pasado ingresaron 28 pacientes en
invierno, 33 en primavera, 16 en verano y 51 en otoño. Con un nivel de significancia del 0,05 ¿el
director debería concluir que existe diferencia entre las distintas estaciones o no?
2) Por datos históricos obtenidos en una asociación en particular de la Iglesia Adventista, se sabe que
del total de la feligresía el 42% son mujeres adultas, el 28% son varones adultos y el resto es de
niños de ambos sexos. Cuando un pastor es asignado a una iglesia puede observar que del total de
la feligresía compuesta por 200 personas, 77 son mujeres, 62 hombres y el resto niños. Utilizando
el 0,05 de significancia, ¿puede confirmar que la distribución de miembros es como se pensaba o
en esta iglesia en particular es diferente?
Pruebas de independencia
Las pruebas de independencia implican al menos dos variables categóricas (porque si fueran numéricas
se utiliza Pearson o algún otro coeficiente). Por ejemplo, se trata de determinar si existe relación o no
74
entre el género y la edad de los interesados en recibir estudios bíblicos de un grupo de 200 asistentes a
una campaña evangelística. Los datos son los siguientes:
Género TOTAL
Edad Masculino Femenino
Menor de 30 años 60 50 110
Mayor de 30 años 20 70 90
TOTAL 80 120 200
Hipótesis nula: Las variables género y edad son independientes

Hipótesis alternativa: Las variables género y edad son dependientes
Grados de libertad: En esta prueba los grados de libertad se encuentran multiplicando el número de
resultados diferentes de cada variable menos uno. En este caso el género tiene dos resultados diferentes
y la edad también. Por lo tanto es:
g.l. = (2-1).(2-1) = 1
El valor de 2 para estos datos es 3,84. El criterio de decisión será que si el valor muestral es menor
que este no rechazamos la hipótesis nula, mientras que si el valor muestral supera 3,84 rechazamos la
hipótesis nula que afirma la independencia de las variables a favor de la que asegura que son
dependientes.
Veamos ahora cómo calculamos el número esperado para cada caso considerando que son
independientes. La frecuencia esperada se calcula multiplicando la frecuencia del renglón por la de la
columna y dividiéndola por el total. O sea como:
f .f
fe  c r
n
Completemos la tabla calculando los datos y colocando la esperada entre paréntesis:
Género TOTAL
Edad Masculino Femenino
Menor de 30 años 60 (44) 50 (66) 110
Mayor de 30 años 20 (36) 70 (54) 90
TOTAL 80 120 200
Ahora aplicamos la fórmula vista antes para calcular el chi cuadrado de la muestra:
 f o  fe   60  44   20  36  50  66  70  54 
2 2 2 2 2
256 256 256 256
 2
          21, 55
44 36 66 54 44 36 66 54
m
fe
Concluimos que hay evidencia suficiente para afirmar que el género y la edad son dependientes pues
se debe rechazar la hipótesis nula al ser este valor mayor al crítico.
Ejercicios
1) Un investigador desea confirmar si, como dice la teoría, los niños que son introvertidos son
aquellos que realizan el dibujo de su persona en forma más pequeña que el resto de los dibujos.
Para ellos toma una muestra de 100 individuos y los clasifica así:
Dibujo TOTAL
Niños Pequeño Grande
75
Introvertido 38 7 45
Extrovertido 18 37 55
TOTAL 56 44 100
Determine utilizando un nivel de significancia de 0,01 si los datos confirman la teoría o no.
2) Se desea determinar si el nivel de estrés depende o no del tipo de tareas que realiza un grupo de
hombres de entre 30 y 40 años. Se escogen en forma aleatoria 150 hombres en ese rango etario y se
los clasifica de acuerdo al nivel de estrés en bajo, medio y alto y las tareas como ejecutivas y
dependientes. Los valores obtenidos son los siguientes:
Tareas TOTAL
Nivel de estrés Ejecutiva Dependiente
Bajo 12 15 33
Medio 23 11 41
Alto 50 39 76
TOTAL 85 65 150
Utilice un nivel de significancia del 0,05 para determinar si las variables son independientes o no.
76

Padró S. Cuaderno de Estadística Teoria

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Padró S. Cuaderno de Estadística Teoria

Cargado por

Copyright:

Formatos disponibles

Estadística Aplicada

Teoría completa para Psicología y Teología

UNIVERSIDAD ADVENTISTA DEL PLATA

Autor: Mag. Silvia Inés Padró

Unidad 1: Los datos y la Estadística

Series de tiempo y datos transversales

• Muestra: aunque el investigador se interesa, la mayor parte de las veces en la población,

general no se habla de variables independientes y dependientes, sino de predictores y criterios. El

Unidad 2: Ordenamiento y representación de datos

Datos cualitativos. Distribuciones de frecuencia

Frecuencias relativas y porcentuales

Gráficas de barras, columnas y de torta

c) Complete la distribución de frecuencias con la columna para la frecuencia absoluta (f) y la

a) Resuma la información anterior en una tabla de frecuencias

Datos cuantitativos. Distribución de frecuencias

En este caso, resulta k  1  3, 322.log(30)  1  3, 322.1, 477  1  4, 907  5, 907  6

Volvamos a la distribución de frecuencias. En el caso de variables cuantitativas a las frecuencias ya

El 75% de los niños utilizan

Complete el diagrama para los fumadores y compare ambos.

En el diagrama colocamos en el eje horizontal la que consideramos variable independiente, que en

N° de Consultas (por año)

Cuando en Estadística hablamos de medir estimamos la proporción entre la dimensión o suceso de un

La media corresponde a la suma de todas las observaciones dividida por el número de

La fórmula que se utiliza es la siguiente:

 n : Es el número total de datos de la distribución

 Fi-1 : Es la frecuencia acumulada del intervalo anterior al que contiene la mediana

 fi : es la frecuencia absoluta del intervalo que contiene la mediana

 w: es el ancho del intervalo

Relación entre media, mediana y moda

¿Alguna vez fue al psicólogo?

Si, voy actualmente

6) El ministerio de la mujer de cierta localidad se encuentra colaborando con un grupo de

Estado civil Frecuencia (f)

Otras medidas de posición

El segundo cuartil es 16,5 El tercer cuartil es 18, lo

Primer decil: 0,10. 1. 534 = 53,4 o sea en el segundo intervalo

3. Percentiles y rango percentil.

20 a 29 35 24,5 -24,5 600,25 21008,75

Los cálculos se hicieron retomando el valor de la media de 49 años calculada antes.

Unidad 4: Probabilidad. Distribuciones binomial, Poisson y Normal

Resolvamos cada una de las preguntas:

La forma de la curva normal va variando de acuerdo al valor de la media y el desvío. En el gráfico

0,86 3,43 6,00 8,57 11,14

9,00 cantidad de sesiones

Fórmula para conversión de una puntuación z

Unidad 5: Correlación y regresión lineal

N° de Consultas (por año)

Edad (x) Dependencia x.y x2 y2

287280  253980 33300 33300 33300

Existe otro coeficiente relacionado con el de correlación y se denomina coeficiente de determinación.

90 45 4050 8100 2025

n. (x.y)   x. y 12 . 23940  765 . 332 287280  253980

La recta resulta ser la siguiente: y = -10,6 + 0,6 x

Unidad 6: Inferencia estadística. Test de hipótesis. Intervalos de confianza

Muestreo y distribuciones muestrales

 Muestra sistemática: es una muestra aleatoria cuyos elementos se seleccionan de la población a un

Entre las muestras no probabilísticas existen también diferentes tipos:

Si tomamos toda la población y calculamos la media y desvío estándar resulta: x  5, 8 s  2, 78

El proceso de la prueba de hipótesis

3er. Paso: Determinar el valor muestral de corte en la distribución comparativa en el que

4to Paso: Determinar el valor muestral en la distribución comparativa

Observe que se utiliza el desvío de la distribución de medias, ya que estamos encontrando la

5to Paso: Decidir si se rechaza o no la hipótesis nula

Nivel de significancia: 0,05