Está en la página 1de 94

PSICOLOGÍA

ESTADÍSTICA
3 créditos

Profesor Autor:
Ing. Víctor Márquez, Msc, PhD

Titulaciones Semestre

• PSICOLOGÍA
Primero

Tutorías: El profesor asignado se publicará en el entorno virtual de aprendizaje


online.utm.edu.ec), y sus horarios de conferencias se indicarán en la sección CAFETERÍA
VIRTUAL.

PERÍODO NOVIEMBRE 2020/ MARZO 2021


Índice

Tabla de contenido

Resultado de aprendizaje de la asignatura ................................................................................................... 3


...................................................................................................................................................................... 3
Unidad 1 Introducción y Estadística Descriptiva ........................................................................................... 3
Tema 1. Conceptos Básicos ........................................................................................................................... 3
Introducción.............................................................................................................................................. 3
Importancia de la Estadística .................................................................................................................... 4
Conceptos Básicos .................................................................................................................................... 4
Definición: (Estadística): ........................................................................................................................... 5
Definición (Elemento): .............................................................................................................................. 6
Definición (Universo Estadístico): ............................................................................................................. 6
Definición (Población) ............................................................................................................................... 7
Definición (Muestra) ................................................................................................................................. 8
Definición (Parámetro) ............................................................................................................................. 9
Definición (Estadístico) ............................................................................................................................. 9
Definición (Estimador): ............................................................................................................................. 9
Definición (Variable) ............................................................................................................................... 10
Definición (Variable Cualitativa): ............................................................................................................ 12
Definición (Variable Cuantitativa): .......................................................................................................... 12
Definición (Variables Cuantitativas Discretas) ........................................................................................ 12
Definición (Variables Cuantitativas Continuas): ...................................................................................... 13
Definición (Estadística Descriptiva): ........................................................................................................ 13
Definición (Estadística Inferencial): ......................................................................................................... 14
Tema 2: Tabla de frecuencia y gráficos ....................................................................................................... 14
Organización de los Datos ....................................................................................................................... 15
Organización de datos cualitativos ......................................................................................................... 15
Tablas cruzadas ....................................................................................................................................... 18
Organización de datos Cuantitativos ...................................................................................................... 19
Tema 3: Medidas Numéricas Descriptivas .................................................................................................. 27
Medidas Descriptivas .............................................................................................................................. 27

1
Medidas de Localización ......................................................................................................................... 28
. Medidas de Tendencia Central.............................................................................................................. 28
La Media ................................................................................................................................................. 28
La Mediana: ............................................................................................................................................ 30
La Moda .................................................................................................................................................. 32
Medidas de posición ............................................................................................................................... 32
Cuantiles: ................................................................................................................................................ 32
Medidas de Dispersión............................................................................................................................ 35
Medidas De Dispersión Absolutas ........................................................................................................... 36
Medidas de Dispersión Relativas ............................................................................................................ 39
Medidas de Forma .................................................................................................................................. 42

2
Resultado de aprendizaje de la asignatura

Dotar al estudiante de las capacidades y destrezas necesarias para aplicar técnicas de


análisis estadístico a la resolución de problemas de diversa índole en los que es necesario
realizar gran variedad de tareas específicas que acompañan a cualquier proceso de
análisis de datos, con el objeto de elaborar conclusiones que faciliten la toma de
decisiones en situaciones complejas que se caracterizan por estar sometidas a distintos
grados de incertidumbre.

ESTADÍSTICA

Unidad 1 Introducción y Estadística Descriptiva

Resultado de aprendizaje de la unidad: Describir las distintas técnicas de resumen y


presentación de datos, mediante el uso de medidas descriptivas y tablas de frecuencias,
con la finalidad de tener herramientas para la óptima toma de decisiones

Tema 1. Conceptos Básicos

Introducción

Cada vez resulta más difícil tomar decisiones apropiadas sobre situaciones que inciden
en forma significativa por ejemplo en el éxito de un producto o quizás, en nuestro
bienestar. La estadística es esencial en la investigación de tales situaciones pues permite
caracterizar y/o explicar su comportamiento. Es una disciplina de aplicabilidad en
cualquier campo de estudio. Esta unidad tiene como propósito establecer el marco de
referencia para el estudio de la estadística. En el mismo se destacará la importancia y
campo de acción de esta y se introducen algunas definiciones básicas

3
Importancia de la Estadística

En el mundo real dos tipos de fenómenos pueden identificarse; fenómenos determinísticos


y fenómenos aleatorios. Los fenómenos determinísticos son aquellos que bajo las mismas
condiciones producen siempre los mismos resultados, mientras que los aleatorios se
refiere a aquellas situaciones donde está presente la incertidumbre en cuanto al resultado
del mismo. Durante mucho tiempo se consideró que el campo propio de la investigación
científica era exclusivo de fenómenos determinísticos. Sin embargo, los fenómenos
aleatorios, es decir, aquellos fenómenos en los cuales no se puede predecir el resultado
de cada experiencia particular, son de gran importancia y la información derivada de los
mismos, es objeto de estudio por parte de la Estadística.

Ejemplo: Son ejemplos de fenómenos aleatorios:

1. Lanzamiento de un dado
2. número de hoteles en un cantón
3. Cantidades vendidas de artículos en un Supermercado en días sucesivos.
4. Costo o rango de costos de servicios de hospedaje.
5. Precio de servicio de taxi.
6. Número de pacientes en una clinica.
7. Ingreso de dinero en temporadas vacacionales.

En el estudio de fenómenos como los mencionados arriba, la Estadística constituye una


herramienta valiosa, resultando de fundamental importancia en los procesos de toma de
decisión. La estadística es de gran utilidad para evaluar, por ejemplo, la posibilidad de que
un producto nuevo tenga éxito. Igualmente, si se desea tomar la decisión acerca de qué
servicio adquirir o proponer en una temporada vacacional especific, los métodos
estadísticos resultan indispensables para tal fin.

Conceptos Básicos

Cuando se habla de Estadística, tradicionalmente se hace referencia a números


presentados ordenada y sistemáticamente. Esta idea es consecuencia del concepto
popular que existe sobre esta ciencia y que cada vez se extiende más debido a la
influencia de nuestro entorno. Por ejemplo, es muy común escuchar información
denominada estadística de accidentes, y sólo se hace referencia al número de accidentes.
Sin embargo, cuando profundizamos en el campo de la investigación podemos entender

4
que la estadística no solo son números, sino que representa la principal y a veces, la única
herramienta para la obtención y análisis de la información en cualquier tipo de
investigación, y cuyo comportamiento no puede ser abordado desde el punto de vista
determinísticos. Se puede decir entonces, que la estadística es la ciencia que establece
como obtener y usar la información referente a una investigación y cómo actuar en
situaciones practicas donde está Es la ciencia de recolectar, ordenar, presentar y describir
la información asociada a un fenómeno presente la incertidumbre.

Definición: (Estadística):

aleatorio, con el objeto de caracterizarlo y deducir la ley que rige dicho fenómeno y así
poder obtener conclusiones o, tomar decisiones.
Ejemplo: Las siguientes son situaciones en las que la Estadística juega un papel
importante:
1. Para el cálculo del Índice de Precios al Consumidor (IPC), el organismo
encargado aplica una encuesta que permite recolectar información sobre el
consumo de las familias ecuatorianas. Luego esta información es resumida en
un índice que representa el consumo familiar promedio ponderado.
2. Para estimar la inflación los organismos encargados usan el IPC.
3. La predicción o pronóstico de ventas por parte de una empresa.
4. Para determinar si las políticas económicas han sido efectivas, el gobierno
quiere contrastar la hipótesis de que la tasa de inflación anual no supera el 15%.
5. Una empresa estudia el histórico de sus ganancias para tomar decisiones
respeto a la aplicación de nuevas estrategias de mercado.
Para el estudio de fenómenos como los enumerados arriba, necesitamos contar con
información relacionada con el mismo. Esta información, obtenida bien sea
experimentalmente o, mediante la observación, está dada por datos. Estos datos son
el resultado de medir en un conjunto de elementos o individuos, una o varias
características de interés y que son objeto de análisis en una investigación. De esta
forma, en la estadística interesa las características y no los elementos o individuos en
sí.

5
Definición (Elemento):

Es un ser vivo, objeto o cosa que posee características que se desean investigar.
Ejemplo: Son ejemplos de elementos y sus características:

1. Elemento: Persona. Característica: Sueldos.


2. Elemento: Persona. Característica: Edad y sexo.
3. Elemento: Hotel. Característica: Numero de cuartos.
4. Elemento: Hotelr. Característica: posee piscina.
5. Elemento: Supermercado. Característica: ventas.
6. Elemento: Fabrica. Característica: Proporción de artículos defectuosos por lote
de producción.

Definición (Universo Estadístico):


Se denomina universo estadístico a cualquier conjunto finito o infinito de individuos o
elementos, sobre los cuales están definidas características comunes y que pueden ser
objeto de análisis.
Ejemplo: Son ejemplos de universo estadístico:

1. Los Habitantes de la ciudad de Portoviejo.


2. Los hoteles de la ciudad de Portoviejo.
3. Los Operadores Turísticos.
4. Los animales en un bosque.
5. Los carros que entran en un estacionamiento al día.
6. La producción de envases plásticos durante un periodo de tiempo (día,
semana).

Como se dijo antes, los elementos del universo estadístico tienen una serie de
características que pueden ser objeto del estudio estadístico. Así por ejemplo, si el
elemento considerado es una persona, podemos distinguir en ella las siguientes
características: Sexo, Edad, Nivel de estudios, Profesión, Peso, Estatura, Color del
cabello, etc. Obsérvese que todos y cada uno de los elementos de la población,
poseen las características de interés. Por lo tanto, de cada elemento del universo se
puede estudiar uno o más aspectos, cualidades o caracteres. El universo estadístico
puede clasificarse de acuerdo al número de elementos que contiene en finito e infinito.

6
Es finito cuando el número de elementos que lo conforman es finito (el número de
alumnos de un centro de enseñanza, los niños de una comunidad, el número de
plantas en un vivero). Es infinito si el número de elementos que lo conforman es infinito,
o tan grande que pudiese considerarse infinito (todos los individuos con estaturas entre
1 y 2 metros). Hay situaciones en las que aun cuando el universo es finito, contiene
tantos elementos que el mismo puede considerarse infinito. Por ejemplo, si se
realizase un estudio sobre los productos que hay en el mercado, hay un número finito
de los mismos, pero son tantos y de tantas calidades que este universo podría
considerarse infinito.
En un estudio estadístico, el investigador está interesado en la colección o conjunto
de observaciones asociadas con una o varias características de los elementos del
Universo estadístico. A este conjunto de observaciones se le denomina población
estadística.

Definición (Población)
Es el conjunto de todas las posibles mediciones que pueden hacerse de una o varias
características comunes a todos los elementos del universo y que son de interés en
una investigación dada.
Ejemplo: Son ejemplos de población estadística:

1. El sexo de los habitantes de la ciudad de Portoviejo


2. La edad y el sexo de los estudiantes de la Facultad de Ciencias Económicas y
Sociales.
3. El sueldo, el nivel instrucción y el cargo que ocupan los trabajadores de una
empresa.
4. El color de ojos de los animales en un bosque.
5. La marca de los carros que entran en un estacionamiento al día.

De esta forma, puede observarse que la población estadística está constituida por
valores o datos bien sea numéricos o no. Se puede notar que sobre un mismo Universo
Estadístico se pueden definir una o varias poblaciones. Además, una población puede
estar conformada por las mediciones asociadas con una o varias características. Así,
una población que considera sólo valores asociados con una característica se
denomina población univariante, en caso contrario, se denomina población

7
multivariante. Al igual que el universo, la población puede ser finita o infinita,
dependiendo del número de valores que la constituyen. En el caso de que la población
sea finita, se dice que esta tiene tamaño N. Ahora bien, cuando se desea investigar un
fenómeno, una interrogante a responder es la relacionada con la cantidad de
información a usar en dicha investigación. Si se usa toda la información disponible, es
decir la población, se dice que se ha realizado una investigación exhaustiva o total
(Censo). Por lo general el desarrollo de este tipo de investigaciones no siempre es
posible, por diferentes motivos:

• economía;
• pruebas destructivas;
• población infinita o tan grande que exceda las posibilidades del investigador.

En su lugar, se plantea una investigación parcial o por muestreo. Esta investigación se


basa en la información correspondiente a una porción de la población, denominada
muestra. Esta muestra debe ser generalmente suficiente para evaluar o estudiar toda la
población y el método que se use para su selección es determinante en el uso que pueda
hacerse de la misma.

Definición (Muestra)
Es una parte o porción extraída de una población, mediante métodos de selección
científicos que permiten considerarla preferiblemente representativa de dicha población.
Ejemplo: Son ejemplos de muestras:

1. Un grupo de 200 personas seleccionadas de todos los habitantes de la ciudad de


Portoviejo.
2. 5 escuelas escogidos en la ciudad de Portoviejo.
3. Un grupo de 20 pacientes psiquiatricos
4. Una selección de 25 trabajadores de la nómina de una gran empresa.
5. Los vehículos que entran a un estacionamiento en una hora.

Las poblaciones tienen características que las describen numéricamente. El ingreso


promedio de los habitantes de la provincia de Manabí, la proporción de hombres blancos
en una comunidad, la variabilidad en la estatura de los alumnos de una institución
educativa, son algunos ejemplos. A estos valores o medidas se les denomina parámetros.

8
Definición (Parámetro)
Representa cualquier característica medible de la población. Es una función de los
valores de la población que sirve para sintetizar alguna característica relevante de la
misma. Ejemplos de parámetros son: La media poblacional, La proporción poblacional,
la varianza poblacional, entre otros. Una población puede estar caracterizada por uno
o más parámetros. Para conocer el valor del o los parámetros de una población, es
necesario usar toda la información disponible, es decir, es necesario el desarrollo de
una investigación exhaustiva, lo que resulta por lo general inconveniente o imposible.
Sin embargo, se pueden establecer aproximaciones a dichos valores a través de
funciones de los elementos en la muestra.

Definición (Estadístico)
Dada una determinada población y una muestra de tamaño n, se define como
estadístico a cualquier función que se defina a partir de los n componentes que
integran dicha muestra. De la Definición se puede resaltar el hecho de que cualquier
función de la muestra, sin condición alguna, es un estadístico. De todas estas
funciones, un subconjunto de ellas es de especial interés en estadística; los
estimadores.

Definición (Estimador):
Estadístico utilizado para estimar un parámetro de una población. Es una función de
los valores de la muestra que sirve para sintetizar alguna característica relevante de
la misma. Nótese que un estimador es un estadístico que permite la estimación del
parámetro. Esto significa que no todo estadístico es un estimador pero, todo estimador
es un estadístico. La media muestral, La proporción muestral, la varianza muestral,
entre otros, son ejemplos de estimadores. Como se ha dicho anteriormente, la
estadística se encarga del estudio de un fenómeno a través del manejo de la
información que se tiene sobre una o más características del mismo. En el lenguaje
estadístico al igual que en el matemático a las características se les conocen como
variables y a las distintas formas en que pueden presentarse, modalidades o valores
de las variables.

9
Definición (Variable)
Se refiere a una característica que poseen todos los elementos del universo y que se
mide en el estudio. Representa las mediciones de una característica que poseen los
elementos del universo.
Ejemplo: Son ejemplos de variables:

• El color de ojos de las personas.


• La edad de las personas.
• El sueldo de un empleado.
• La raza de los perros.
• La nota de los alumnos de Métodos Estadísticos I.

Una variable puede tomar distintas modalidades o valores. Al conjunto de las


modalidades o valores de una variable se le denomina Escala de Medida. Las Escalas
de Medida pueden clasificarse de acuerdo a las relaciones que existen entre los
valores y las operaciones aritméticas que pueden realizarse entre las mismas en:
nominal, ordinal, de intervalos, de razón y absolutas.

1. Escala Nominal: Son aquellas en que la única relación que se define entre sus
valores es la igualdad o diferencia, es decir solo podemos decir que dos valores
de una variable son iguales o diferentes. No hay operaciones aritméticas
definidas, por lo tanto, los números no tienen sentido como magnitudes. Son
ejemplos de medidas de escala nominal:
a. El grupo sanguíneo.
b. El sexo.
c. El color de ojos.
d. El estado civil.
e. Los números que llevan los atletas en la espalda
2. Escala Ordinal: Son aquellas en las que entre sus valores están definidas las
relaciones de igualdad, diferencia, mayor que o menor que, es decir solo
podemos decir que dos valores de una variable son iguales, diferentes y en el
caso de que sean diferentes se puede establecer un orden entre ellos. No hay

10
operaciones aritméticas definidas. Las siguientes medidas corresponden a una
escala ordinal:
a. Dureza de los minerales.
b. Grado de satisfacción.
c. Intensidad de un dolor.
d. Rango militar.
e. Nivel de educación.
3. Escala de Intervalo: Los valores de las variables son números y entre ellos
tienen sentido las relaciones de igualdad, de orden y de las distancias. La resta
es la única operación aritmética definida. Esta escala posee una propiedad de
gran importancia; Posee un cero u origen relativo (arbitrario). El cero no significa
ausencia de la característica. Los siguientes son ejemplos de medidas
pertenecientes a una escala de intervalo:
a. Puntuación obtenida en una evaluación.
b. La temperatura.
c. La distancia sobre el nivel del mar.
4. Escala de Razón o Escala proporcional: Los valores de la variable son números
y entre ellos tienen sentido las relaciones de igualdad, orden y están definidas
las operaciones aritméticas de suma, diferencia y proporciones (múltiplos).
Estas escalas tienen un cero absoluto, el cual representa la ausencia de la
característica. Es una escala de intervalo con un cero absoluto. Las siguientes
medidas pertenecen a una escala de razón:
a. El Sueldo de los habitantes del Provincia de Manabí.
b. La edad de los alumnos de Métodos Estadísticos
c. El nivel de hemoglobina.
d. Presión arterial.
e. Peso en gramos o en kilos.
5. Escala Absoluta: Los valores que puede tomar la variable son el resultado de
un conteo, por lo tanto, esta escala está constituida por todos los número
enteros positivos y el cero. Son ejemplos de mediciones pertenecientes a una
escala absoluta:
a. Número de accidentes automovilísticos en una semana
b. Número de integrantes de una familia.
c. Número de alumnos en un salón de clase.
11
En una investigación, se puede clasificar las variables según la escala de medición o
la influencia que se asigne a unas variables sobre otras. De acuerdo a su escala de
medida las variables se pueden clasificar en cualitativas y cuantitativas.
Definición (Variable Cualitativa):
Son aquellas cuya escala de medida es nominal u ordinal, es decir, una variable es
cualitativa si sus valores representan una cualidad o atributo del elemento en estudio.
Según el número de categorías o modalidades, pueden ser dicotómicas cuando sólo
pueden tomar dos valores posibles como hombre y mujer o, politómicas cuando
pueden tomar tres o más valores como leve, moderado y grave.
Ejemplo: Las siguientes variables son de tipo cualitativo:

• El sexo de las personas.


• El Tipo de sangre.
• La nacionalidad.
• Lugar de residencia.
• El color de los ojos.
• Escalafón del profesor universitario.
• Grados militares.

Definición (Variable Cuantitativa):


Hablamos de variables cuantitativas cuando los valores posibles son cantidades
numéricas con las que podemos hacer operaciones aritméticas. Es decir, son aquellos
cuya escala de medidas es de intervalos, de proporción o absoluta. Las variables
cuantitativas pueden ser discretas o continuas. Si la variable presenta separaciones o
interrupciones en la escala de valores que puede tomar se dice que es discreta. Si la
variable puede tomar cualquier valor dentro de un intervalo especificado de valores se
dice que es continua.

Definición (Variables Cuantitativas Discretas)


Generalmente son el resultado de un conteo o enumeración. Son aquellas que pueden
tomar un número finito o numerable de valores, es decir, se puede establecer
correspondencia entre los valores que puede tomar la variable y el conjunto de los
números enteros. Son variables que no admiten valor alguno entre dos valores
consecutivos de las mismas.

12
Ejemplo Son ejemplos de variables discretas:

• Número de integrantes de una familia.


• Número de artículos defectuosos.
• Número de pares de zapatos que compran las mujeres al mes.
• Número de personas a favor de un candidato.

Definición (Variables Cuantitativas Continuas):


Son aquellas formadas por un conjunto no numerable de puntos, es decir, se puede
establecer correspondencia entre los valores que puede tomar la variable y el conjunto
de los números reales. Para dos valores cualesquiera, siempre hay un tercer valor
entre ellos.
Ejemplo Las siguientes son variables continuas:

• La edad.
• El peso.
• La temperatura.
• La distancia.

La Estadística puede clasificarse de acuerdo a su función en el tratamiento de los datos


en estadística descriptiva y estadística inferencial.

Definición (Estadística Descriptiva):


Denominada también Estadística Deductiva. Es la encargada de describir, analizar y
representar un conjunto de datos, utilizando métodos numéricos, tablas y gráficos que
resumen y presentan la información contenida en ellos. Puede llevarse a cabo sobre
una muestra o sobre toda una población. La estadística descriptiva se emplea
simplemente para resumir de forma numérica o gráfica un conjunto de datos. Si se
aplican las herramientas ofrecidas por la estadística descriptiva se logra describir los
datos que se analizan.

13
Definición (Estadística Inferencial):
Denominada también Inferencia Estadística o Estadística Inductiva. Es la que
apoyándose en la Teoría de Probabilidades y la Teoría del Muestreo, se encarga de
efectuar estimaciones, permitir la toma decisiones, predicciones u otras
generalizaciones sobre una población partiendo del estudio de una muestra. La
estadística inferencial permite obtener conclusiones o hacer inferencias, basándose
en los datos simplificados y analizados de una muestra hacia la población. La
estadística descriptiva e inductiva pueden ser usadas separadas o conjuntamente,
dependiendo de los objetivos y tipo de investigación. Lo usual es que en una
investigación parcial participen las dos.

Tema 2: Tabla de frecuencia y gráficos

Aun cuando en la actualidad la mayor parte del uso de la estadística esta dirigido a la Inferencia,
la Estadística descriptiva tiene una utilidad importante fundamentalmente en la primera fase de
una investigación. La estadística descriptiva se refiere al proceso en el que los datos son
ordenados, resumidos y clasificados con objeto de tener una visión más precisa y conjunta de las
observaciones, intentando descubrir posibles relaciones entre los datos, observando similitudes y
diferencias entre los mismos, destacando hechos de posible interés, entre otras cosas. Esto es,
tiene como objetivo caracterizar, describir y extraer conclusiones sobre los datos de forma tal que
permitan sugerir cuestiones a analizar con mayor profundidad, llegando en ocasiones a ayudar en
el establecimiento de las primeras hipótesis acerca de la naturaleza del fenómeno que se estudia
o investiga. La Estadística Descriptiva además permite estudiar si pueden mantenerse algunos
supuestos necesarios para procesos de inferencia, tales como la de simetría, normalidad,
homocedasticidad, etc.

14
Organización de los Datos

La organización de los datos consiste en una agrupación apropiada de los mismos. Es importante
dicha agrupación, ya que por lo general la información obtenida de un estudio implica gran
cantidad de datos que no es fácil interpretar directamente. Esta organización depende del tipo de
variable que se maneje. Por lo tanto, se debe estudiar cómo realizar dicha agrupación cuando la
variable es cualitativa y cuando es cuantitativa. Los datos se organizan en una distribución de
frecuencias, la cual es una tabla resumen en la que los datos se disponen en agrupamientos o
categorías convenientemente establecidas de clases ordenadas numéricamente. Su estructura
dependerá del tipo de variable a analizar.

Organización de datos cualitativos

Cuando los datos son cualitativos de escala nominal, la organización consiste en la construcción
de una tabla de frecuencias con los siguientes columnas: la enumeración de las distintas
modalidades que presenta la variable, el número de datos que corresponde a cada modalidad
(frecuencia absoluta, fi) y la proporción que cada uno de ellos representa con respecto al total
(frecuencia relativa, fri ). La siguiente tabla muestra la estructura de una tabla de frecuencias para
este caso.

Tabla de Frecuencias para datos cualitativos


(escala nominal)
Modalidades fi fri
1 f1 fr1
2 f2 fr2
. . .
. . .
. . .
k fk frk

15
Donde:

∑𝑛𝑖=1 𝑓𝑖 = 𝑛 : representa el número total de datos

𝑓𝑖
𝑓𝑟𝑖 = y debe cumplirse que ∑𝑛𝑖=1 𝑓𝑟𝑖 = 1
𝑛

Ejemplo 2.1 A continuación se muestran los resultados obtenidos al aplicar una encuesta a 50
pacientes sobre su nacionalidad(A: Argentino, C: Canadiense, E: Ecuatoriano, ES: Español): La
variable en este ejemplo es la carrera que estudian las personas, la cual es cualitativa de escala
nominal.

C A A C C A A E A C
E E C ES E A C C A C
C A ES C E A A C A C
C C A E E A C C C A
C C A C C C C ES A E

Tabla de frecuencia para los datos del ejemplo


Nacionalidad fi fri
Argentino 16 0,32
Canadiense 23 0,46
Ecuatoriano 8 0,16
Español 3 0,06

Si los datos son cualitativos de escala ordinal, su organización implican dos cosas: en primer lugar,
las clases llevan un orden preestablecido por las modalidades de la variable; en segundo lugar

16
se incorporan a la tabla, columnas que muestren la frecuencia absoluta acumulada, Fi, y la
proporción que cada uno de ellos representa con respecto al total, frecuencia relativa acumulada,
Fri. La siguiente tabla muestra la estructura de una tabla de frecuencias para este caso.

Donde:

𝐹𝑙 = ∑𝑙𝑖=1 𝑓𝑖

𝐹𝑙
𝐹𝑟𝑖 = ∑𝑙𝑖=1 𝑓𝑟𝑖 = y debe cumplirse que 𝐹𝑟𝑘 = 1
𝑛

Tabla de Frecuencias para datos cualitativos


(escala ordinal)
Modalidades fi fri Fi Fri
1 f1 fr1 F1 Fr1
2 f2 fr2 F2 Fr2
. . . . .
. . . . .
. . . . .
K fk frk Fk Frk

Ejemplo: Los siguientes datos corresponden a una consulta realizada a 45 pacientes sobre su
percepción de la calidad del servicio el hospital (MB: Muy Bueno, B: Bueno, A: Aceptable, M: Malo,
MM: Muy Malo):

MB B B A A M A MM B A
B B MM MB A A M M B B
M A MM MB B A B MB A B
B M M B B A B B M A
MB B M MM A

17
Tabla: Percepción de la calidad de servicio de hospitalización
Percepción fi fri Fi Fri
Muy buena 5 0,11 5 0,11
Buena 16 0,35 21 0,46
Aceptable 12 0,26 33 0,73
Mala 8 0,17 41 0,91
Muy mala 4 0,08 45 1

Tablas cruzadas

Tablas como las anteriores se utilizan cuando se está estudiando una variable. Existen situaciones
en las que se registra información acerca de dos o más variables para cada individuo o elemento.
Si este es el caso, la serie de datos se dice es multidimensional. Para el caso de dos variables,
digamos A y B, los datos se pueden organizar mediante el uso de una tabla de doble entrada,
denominada distribución conjunta o, tabla de contingencia en el caso de variables cualitativas.
Esta tabla se construye enumerando en la parte superior las modalidades o valores de una
variable (variable columna) y en el extremo derecho las modalidades de la otra variable (variable
fila). La siguiente tabla muestra la estructura de una distribución conjunta o tabla de contingencia.
Esta es una tabla con r filas y c columnas, por tanto, tiene rxc celdas. La celda correspondiente a
la fila i y la columna j, Cij , contiene el número de elementos que presenta simultáneamente la
categoría i de la variable fila y la categoría j de la variable columna. Por ejemplo, si sobre un
conjunto de individuos se miden las variables estado civil y nivel educativo, la celda Cij registrara
el número de individuos que presentan la modalidad i de estado civil y la modalidad j de nivel
educativo.

18
Tabla de Contingencia

Variable B

B1 B2 … Bc

A1 C11 C12 … C1c

A2 C21 C22 … C2c

. . . .
Variable A
. . . … .

. . . .

Ar Cr1 Cr2 … Crc

Organización de datos Cuantitativos

Si los datos son cuantitativos, los mismos pueden ser discretos o continuos. Para su organización
se usa un procedimiento similar al utilizado con los datos cualitativos, considerando otros aspectos
que la hacen más laboriosa.

Ejemplo (datos discretos): se registra en 32 fines de semana el numero de habitaciones en un


hospital:

3 6 1 2 3 7 5 5 4 5
4 3 2 4 6 3 7 6 1 1
2 3 5 2 7 5 5 7 6 1
4 5

19
Ejemplo (datos continuos) estatura de pacientes :

1.55 1.55 1.57 1.59 1.65 1.70 1.73 1.58 1.57 1.60
1.56 1.60 1.61 1.62 1.69 1.68 1.71 1.71 1.74 1.79
1.77 1.67 1.65 1.65 1.59 1.58 1.55 1.63 1.62 1.61
1.64 1.68 1.70 1.72 1.72 1.76 1.74 1.71 1.75 1.75
1.58 1.71

La variable número de habitaciones rentadas es discreta, mientras que en el ejemplo anterior, la


variable estatura es continua. En estos casos la tabla de frecuencias contiene los siguientes
elementos:

• Intervalos de Clase: El intervalo total en que están repartidas las observaciones es dividido
en k intervalos parciales. A estos intervalos se les denomina intervalos de clase o,
simplemente clases. Deben ser excluyentes
• Límites de Clase: Extremos de los intervalos de clase. Al menor de estos valores se le
llama límite inferior y al mayor, limite superior.
• Marcas de Clase (mi): Punto medio o centro de intervalo. Es una forma abreviada de
representar el intervalo. De esta forma, todos los cálculos que se realizan como si en lugar
de tener ni valores en la clase i, se tiene ni veces el mismo valor, mi
• Frecuencia Absoluta (fi): Número de observaciones contenidas o incluidas en una clase.
Se debe satisfacer la siguiente igualdad

𝑛 = ∑ 𝑓𝑖
𝑖=1

donde n es el número total de datos.

• Frecuencia Relativa (fri): Proporción de los datos contenidos en la clase. Se obtiene al


dividir la frecuencia absoluta entre el número total de observaciones. Debe cumplirse que

1 = ∑ 𝑓𝑟𝑖
𝑖=1

20
• Frecuencia Absoluta Acumulada (Fi): Suma de frecuencias absolutas hasta la clase
correspondiente. De esta forma, la frecuencia acumulada para la clase k es el número total
de datos, n.
• Frecuencia Relativa Acumulada (Fri): Suma de las Frecuencias Relativas hasta la clase
correspondiente. Se pueden obtener dividiendo la frecuencia absoluta acumulada entre el
número total de observaciones. Para la clase k se cumple que 1 = Frk.

Nota: En el caso discreto, cuando el número de valores diferentes que puede tomar la variable es
pequeño, entonces cada uno de ellos representa una clase. De esta forma las marcas de clase
coinciden con las clases. Lo mismo es valido en el caso continuo, cuando el número de datos es
pequeño.

Para construir una tabla o distribución de frecuencias, en el caso de variables cuantitativas se


debe seguir el siguiente procedimiento:

1. Obtener los extremos del intervalo total (Vmax y Vmin).


2. Obtener el rango o recorrido de la variable, R = Vmax-Vmin.
3. Determinar el número de clases y la amplitud de las mismas. Para determinar el número
de clases no existe una regla fija. Una primera aproximación es tomar

𝐾 = 𝑁º 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒𝑠 = √𝑛

Esta aproximación no siempre es conveniente, sobre todo cuando n es grande. Existe una fórmula
para calcular el número óptimo de clases, denominada fórmula de Stugers

𝐾 = 𝑁º 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒𝑠 = 1 + 3,3 log 𝑛

Cuando se particionan los datos en clases, es generalmente recomendado usar entre 5 y 15


clases. Fuera de estos extremos, la organización resulta poco eficiente. Si hay pocas clases la
pérdida de información es por lo general significativa. Si hay muchas clases y adicionalmente el
número de datos es pequeño, las frecuencias de clases tienden a subir y bajar de una manera
desordenada evitando que se produzca una distribución ideal de los datos. Una vez que se toma
una decisión en cuanto al número de clases, la amplitud de las clases, es simplemente

𝑅
𝐴 = 𝐴𝑚𝑝𝑙𝑖𝑡𝑢𝑑 =
𝐾

21
Esto permite, en resumen, particionar los datos en K clases, cada una con amplitud A. Es
importante hacer notar que, no siempre es posible contar con clases de igual amplitud. Si la
amplitud de los intervalos no es constante, se debe corregir entonces las frecuencias, dividiendo
las mismas por la amplitud del intervalo.

4. Construir los Intervalos de Clase: Para construir la primera clase, seleccionamos como un
límite inferior el valor mínimo (Vmin). El limite superior se obtiene al sumarle al limite inferior
la amplitud, A. Para la segunda clase se tiene que el limite inferior es el limite superior de
la primera clase y el limite superior, resulta de sumarle a este, A. Siguiendo este
procedimiento construimos las k clases. Como el limite superior de una clase representa
el limite inferior de la clase siguiente, conviene considerar las clases como intervalos del
tipo [Linf - Lsup); esto es, intervalos cerrados por la izquierda y abiertas por la derecha.
5. Calcular las marcas de clase (mi): Las marcas de clase están representadas por los puntos
medios de los intervalos de clase, es decir, mi = lsi-lii
6. Obtener las frecuencias absolutas, relativas, absolutas acumuladas y relativa acumulada.
La tabla muestra la estructura de una tabla de frecuencias para datos cuantitativos

Tabla: Tabla de Frecuencias para datos cuantitativos

Clases mi Fi Fri Fi Fri


[li1-ls1) m1 f1 fr1 F1 Fr1
[li2-ls2) m2 f2 fr2 F2 Fr2
. . . . . .
. . . . . .
. . . . . .
[lik-lsk) mk Fk Frk Frk Frk

Ejemplo: A continuación, se muestra la información sobre el número de hijos que tienen 40


familias.

22
.
1 1 3 3 2 4 4 1
1 2 1 3 3 2 1 3
2 1 2 2 4 3 4 4
4 0 3 0 4 1 5 2
2 3 3 4 4 4 1 2

Antes de organizar los datos en una distribución de frecuencia, observemos que la variable es
discreta y además posee pocos valores diferentes, pues su rango esta dado por {0; 1; 2; 3; 4; 5}.
Entonces las clases de la distribución de frecuencia están dadas por los valores individuales de la
variable. En la tabla se presenta la organización de estos datos.

Distribución del Nª de Hijos que tienen 40 Mujeres

Nª de fi fri Fi Fri
Hijos
0 2 0,05 2 0,05
1 9 0,225 11 0,275
2 9 0,225 20 0,5
3 9 0,225 29 0,725
4 10 0,250 39 0,975
5 1 0,025 40 1

En la tabla se observa entre otras cosas que el 97.5% de la mujeres en la muestra tienen 4 o
menos hijos. Obsérvese que el 25% de las mujeres encuestadas tienen 3 hijos, representado este
el valor más frecuente. Estos porcentajes se obtienen simplemente al multiplicar los valores de fri
y Fri por 100. Es decir, 97;5% = 0;975 * 100 y 25% = 0;250 *100.

23
Ejemplo: Los siguientes datos corresponden a la edad de 40 pacientes.

30 28 22 28 34 32 32 23 28 35

34 28 20 29 21 30 30 19 27 19

25 30 34 32 31 24 32 20 21 30

31 19 18 27 19 26 26 27 29 34

Si se organizan los datos en una distribución de frecuencia cuyas clases son valores individuales,
como en el ejemplo anterior, el arreglo resultante es poco eficiente ya que la variable edad posee
muchos valores diferentes (modalidades), lo que conlleva a un arreglo que no tiene una fácil
interpretación. Para mejorar la organización de los datos, es necesario considerar a las clases
como intervalos. El procedimiento para tal caso se describe a continuación.

a) Identificación de los valores extremos del intervalo total

𝑉𝑚𝑎𝑥 = 35 y 𝑉𝑚𝑖𝑛 = 18.

b) Cálculo del Rango.

𝑅 = 𝑉𝑚𝑎𝑥 − 𝑉𝑚𝑖𝑛 = 35 − 18 = 17

c) Determinación del Número de Clases (K) y de la amplitud de las clases (A) Para determinar
el número de clases se usa la regla de Sturges, obteniéndose:

K = 1 + 3;3 log(n) = 1 + 3;3 log(40) = 6;28

Por lo tanto, se deben tener aproximadamente 6 clases. La amplitud de las clases está
dada por:

𝑅
𝐴= = 2,7
𝐾

lo cual se puede aproximar a 3, ya que, se ha asumido que la variable edad es discreta.

24
d) Construcción de los intervalos de clases.
• El primer intervalo se construye utilizando como límite inferior el valor mínimo de los
datos, en este caso 18, y el límite superior se obtiene al sumarle la amplitud (A) al límite
inferior, es decir, 18 + 3 =21. Por lo tanto, el primer intervalo es [18-21).
• El segundo intervalo tiene como límite inferior el límite superior de la clase anterior, es
decir, 21, y el límite superior se obtiene al sumarle la amplitud al límite inferior, es decir,
21+3=24. Por lo tanto, el segundo intervalo es [21 - 24).
• Los demás intervalos se obtienen de manera similar al segundo intervalo. El último
intervalo construido debe contener al valor máximo. Si el límite superior de este
intervalo coincide con el valor máximo de los datos, entonces el intervalo debe ser
cerrado, es decir, de la forma [,].
e) Los intervalos de clases obtenidos al seguir el procedimiento anterior son:

[18 - 21)
[21 - 24)
[24 - 27)
[27 - 30)
[30 - 33)
[33 - 36)

f) Cálculo de las marcas de clase: La marcas de clase para cada una de los intervalos de
clases se muestran a continuación

Clase Marca de Clase


[18 - 21) 19,5

[21 - 24) 22,5

[24 - 27) 25,5

[27 - 30) 28,5

[30 - 33) 31,5

34,5

25
[33 - 36)

g) Cálculo de las frecuencias absolutas y relativas.


• Las frecuencias absolutas (fi) representan el número de observaciones que se
encuentran en el intervalo i. Para el primer intervalo de clase, por ejemplo, la frecuencia
absoluta (f1) es 7, esto quiere decir que hay 7 pacientes con edades mayores o iguales
a 18 años, pero menores a 21 años.
• Las frecuencias relativas (fri) se obtienen al dividir la frecuencia absoluta entre el
7
número de observaciones. Para el primer intervalo de clase 𝑓𝑟1 = = 0,175. Donde
40

40 es el número de observaciones.
• Las frecuencias acumuladas (Fi) se obtienen al sumar las frecuencias absolutas de esa
clase con las anteriores. En este caso, la frecuencia acumulada del tercer intervalo de
clase es F3 = f1 + f2 + f3 = 7 + 4 + 4 = 15. En general, la frecuencia acumulada para la
clase c (1 < c < k) está dada por 𝐹𝑐 = ∑𝑐1 𝑓𝑖
• Las frecuencias relativas acumuladas (Fri) se obtienen al sumar las frecuencias
relativas de esa clase con las anteriores. En este caso, la frecuencia relativa acumulada
del tercer intervalo de clase es Fr3 = fr1 + fr2 + fr3 = 0,175 + 0,100 + 0,100 = 0,375.
Otra manera de obtener esta valor es dividir la frecuencia acumulada entre el numero
15
de observaciones, 𝐹𝑟3 = = 0,375
40

De esta forma, en la tabla se muestra la distribución de frecuencia para los datos del ejemplo.

Tabla: Distribución de frecuencia de las edades de 40 pacientes.


Marca de
Clase fi fri Fi Fri
Clase
[18 - 21) 19,5 7 0,175 7 0,175

[21 - 24) 22,5 4 0,100 11 0,275

[24 - 27) 25,5 4 0,100 15 0,375

26
[27 - 30) 28,5 9 0,225 24 0,600

[30 - 33) 31,5 11 0,225 35 0,875

[33 - 36) 34,5 5 0,125 40 1

Esta tabla es más fácil de interpretar. Por ejemplo, se puede decir que un 27.5% de los pacientes
tienen edades inferiores a 33 años y mayores o iguales a 30 años. El 60% de los turistas tiene
edades inferiores a 30 años.

Tema 3: Medidas Numéricas Descriptivas

En las secciones anteriores examinamos algunas técnicas que permiten describir visualmente un
conjunto de datos, es decir, procedimientos que ofrecen una idea cualitativa de las características
del mismo. Usualmente, esa descripción gráfica o cualitativa, es acompañada por algunas
medidas numéricas sencillas de calcular e interpretar, denominadas medidas de tendencia central
y posición. El propósito de esta sección es el de introducir técnicas que permitan la descripción de
un conjunto de datos desde el punto de vista matemático.

Medidas Descriptivas

Son cantidades que de manera resumida proveen información acerca de características


importantes de un conjunto de datos. Es decir, son índices que resumen una serie de datos y que
contienen la mayor parte de la información relevante, permitiendo así descubrir aspectos
importantes de dicha serie.

Las medidas descriptivas las podemos clasificar de acuerdo a lo que se mide en los siguientes
tres grupos: Medidas de localización, medidas de dispersión y medidas de forma. En esta unidad
se presentará las medidas de localización que se clasifican en medidas de tendencia central y
medias de posición.

27
Medidas de Localización

Son coeficientes que tratan de representar una determinada distribución de una serie de datos,
pueden ser de dos tipos; centrales (o de tendencia central) y no centrales (o de posición). Las
medidas centrales son parámetros que se localizan alrededor del centro del conjunto de datos, es
decir nos permiten describir el centro de la masa de datos. Ellos son:

• Media Aritmética
• Mediana
• Moda

Las medidas no centrales permiten ubicar partes del conjunto de datos. Ellos son:

• Cuartiles
• Deciles
• Percentiles

. Medidas de Tendencia Central

La Media Aritmética. Es la medida de tendencia central más popular para datos cuantitativos,
entre otras cosas por poseer propiedades matemáticas deseables. Representa el centro de
gravedad o punto de equilibrio de un conjunto de datos. La media aritmética de un conjunto de
datos es simplemente el promedio de los datos. Su cálculo depende si los datos están o no
ordenados en tablas de frecuencias.

Para datos no ordenados en tablas de frecuencias, la media aritmética está dada por:

∑𝑥
𝑥̅ =
𝑛

Ejemplo (datos discretos): En el número de cuartos rentados en distintos fines de semana:

3 6 1 2 3 7 5 5 4 5
4 3 2 4 6 3 7 6 1 1
2 3 5 2 7 5 5 7 6 1
4 5

28
La media aritmética se calcula:

∑ 𝑥 3 + 6 + 1 + ⋯ + 6 + 1 + 4 + 5 127
𝑥̅ = = = = 3,96
𝑛 32 32

El promedio de cuartos rentados es de 3,96. Lo que indica que los datos se agrupan alrededor de
3,96.

A menudo, se quiere calcular la media a través de una tabla de frecuencias previamente hecha.
Su fórmula de cálculo depende de si las clases están conformadas por valores individuales o por
intervalos.

∑𝑘𝑖=1 𝑐𝑖 ∙ 𝑓𝑖
𝐶𝑙𝑎𝑠𝑒𝑠 𝐼𝑛𝑑𝑖𝑣𝑖𝑑𝑢𝑎𝑙𝑒𝑠
𝑛
𝑥̅ =
∑𝑘𝑖=1 𝑚𝑖 ∙ 𝑓𝑖
{ 𝐶𝑙𝑎𝑠𝑒𝑠 𝐼𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜𝑠
𝑛

Ejemplo: Suponga la siguiente tabla de frecuencia del numero de hijos de 40 familias

Nª de fi Fri Fi Fri
Hijos
0 2 0,05 2 0,05
1 9 0,225 11 0,275
2 9 0,225 20 0,5
3 9 0,225 29 0,725
4 10 0,250 39 0,975
5 1 0,025 40 1

∑𝑘𝑖=1 𝑐𝑖 ∙ 𝑓𝑖 0 ∗ 2 + 1 ∗ 9 + 2 ∗ 9 + ⋯ + 5 ∗ 1 99
𝑥̅ = = = = 2,47
𝑛 40 40

Por lo tanto, el promedio de hijos por familia es de 2,47.hijos

29
Ejemplo: Suponga la siguiente tabla de frecuencia de las edades de 40 pacientes

Marca de
Clase fi fri Fi Fri
Clase
[18 - 21) 19,5 7 0,175 7 0,175
[21 - 24) 22,5 4 0,100 11 0,275
[24 - 27) 25,5 4 0,100 15 0,375
[27 - 30) 28,5 9 0,225 24 0,600
[30 - 33) 31,5 11 0,225 35 0,875
[33 - 36) 34,5 5 0,125 40 1

∑𝑘𝑖=1 𝑚𝑖 ∙ 𝑓𝑖 19,5 ∗ 7 + 22,5 ∗ 4 + 25,5 ∗ 4 + ⋯ + 34,5 ∗ 5 1104


𝑥̅ = = = = 27,6
𝑛 40 40

La edad promedio de los turistas es de 27,6 años

Las principales Ventajas de esta medida de localización son:

• Toma en cuenta todos los datos.


• Fácil de calcular y de operar algebraicamente.

Desventajas de la media aritmética

• Es sensible a valores extremos o atípicos.


• No ofrece siempre una buena aproximación cuando las distribuciones son asimétricas.

La Mediana: La mediana de un conjunto de datos es el valor del centro de los datos, una vez
que los mismos sean ordenados de menor a mayor. Es decir, la mediana es aquel valor que deja
el mismo número de datos antes y después que el, una vez que son ordenados. Su aplicación se
ve restringida por el hecho de que solo considera el orden jerárquico de los datos y no alguna
propiedad propia de los datos, como en el caso de la media. Igual que en el caso de la media,

30
existen dos procedimientos para calcular la mediana, dependiendo de si los datos se consideran
tal cual, o si están agrupados en intervalos de clase. Veamos cada uno de ellos.

Para datos no ordenados se distinguen dos casos de acuerdo al número de datos n. Si n es impar,
la mediana es el valor central del conjunto ordenado, mientras que si el número de datos es par,
la medina es el promedio de los valores centrales del conjunto ordenado. Esto es, si denotamos
por Md a la mediana, se tiene que:

𝑥𝑛/2 + 𝑥(𝑛)+1
2
𝑠𝑖 𝑛 𝑒𝑠 𝑝𝑎𝑟
𝑀𝑑 = 2

{ 𝑥(𝑛+1)/2 𝑠𝑖 𝑛 𝑒𝑠 𝑖𝑚𝑝𝑎𝑟

Si los datos están ordenados en tablas de frecuencias y las clases son intervalos, suponiendo que
los mismos están igualmente espaciados, la mediana se calcula mediante el siguiente
procedimiento:

• Calcular n/2.
• Ubicar la clase cuya frecuencia acumulada es igual o superior a n/2. A esta clase se le
llama clase medianal.
• Obtener la mediana mediante la fórmula

𝑛
− 𝐹𝑎𝑚
𝑀𝑑 = 𝑙𝑖𝑚 + 2 𝐴𝑚
𝑓𝑚

Donde:

Fam=Frecuencia Acumulada de la clase anterior a la medianal.

Am=Amplitud de la clase medianal.

lim=Limite inferior de la clase medianal.

fm=Frecuencia absoluta de la clase medianal.

31
Ejemplo: Suponga la siguiente tabla de frecuencia de las edades de 40 pacientes

Marca de
Clase fi fri Fi Fri
Clase
[18 - 21) 19,5 7 0,175 7 0,175
[21 - 24) 22,5 4 0,100 11 0,275
[24 - 27) 25,5 4 0,100 15 0,375
[27 - 30) 28,5 9 0,225 24 0,600
[30 - 33) 31,5 11 0,225 35 0,875
[33 - 36) 34,5 5 0,125 40 1

𝑛 40
Primero calculamos = = 20, entonces la clase medianal es la clase con la frecuencia
2 2

acumulada inmediatamente superior a 20. Por lo tanto es la clase numero 4. La mediana queda
calculada de la siguiente manera:

20 − 15
𝑀𝑑 = 27 + 3 = 28,66
9

Lo que indica que el 50% de los datos están por debajo de 28,66 y el otro 50% por encima de
28,66 años

La Moda: Se denota por Mo y es el valor más común entre los datos, el valor de la variable que
se presenta mayor número de veces, es decir, el valor de mayor frecuencia. La mayor ventaja es
la sencillez de su cálculo, ya que la mediana es la clase o marca de clase con mayor frecuencia
absoluta simple. En la tabla de las edades de los estudiantes la moda es igual a 31,5. Y en la tabla
de los números de hijos de las familias la moda es igual a 4 hijos.

Medidas de posición

Cuantiles: Son medidas de localización similares a las anteriores. Denotados por 𝑄ℎ , tienen
como objetivo fundamental identificar el valor de la variable por debajo del cual queda la h-esima
parte, en tanto por ciento, de todos los valores de la colección ordenada. Se puede decir que los

32
cuantiles son unas medidas que dividen a la distribución en Q partes de manera que en cada una
de ellas hay el mismo porcentaje de valores de la variable. Los más importantes son:

• Cuartiles. Dividen a la distribución en cuatro partes porcentualmente iguales (3 divisiones).


Se denotan por 𝐶1 , 𝐶2 , 𝐶3 , y corresponden al 25 %, 50 %,75 %.
• Deciles. Dividen a la distribución en 10 partes iguales (9 divisiones). Se denotan por D1,....
D9, y corresponden al 10 %,...,90 %.
• Percentiles. Dividen a la distribución en 100 partes (99 divisiones). P1, ..., P99, y
corresponden al 1 %,...,99 %.

Para datos no ordenados en tabla. Para la obtención del cuantil h, se deben seguir los siguientes

pasos:

• Ordenar los datos de menor a mayor



• Calcular el valor 𝑡 = 𝑛 donde h es el cuantil deseado, q es iguala 4, 10 y 100, para
𝑞

cuartiles (Ch), deciles (Dh) y percentiles (Ph), respectivamente.


• Si t es entero, el cuantil h, Qh, es el promedio de los valores en las posiciones t y t + 1, es
decir

𝑥𝑡 + 𝑥𝑡+1
𝑄ℎ =
2

en caso contrario, t debe ser redondeado y Qh será el valor en la posición asociada con el
entero inmediatamente mayor que t.

Ejemplo: Determinar el cuartil 3, el decil 7 y el percentil 85 para el siguiente conjunto de datos: 33


34 38 31 36 30 35 35 37 29 32 39.

Esta serie ordenada es: 29 30 31 32 33 34 35 35 36 37 38 39. Para el cálculo del cuartil 3, t = 3,


3
𝑡 = 12 = 9, y su valor está dado por el promedio de los valores en las posiciones 9 y 10 de la
4

serie ordenada, es decir,

36 + 37
𝐶3 = = 36,5
2

33
Esto significa que el 75% de los datos se encuentran por debajo de 36.5. Para hallar el decil 7,
7
𝑡= 12 = 8,4. Como t no es entero, el decil 7 es el valor asociado con la posición 9, es decir, D7
10

= 36. El 70% de los datos está por debajo de 36. Igualmente, para obtener el percentil 85, se
85
obtiene t. En este caso, 𝑡 = 12 = 10,2 y su valor es aquel que ocupa la posición 11, P85 = 38.
100

Por lo tanto, el 85% de los datos están por debajo de 38.

Si los datos están agrupados en tablas de frecuencias y las clases son intervalos, suponiendo que
los mismos están igualmente espaciados, el cuantil Q h se calcula mediante el siguiente
procedimiento:

ℎ∗𝑛
• Calcular
𝑞
ℎ∗𝑛
• Ubicar la clase cuya frecuencia acumulada es igual o superior a . A esta clase se le
𝑞

llama clase cuantil.


• Obtener el h-esimo cuantil mediante la fórmula

ℎ∗𝑛
− 𝐹𝑎𝑐
𝑞
𝑄ℎ = 𝑙𝑖𝑐 + 𝐴
𝑓𝑐

donde

Fac=Frecuencia Acumulada de la clase anterior a la clase cuantil.

A=Amplitud de la clase cuantil.

lic=Limite inferior de la clase cuantil.

fc=Frecuencia absoluta de la clase cuantil.

Ejemplo Para la tabla de frecuencia de las edades de los turistas, calcular el cuartil 1, el decil 6 y
el percentil 90.

ℎ∗𝑛
Para cada caso, se debe inicialmente obtener el valor de . Estos valores son:
𝑞

1 ∗ 40
= 10, 𝑝𝑎𝑟𝑎 𝑒𝑙 𝑐𝑢𝑎𝑟𝑡𝑖𝑙 1
4
ℎ∗𝑛 6 ∗ 40
= = 24, 𝑝𝑎𝑟𝑎 𝑒𝑙 𝑑𝑒𝑐𝑖𝑙 6
𝑞 10
90 ∗ 40
{ 100 = 36, 𝑝𝑎𝑟𝑎 𝑒𝑙 𝑝𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙 90

34
Luego, las clase 2, 4 y 6 están asociadas con el cuartil 1, decil 6 y percentil 90, respectivamente.
El valor de estos cuantiles son por lo tanto:

10 − 7
𝐶1 = 21 + 3 = 23,25
4

24 − 15
𝐷6 = 27 + 3 = 30
9

36 − 35
𝑃90 = 33 + 3 = 33,6
5

El 25% de los turistas tiene edad inferior a 23.25 años, un 60% inferior a 30 años y el 90% tiene
una edad inferior a 33.6 años.

Medidas de Dispersión

Para variables cuantitativas o numéricas, en las que por lo general se observa un gran número de
valores distintos, el análisis debe ser tal que de respuesta al siguiente conjunto de interrogantes:

• ¿Alrededor de qué valor se agrupan los datos?


• ¿Qué valor es el más frecuente?
• Como se agrupan los datos, ¿muy concentrados? ¿muy dispersos?

Como se mostró en la unidad anterior, las medidas de tendencia central dan respuesta a la primera
interrogante. Estas medidas sirven para describir sólo un aspecto de los datos, no dicen nada
acerca de la dispersión de los valores observados. Para esto es necesario el uso de otro conjunto
de medidas, las medidas de dispersión o variabilidad. Si el valor de estas medidas de dispersión
es pequeño, indica que los datos están concentrados. Si es una medida de dispersión referida a
un valor central, por ejemplo, la media, para un valor pequeño de dicha medida se dice que los
datos están concentrados alrededor de la media. En este caso, la media se considera
representativa de los datos, es decir, es un promedio confiable. En caso contrario, la media no es
confiable, no es representativa de los datos.

Las medidas de dispersión permiten medir el grado de agrupación o disgregación en un conjunto


de datos, es decir, permiten determinar qué tan cercanos o separados entre si están los valores.
Esto es, las medidas de dispersión cuantifican la separación, la dispersión, la variabilidad de los
valores de la distribución. Se pueden clasificar en absolutas y relativas. Las absolutas pueden o
no, estar referidas a un valor central y no son comparables entre diferentes muestras. Las medidas

35
relativas permiten comparar varias muestras. El siguiente cuadro muestra las distintas medidas
de dispersión.

Al igual que en el caso de las medidas de tendencia central, la selección de la medida de


dispersión a utilizar, dependerá, entre otras cosas, del objetivo a cumplir en el estudio. Si se quiere
tener una visión general de la variabilidad de los datos, el rango y el recorrido intercuartílico son
apropiadas. Si el objetivo es medir la variabilidad de los datos respecto de su media, entonces
deben usarse medidas como la varianza, desviación media o desviación estándar. Para comparar
grupos de datos con valores promedios diferentes y unidades de medida diferentes, las mejores
opciones resultan ser el coeficiente de variación y el rango intercuartílico relativo.

Medidas De Dispersión Absolutas

• Rango o Recorrido: Medida de poca utilidad ya que puede llevar a conclusiones erróneas
acerca del verdadero comportamiento de los datos. Viene dada por:

𝑅 = 𝑉𝑚𝑎𝑥 − 𝑉𝑚𝑖𝑛

Es decir, el rango es la diferencia entre el valor máximo y el valor mínimo del conjunto de
datos. Dos aspectos se deben resaltar:

o Cuanto menor es su valor, es más representativo de las medidas de tendencia


central.
o Sólo depende de los valores extremos. Valores muy alejados afectan dicha medida.
o No es aconsejable usarlo para muestras grandes, pues puede conducirnos a
errores. Se le utiliza en muestras pequeñas de 4 a 5 observaciones, básicamente
en el control estadístico de la calidad.

36
• Recorrido Intercuartílico: Es una medida de la dispersión definida en la zona intermedia
de los datos. Viene dada por la diferencia entre los cuartiles 3 y 1. Esto es,

𝑅𝐼𝐶 = 𝐶3 − 𝐶1

Esta medida indica la distancia máxima de los datos que se encuentran en el 50% central
del conjunto de datos. Su principal ventaja es que es una medida resistente a los datos
atípicos. Si su valor es muy pequeño, implica que la mayoría de los datos están en el
centro, existe poca o baja dispersión. En caso contrario, los datos se distribuyen
ampliamente, existe una alta dispersión.

• Desviación Media: Esta dada por el promedio de los valores absolutos de las diferencias
entre cada valor del conjunto de datos y su media. Mide la diferencia que hay en cualquier
sentido, positivo o negativo, entre los valores de una variable y su media. Su fórmula de
cálculo es,

∑𝑛𝑖=1|𝑥𝑖 − 𝑥̅ |
𝐷𝑀 =
𝑛

Si los datos están agrupados en una tabla de frecuencias, entonces su fórmula de cálculo
es:

∑𝑘𝑖=1|𝐶𝑖 − 𝑥̅ |. 𝑓𝑖
𝑃𝑎𝑟𝑎 𝑐𝑙𝑎𝑠𝑒𝑠 𝑖𝑛𝑑𝑖𝑣𝑖𝑑𝑢𝑎𝑙𝑒𝑠
𝑛
𝐷𝑀 =
∑𝑘𝑖=1|𝑚𝑖 − 𝑥̅ |. 𝑓𝑖
{ 𝑃𝑎𝑟𝑎 𝑐𝑙𝑎𝑠𝑒𝑠 𝑑𝑒 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜
𝑛

• Varianza: La desviación media presenta el inconveniente de no destacar cuando un valor


está separado significativamente de la media y destaca excesivamente pequeñas
diferencias respecto de la media. Para evitar tal situación se propone en su lugar la
varianza, definida como la media de las diferencias al cuadrado de los datos respecto de
su media, es decir,

∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑆2 =
𝑛

Si los datos están agrupados en una tabla de frecuencias, entonces su fórmula de cálculo es:

37
∑𝑘𝑖=1(𝐶𝑖 − 𝑥̅ )2 . 𝑓𝑖
𝑃𝑎𝑟𝑎 𝑐𝑙𝑎𝑠𝑒𝑠 𝑖𝑛𝑑𝑖𝑣𝑖𝑑𝑢𝑎𝑙𝑒𝑠
𝑛
𝑆2 =
∑𝑘𝑖=1(𝑚𝑖 − 𝑥̅ )2 . 𝑓𝑖
{ 𝑃𝑎𝑟𝑎 𝑐𝑙𝑎𝑠𝑒𝑠 𝑑𝑒 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜
𝑛

Dado que esta medida viene expresada en unidades de los datos al cuadrado, por ejemplo, si
las observaciones se miden en metros, la varianza lo hace en metros al cuadrado. De esta
forma su interpretación se dificulta, siendo esta su principal desventaja.

• Desviación Estándar: Dada la dificultad presentada con la interpretación de la varianza,


surge una medida de dispersión función de ella y que viene expresada en las mismas
unidades que los datos, desviación estándar o típica. Representa la medida de dispersión
más utilizada en estadística y está dada por,

𝑆 = √𝑆 2

• Propiedades de la Varianza y Desviación Estándar:


o La varianza y la desviación estándar no pueden ser negativas.
o Al aumentar el tamaño de la muestra, disminuye la varianza y la desviación
estándar.
o Si todos los datos son iguales a una constante c, entonces S2 = 0 y S = 0.
o Si a cada dato original se le suma una constante k, la varianza y la desviación
estándar no se ven afectadas.
• Si cada dato original se multiplica por una constante k, la varianza y la desviación estándar
del nuevo conjunto de datos están dadas por k 2S2 y kS respectivamente.

Cuando se desea medir la dispersión o variabilidad de una variable, por lo general, esta se
mide con respecto a un valor central, es decir, se usan medidas absolutas referidas a un valor
central. Son las que tiene mayor sentido cuando los datos son simétricos o tienden a una
distribución simétrica.

Todas las medidas de dispersión consideran que, a mayor valor de la medida de dispersión, mayor
es la variabilidad.

38
Medidas de Dispersión Relativas

Por lo general están dadas por el cociente entre una medida de dispersión y una medida de
tendencia central y sirven para comparar la variabilidad de dos conjuntos de valores.

• Rango Intercuartílico Relativo: Resulta del cociente entre el rango intercuartílico y la


mediana, es decir,

𝑄3 − 𝑄1
𝐼𝑄 =
𝑀𝑑

Indica que tamaño tiene el rango intercuartílico con respecto a la mediana. Es una medida
independiente de las unidades de medida y resulta interesante para comparar la
variabilidad de diferentes variables.

• Coeficiente de Variación: Igual que el rango intercuartílico relativo, su utilidad estriba en


que permite comparar la dispersión o variabilidad de dos o más grupos. Indica el tamaño
relativo de la desviación estándar respecto a la media. Es la medida de dispersión relativa
de mayor uso y su fórmula de cálculo es:

𝑆
𝐶𝑉 = ∙ 100
𝑥̅

El coeficiente de variación se utiliza para comparar la homogeneidad de dos series de


datos, aun cuando estén expresados en distintas unidades de medida. A medida que el
Coeficiente de variación disminuye, se observa una mayor homogeneidad en los datos, es
decir, los datos están más concentrados alrededor del promedio.

Ejemplo: La siguiente tabla de frecuencias ordena 50 observaciones de edades de un grupo de


adolescentes universitarios aspirantes a una beca de estudio. Calcular todas las medidas de
dispersión absolutas y relativas

Edades
fi fri Fi Fri mi
(años)
[21-24) 4 0,08 4 0,08 22,5
[24-27) 8 0,16 12 0,24 25,5
[27-30) 12 0,24 24 0,48 28,5
[30-33) 15 0,30 39 0,78 31,5
[33-36) 6 0,12 45 0,90 34,5

39
[36-39) 5 0,10 50 1,00 37,5

• Rango o Recorrido: Es la diferencia del dato máximo con el dato mínimo. Como los datos
se presentan en tablas de frecuencia, el recorrido o rango se calcula con las marcas de
clase. Especificamnete, la diferencia entre la ultima marca de clase y la primera.

𝑅 = 37,5 − 22,5 = 15 𝑎ñ𝑜𝑠

Esto indica que la distancia máxima entre las distintas edades es de 15 años

• Recorrido Intercuartílico: Para el calculo de esta medida es necesario calcular el primer


y tercer cuartil:

12,5 − 12
𝐶1 = 27 + 3 = 27,125
12

37,5 − 24
𝐶3 = 30 + 3 = 32,7
15

El recorrido Intercuartílico queda: 𝐼𝑄𝑅 = 𝐶3 − 𝐶1 = 32,7 − 27,125 = 5,57 𝑎ñ𝑜𝑠. Eso quiere decir
que la distancia máxima del 50% central de los datos es de 5,57 años

• Desviación media: Para el calculo de la desviación media para datos ordenados en tablas
de frecuencias con intervalos. Debemos crear una nueva columna donde se calcule
|𝑚𝑖 − 𝑥̅ |. Para ello es necesario calcular la media

22,5 ∗ 4 + 25,5 ∗ 8 + 28,5 ∗ 12 + ⋯ + 37,5 ∗ 5 1503


𝑥̅ = = = 30,06 𝑎ñ𝑜𝑠
50 50

40
Edades
fi fri Fi Fri mi |𝑚𝑖 − 𝑥̅ | |𝑚𝑖 − 𝑥̅ | ∙ 𝑓𝑖
(años)
[21-24) 4 0,08 4 0,08 22,5 7,56 30,24
[24-27) 8 0,16 12 0,24 25,5 4,56 36,48
[27-30) 12 0,24 24 0,48 28,5 1,56 18,72
[30-33) 15 0,30 39 0,78 31,5 1,44 21,6
[33-36) 6 0,12 45 0,90 34,5 4,44 26,64
[36-39) 5 0,10 50 1,00 37,5 7,44 37,2

30,24 + 36,48 + 18,72 + ⋯ + 37,2 170,88


𝐷𝑀 = = = 3,41 𝑎ñ𝑜𝑠
50 50

La diferencia absoluta promedio de los datos con respecto a la media es de 3,41 años

• Varianza: para el calculo de la varianza, se debe calcular una columna para (𝑚𝑖 − 𝑥̅ )2 ∙ 𝑓𝑖

Edades
fi fri Fi Fri mi (𝑚𝑖 − 𝑥̅ )2 (𝑚𝑖 − 𝑥̅ )2 ∙ 𝑓𝑖
(años)
[21-24) 4 0,08 4 0,08 22,5 57,1536 228,6144
[24-27) 8 0,16 12 0,24 25,5 20,7936 249,5232
[27-30) 12 0,24 24 0,48 28,5 2,4336 58,4064
[30-33) 15 0,30 39 0,78 31,5 2,0736 80,8704
[33-36) 6 0,12 45 0,90 34,5 19,7136 887,112
[36-39) 5 0,10 50 1,00 37,5 55,3536 2767,68

228,61 + 249,52 + 58,40 + ⋯ + 2767,68 4272,20


𝑆2 = = = 85,44 𝑎ñ𝑜𝑠2
50 50

El promedio de las desviaciones al cuadrado de los datos y la media es 85,44 años cuadrado.
Interpretar esta medida es complicado porque la unidad de medida esta al cuadrado; por eso es
necesario el cálculo de la desviación estándar

𝑆 = √𝑆 2 = √85,44 = 9,24 𝑎ñ𝑜𝑠

El promedio de las desviaciones con respecto a la media es de aproximadamente 9,24 años.

41
• Coeficiente de variación:

𝑆 9,24
𝐶𝑉 = ∙ 100 = ∙ 100 = 30,7 %
𝑥̅ 30,06

Los datos tienen una variación del 30% esta medida relativa sin unidad de medida me permite
comparar.

Medidas de Forma

Hasta ahora, se han analizado y estudiado la tendencia, así como la dispersión de una distribución,
pero, parece evidente que es necesario conocer más sobre el comportamiento de una distribución.
En esta parte, se analizarán las medidas de forma. Las medidas de forma permiten comprobar si
una distribución de frecuencia tiene características especiales como simetría, asimetría, nivel de
concentración de datos o nivel de apuntamiento que la clasifiquen en un tipo particular de
distribución. Son medidas necesarias para determinar el comportamiento de los datos y así, poder
adaptar herramientas para el análisis probabilístico. Las medidas de forma de una distribución se
pueden clasificar en dos grandes grupos: medidas de asimetría y medidas de curtosis. Estas
medidas permiten evaluar la situación de los datos desde los ejes vertical (simetría) y horizontal
(curtosis).

Medidas de Asimetría La asimetría resulta conveniente en muchas situaciones. Muchos modelos


asumen una distribución normal, esto es, simétrica alrededor de la media. La distribución normal
tiene una asimetría cero. En el mundo real, los valores no son nunca perfectamente simétricos y
la asimetría de la distribución proporciona una idea sobre si las

desviaciones de la media son positivas o negativas. Una asimetría positiva implica que hay más
valores distintos a la derecha de la media. Las medidas de asimetría, junto a las medidas de
curtosis se utilizan para verificar si se puede aceptar que un conjunto de datos sigue la distribución
normal, lo que es necesario para realizar inferencia estadística.

Cuando el diagrama de líneas o histograma de frecuencias de una variable presenta una forma

acampanada, diremos que los datos tienen una distribución simétrica. En caso contrario, dicha
distribución será asimétrica o diremos que presenta asimetría. Ahora bien, comparando las
medidas de tendencia central, podemos establecer relaciones que permitan determinar la
presencia o no, de asimetría en un conjunto de datos. De esta forma podemos indicar que:

42
• Si x = Md = Mo la Distribución es simétrica.
• Si x < Md < Mo la Distribución es asimétrica negativa.
• Si x > Md > Mo la Distribución es asimétrica positiva.

Otra manera de evaluar la simetría de un conjunto de datos es calculando ciertos coeficientes de


asimetría. Las medidas de asimetría son indicadores que permiten establecer el grado de simetría
(o asimetría) que presenta una distribución de una variable aleatoria sin tener que hacer su
representación gráfica. Como base de simetría consideramos una recta paralela al eje de
ordenadas que pasa por la media de la distribución. Si existe el mismo número de valores a la
derecha que a la izquierda de la media y por lo tanto, el mismo número de desviaciones con signo
positivo que con signo negativo, se tiene una distribución es simétrica. Se dice que hay asimetría
positiva (o a la derecha) si la "cola" a la derecha de la media es más larga que la de la izquierda,
es decir, si hay valores más separados de la media a la derecha. En caso contrario, hay asimetría
negativa (o a la izquierda). En la siguiente figura se observa las diferentes formas de asimetría en
un conjunto de datos

• Coeficiente de Asimetría de Fisher: Para determinar el grado de asimetría de un conjunto


de datos una posibilidad es el coeficiente de Fisher, cuya fórmula de cálculo es:
∑𝑘𝑖=1(𝐶𝑖 − 𝑥̅ )3 . 𝑓𝑖
𝑃𝑎𝑟𝑎 𝑐𝑙𝑎𝑠𝑒𝑠 𝑖𝑛𝑑𝑖𝑣𝑖𝑑𝑢𝑎𝑙𝑒𝑠
𝑛𝑆 3
𝐴𝐹 =
∑𝑘𝑖=1(𝑚𝑖 − 𝑥̅ )3 . 𝑓𝑖
{ 𝑃𝑎𝑟𝑎 𝑐𝑙𝑎𝑠𝑒𝑠 𝑑𝑒 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜
𝑛𝑆 3

43
Si AF = 0 la Distribución es simétrica.
Si AF < 0 la Distribución es asimétrica negativa.
Si AF > 0 la Distribución es asimétrica positiva.

• Medidas de Apuntamiento o Curtosis.


Las medidas de apuntamiento o curtosis, miden el grado de apuntamiento o achatamiento de
la distribución en su parte central con respecto a la distribución normal, es decir, miden el
grado de concentración de datos en la región central. La distribución de probabilidad normal
tiene gran importancia al querer estudiar el apuntamiento o curtosis de la distribución de los
datos. Se dice que una distribución tiene un apuntamiento u otro, siempre en función de esta
distribución normal. La distribución normal, corresponde a fenómenos muy corrientes en la
naturaleza y cuya representación gráfica es una campana de Gauss. Esta campana responde
a una función matemática, que es la función de densidad de la distribución. Coeficiente de
Curtosis de Fisher: Permite medir el grado de apuntamiento de la distribución de un conjunto
de datos. Esta dada por:

∑𝑘𝑖=1(𝐶𝑖 − 𝑥̅ )4 . 𝑓𝑖
− 3 𝑃𝑎𝑟𝑎 𝑐𝑙𝑎𝑠𝑒𝑠 𝑖𝑛𝑑𝑖𝑣𝑖𝑑𝑢𝑎𝑙𝑒𝑠
𝑛𝑆 4
𝐶𝐹 =
∑𝑘𝑖=1(𝑚𝑖 − 𝑥̅ )4 . 𝑓𝑖
{ 𝑃𝑎𝑟𝑎 𝑐𝑙𝑎𝑠𝑒𝑠 𝑑𝑒 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜
𝑛𝑆 4

Al comparar con la distribución normal, se tiene la siguiente interpretación:

• Si Cf > 0 la Distribución es leptocúrtica. Más apuntada que la normal


• Si Cf < 0 la Distribución es platicúrtica. Menos apuntada que la normal
• Si Cf = 0 la Distribución es mesocúrtica. Similar a la normal.

La siguiente figura muestra los diferentes tipos de curtosis

44
45
PSICOLOGÍA EN LINEA
ESTADÍSTICA
3 créditos

Profesor Autor:
Ing. Víctor Márquez, Msc, PhD

Titulaciones Semestre

• PSICOLOGIA
Primero

Tutorías: El profesor asignado se publicará en el entorno virtual de aprendizaje


online.utm.edu.ec), y sus horarios de conferencias se indicarán en la sección CAFETERÍA
VIRTUAL.

PERÍODO OCTUBRE 2020/ MARZO 2021


Índice

Tabla de contenido

Resultado de aprendizaje de la asignatura ................................................................................................... 2


...................................................................................................................................................................... 2
Unidad 2 Teoría de Probabilidades y Modelos Probabilísticos ..................................................................... 2
Tema 1. Conceptos básicos de probabilidades ............................................................................................. 2
Conceptos Básicos .................................................................................................................................... 3
Teoría de conjuntos .................................................................................................................................. 3
Experimentos Aleatorios ........................................................................................................................... 4
Probabilidades .......................................................................................................................................... 7
Probabilidad Condicional .......................................................................................................................... 9
Probabilidad Condicional ........................................................................................................................ 10
Tema 2: Variable Aleatoria ......................................................................................................................... 12
Tema 3: Modelos Probabilísticos Discretos ................................................................................................ 13
Modelo Binomial..................................................................................................................................... 13
Definición (Experimento Binomial) ......................................................................................................... 14
Definición (Distribución Binomial) .......................................................................................................... 15
Modelo Poisson ...................................................................................................................................... 15
Tema 4: Modelos Probabilístico Normal ..................................................................................................... 17
Distribución Normal ................................................................................................................................ 17
Propiedades de la Distribución Normal .................................................................................................. 19

1
Resultado de aprendizaje de la asignatura

Dotar al estudiante de las capacidades y destrezas necesarias para aplicar técnicas de


análisis estadístico a la resolución de problemas de diversa índole en los que es necesario
realizar gran variedad de tareas específicas que acompañan a cualquier proceso de
análisis de datos, con el objeto de elaborar conclusiones que faciliten la toma de
decisiones en situaciones complejas que se caracterizan por estar sometidas a distintos
grados de incertidumbre.

ESTADÍSTICA

Unidad 2 Teoría de Probabilidades y Modelos Probabilísticos

Resultado de aprendizaje de la unidad: Explicar las definiciones y propiedades de las


probabilidades, con la finalidad de calcular o cuantificar el grado de incertidumbre de un
fenómeno o evento de interés. Además, Aplicar los distintos modelos probabilísticos en
distintas situaciones afines a la Psicología, con el fin de garantizar un adecuado uso de
las probabilidades en la toma de decisiones.

Tema 1. Conceptos básicos de probabilidades

Cuando los resultados de un fenómeno se conocen, existe certeza completa, la única


razón de que se cometa un error en la toma de decisiones sobre los mismos, es que exista
un error en el análisis. Sin embargo, en la realidad por lo general se presentan situaciones
que no son totalmente predecibles y aun cuando se haga un análisis correcto, hay factores
que no se pueden controlar y que influyen de forma tal que los resultados no pueden
determinarse con certeza absoluta, es decir, existe incertidumbre. Bajo estas condiciones,
se habla de posibilidades de ocurrencia. Una medida numérica de estas posibilidades es
la probabilidad, representada por un número que va desde cero (ninguna posibilidad de

2
ocurrencia) a uno (certeza completa de ocurrencia). Por tanto, las probabilidades se
utilizan para cuantificar que tan probable es un determinado evento.
Las probabilidades son muy útiles, ya que pueden servir para desarrollar estrategias o
tomar decisiones. Por ejemplo, un inversionista desea invertir su dinero si existen altas
posibilidades de ganar; un turista decidirá no viajar si existe un riesgo alto de mal tiempo.
Situaciones como en las siguientes, resulta necesario trabajar con el concepto de
probabilidades:

1. Se elige a un paciente y se le consulta acerca del número de veces que ha tenido


una crisis de identidad.
2. En una prueba de control de calidad se examina un servicio haciéndolo funcionar
de manera ininterrumpida hasta que falla, y entonces se registra el tiempo
transcurrido desde el inicio de la prueba.

No se puede afirmar con certeza que respuesta dará el paciente ni cual será exactamente
el tiempo de duración del servicio.

A continuación, se dan a conocer algunos conceptos básicos, necesarios para la


comprensión y manejo de la definición de probabilidades. Esta sección comienza con un
tratamiento rápido sobre la teoría de conjuntos, luego se define experimento aleatorio para
posteriormente, tratar las distintas definiciones de probabilidad.

Conceptos Básicos

Teoría de conjuntos

La teoría de conjuntos es de mucha utilidad en el desarrollo de las probabilidades, y es


por ello que se debe revisar los conocimientos sobre las operaciones de conjuntos como
lo son: la unión, la intersección, el complemento de un conjunto, etc. Para resolver algunos
problemas de probabilidades es necesario conocer el número de elementos que posee
cierto conjunto y el conjunto universal, denominado, en probabilidades, espacio muestral.
Cuando el conjunto es pequeño no hay problema, pero cuando contiene muchos
elementos, esta tarea puede resultar algo complicada. Es necesario, por tanto, acudir a

3
técnicas de conteo especiales que permitan calcular el número de elementos de cualquier
conjunto.
Definición (Conjunto) Un conjunto es una colección de objetos, denominados miembros
o elementos. En general, el conjunto se denota por una letra mayúscula A, B, C, mientras
que sus elementos por una letra minúscula a, b, c.
Ejemplo: Son ejemplos de conjuntos:
1. El conjunto de los números enteros.
2. El conjunto de las vocales en el alfabeto.
3. El conjunto de las edades de estudiantes en un colegio.
4. El conjunto de los posibles resultados al lanzar un dado.
5. El conjunto de estaturas de todos los turistas de una región.

Dependiendo de la cantidad de elementos que contenga un conjunto, los mismos se


pueden clasificar en conjuntos finitos e infinitos. Si el conjunto tiene un número conocido
de elementos, se dice que es finito, en caso contrario, es decir, no se puede determinar
su longitud, se dice que es infinito. En el ejemplo los numerales 2 y 4 corresponden a
conjuntos finitos, mientras que los restantes son conjuntos infinitos. Un conjunto puede
expresarse especificando todos sus elementos o, describiéndolos mediante las
propiedades que deben tener sus elementos. En el primer caso, se dice que el conjunto
se ha expresado por extensión, y en el segundo por comprensión. Se definen ahora, los
distintos tipos de conjuntos y las operaciones que se pueden dar entre los mismos.

Experimentos Aleatorios

Es por todos conocida la importancia de los experimentos en la ciencia. Un principio


fundamental es que si efectuamos tales experimentos repetidamente bajo condiciones
aproximadamente idénticas se obtienen los mismos resultados. Sin embargo, hay
experimentos en los cuales los resultados no son esencialmente los mismos aun cuando
se repita bajo condiciones aproximadamente idénticas, es decir, experimentos cuyo
resultado no se puede prever antes de ser ejecutado. Tales experimentos se denominan
experimentos aleatorios. La teoría de Probabilidades trata estos experimentos.
Definición (Experimento Aleatorio) Es cualquier operación cuyo resultado no puede ser
predicho con certeza. Un experimento o fenómeno aleatorio es aquél susceptible de dar
varios resultados, no pudiéndose predecir de antemano cuál de ellos va a ocurrir en una

4
ejecución particular del mismo. Por tanto, un experimento aleatorio tiene las siguientes
propiedades:
1. El experimento puede repetirse indefinidamente bajo condiciones similares.
2. Se pueden conocer a priori el conjunto de los posibles resultados del experimento,
pero no se puede predecir un resultado particular.
3. Si el experimento se repite un gran número de veces, la proporción con que cada
resultado aparece tiende a estabilizarse, es decir, tiende a un número.
Definición (Espacio Muestral) Denotado por Ω o S, es el conjunto de todos los posibles
resultados individuales que se pueden dar en un experimento aleatorio. A cada uno de los
resultados elementales en este conjunto se le denomina punto muestral.
Ejemplo: Consideremos las siguientes situaciones
1. Se lanza una moneda al aire y se anota el resultado ocurrido. Si denotamos como
c = {cara} y s = {sello}, entonces Ω = {c, s}
2. Si en el ítem anterior se lanzan dos monedas en vez de una, entonces Ω= {cc,cs,
sc, ss}
3. Se lanzan dos dados sobre una mesa y se anota el resultado ocurrido. Entonces el
espacio muestral está definido por:
(1,1) (1,2) (1,3) (1,4) (1,5) (1,6)
(2,1) (2,2) (2,3) (2,4) (2,5) (2,6)
(3,1) (3,2) (3,3) (3,4) (3,5) (3,6)
Ω=
(4,1) (4,2) (4,3) (4,4) (4,5) (4,6)
(5,1) (5,2) (5,3) (5,4) (5,5) (5,6)
{(6,1) (6,2) (6,3) (6,4) (6,5) (6,6)}
4. Nacen dos niños y se registra el sexo de los mismos, entonces Ω = {vv, vh,hv,hh},
donde h = {hembra} y v = {varón}
5. Se registra el sueldo de los empleados de una empresa de turismo, Ω = {x ∈ IR : x
≥ sueldo mínimo}
6. En un curso de Estadística de 50 alumnos se registra el número de estudiantes que
aprobaron la materia, Ω = {x ∈ N : 0 ≤ x ≤ 50}
7. Se registra el número de turistas en una ciudad, Ω = {x ∈N : x ≥ 0}

Según el número de puntos muestrales que lo conforman, el espacio muestral puede ser
de dos tipos:
1. Finito. Si el número de puntos muestrales que contiene es finito.

5
2. Infinito. Si el número de puntos muestrales es infinito. Si se corresponde con los
números naturales se dice que es infinito numerable. En caso contrario, si se
corresponde con algún intervalo en ℜ, es decir, tiene tantos puntos como hay en
algún intervalo en ℜ, se dice que es infinito no numerable.

Ejemplo: Los items 1,2,3,4 y 6 del ejemplo anterior, son ejemplos de espacios muestrales
finitos. Los items 5 y 7 son espacios muestrales infinitos. El item 5 es infinito no numerable
y el 7 es infinito numerable.
Definición (Eventos): Se le denomina evento a una colección particular de elementos del
espacio muestral, Ω. Es decir, un evento es un conjunto de puntos muestrales. Si el
resultado de un experimento es un elemento de un evento, decimos que dicho evento ha
ocurrido. En un espacio muestral se pueden distinguir los siguientes eventos:
1. Eventos Simples: evento conformado por un único resultado elemental o punto
muestral.
2. Eventos Compuestos: evento conformado por más de un resultado elemental o
punto muestral.
3. Evento Seguro: evento que siempre ocurre, es decir, el espacio muestral, Ω.
4. Evento Imposible: evento que nunca ocurre, es decir, el conjunto vacío, Ø.
5. Eventos Excluyentes: son aquellos eventos que no pueden ocurrir
simultáneamente.
Dado que los eventos son subconjuntos, entonces se pueden definirse entre ellos todas
las operaciones definidas para los conjuntos. De esta forma, se definen los siguientes
eventos:
1. Evento Unión: sean A y B dos eventos en Ω. El evento unión, denotado por A ∪ B,
es el evento que contiene los puntos muestrales que se encuentran en A, B o
ambos. Por tanto, este evento ocurre cuando el resultado obtenido pertenece a A,
B o ambos.
2. Evento Intercepción: sean A y B dos eventos en Ω. El evento intercepción,
denotado por A∩B, es el evento que contiene sólo los puntos muestrales comunes
en A y B. Esto es, es el evento que ocurre cuando el resultado obtenido pertenece
a A y B simultáneamente.

6
3. Evento Complemento: dado un evento A de Ω, su complemento se denota por Ac
y se define como el evento conformado por todos los puntos muestrales de Ω que
no están en A.
4. Evento Diferencia: sean A y B dos eventos en Ω. El evento diferencia, denotado
por A-B, es el evento conformado por los puntos muestrales que están en A y no
están en B. Es el evento que ocurre cuando sucede A pero no B.

Ejemplo Se desea analizar los resultados de una inversión en dos años. En el año i se
registra si hubo (Si) o no (Ni) ganancias. El espacio de posibles resultados, el espacio
muestral, está dado por Ω = {(𝑁1, 𝑁2); (𝑁1, 𝑆2); (𝑆1, 𝑁2); (𝑆1, 𝑆2)}
Se definen los siguientes eventos:
• A={Hay ganancia al menos en el primer año}
• B={A lo sumo un año con ganancia}
Los eventos A y B son entonces, los siguientes conjuntos:
• A = {(𝑆1, 𝑁2); (𝑆1, 𝑆2)}
• B = {(𝑁1, 𝑁2); (𝑁1, 𝑆2); (𝑆1, 𝑁2)}
Los eventos unión, intercepción y diferencia están dados por:
• 𝐶 = 𝐴 ∪ 𝐵 = {(𝑁1, 𝑁2); (𝑁1, 𝑆2); (𝑆1, 𝑁2); (𝑆1, 𝑆2)}
• 𝐷 = 𝐴 ∩ 𝐵 = {(𝑆1, 𝑁2)}
• 𝐸 = 𝐴 − 𝐵 = {(𝑆1, 𝑆2)}
Obsérvese que estos conjuntos representan también eventos. Los conjuntos C, D y E
representan los eventos; seguro, ganancia sólo en el primer año y ganancia en los dos
años, respectivamente.

Probabilidades

Los resultados de un experimento aleatorio no son predecibles con absoluta certeza. Sin
embargo, se puede medir el grado de confianza con que se hace un pronóstico, sobre la
ocurrencia o no de un determinado evento. Para medir la oportunidad, posibilidad o
probabilidad con la que se puede esperar que un evento ocurra es conveniente asignar
un número entre 0 y 1. Si existe seguridad de que el evento ocurrirá se dice que su
probabilidad es uno. Si por el contrario es seguro que el evento no ocurrirá, se dice que
su probabilidad es cero.

7
Definición (Definición clásica de Probabilidades) Si en un experimento aleatorio todos
los resultados elementales son equiprobables (igualmente probables), la probabilidad de
que se presente un determinando evento A se denota por P(A) y se define como el
cociente entre el número de casos favorables a dicho evento y el número total de casos
posibles. Esto es, si n(A) representa el número de casos favorables al evento A y n el
número total de casos posibles, entonces:
𝑛(𝐴)
𝑃 (𝐴 ) =
𝑛
Dado que esta definición requiere que se conozcan todos los posibles resultados del
experimento y además que los mismos sean equiprobables, su aplicación se dificulta
cuando el espacio muestral es infinito o cuando los eventos no son igualmente probables.
Ejemplo Se lanzan dos dados simultáneamente. Sea A el evento "la suma de las dos
caras mostradas es seis". El espacio muestral asociado con este experimento es
(1,1) (1,2) (1,3) (1,4) (1,5) (1,6)
(2,1) (2,2) (2,3) (2,4) (2,5) (2,6)
(3,1) (3,2) (3,3) (3,4) (3,5) (3,6)
Ω=
(4,1) (4,2) (4,3) (4,4) (4,5) (4,6)
(5,1) (5,2) (5,3) (5,4) (5,5) (5,6)
{(6,1) (6,2) (6,3) (6,4) (6,5) (6,6)}

El evento A está dado por


𝐴 = {(1,5); (2,4); (3,3); (4,2); (5,1)}
Luego, la probabilidad de A es
5
𝑃 (𝐴 ) = = 0,139
36

Propiedades de la medida de probabilidad:


1. La probabilidad del evento imposible es cero, es decir, 𝑃(∅) = 0
2. Para un evento A de Ω, se cumple que 𝑃(𝐴𝑐 ) = 1 − 𝑃 (𝐴)
3. Para dos evento A1 y A2 en Ω, tales que A1 ⊂ A2, entonces P(A1) ≤ P(A2)
4. Para dos evento A1 y A2 cualesquiera, entonces
𝑃(𝐴1 ∪ 𝐴2) = 𝑃 (𝐴1) + 𝑃 (𝐴2) − 𝑃(𝐴1 ∩ 𝐴2)

8
Ejemplo: En el ejemplo de lanzamiento de dos dados, considere los eventos A y B dados
por A ={la suma de las dos caras mostradas es seis} y B ={por lo menos uno de los dados
muestra el 2}, respectivamente. Esto es:
• 𝐴 = {(1,5); (2,4); (3,3); (4,2); (5,1)}
(1,2) (2,1) (2,2) (2,3) (2,4) (2,5)
• 𝐵={ }
(2,6) (3,2) (4,2) (5,2) (6,2)
El evento A∪B está dado por

(1,2) (2,1) (2,2) (2,3) (2,4) (2,5)


𝐴∪𝐵 = { }
(2,6) (3,2) (4,2) (5,2) (6,2) (1,5)(3,3) (5,1)
La probabilidad de A∪B es
14
𝑃 (𝐴 ∪ 𝐵 ) =
36

Ahora bien, el evento intersección está dado por


𝐴 ∩ 𝐵 = {(2,4); (4,2); }
2
Por lo tanto 𝑃(𝐴 ∩ 𝐵) = 36

En definitiva
𝑃 (𝐴 ∪ 𝐵 ) = 𝑃 (𝐴 ) + 𝑃 (𝐵 ) − 𝑃 ( 𝐴 ∩ 𝐵 )
5 11 2 14
𝑃 (𝐴 ∪ 𝐵 ) = + − =
36 36 36 36

Sea el evento E "sólo uno de los dados muestra el número 2". Esto es,
(1,2) (3,2) (4,2) (5,2) (6,2)
𝐸={ }
(2,1) (2,3) (2,4) (2,5) (2,6)
La probabilidad del complemento de E o el evento no ocurre un dos en el lanzamiento de
los dos dados viene dado por:
10 26
𝑃 (𝐸 𝑐 ) = 1 − 𝑃 (𝐸 ) = 1 − =
36 36

Probabilidad Condicional

Hay situaciones en las que se conoce de la ocurrencia de un evento A y se desea


determinar la probabilidad de que otro evento B ocurra, dado que ha ocurrido el primero.
Esto es, en la práctica es frecuente que el experimentador se encuentre con situaciones

9
en las que deba dar respuesta a la interrogante: "Si ocurrió el evento A, ¿cuál es la
probabilidad de que ocurra B?" En estas situaciones se dice que se quiere calcular la
probabilidad condicional.

Ejemplo Consideremos las siguientes situaciones

1. En un experimento en el cual se registra la vida de un bombillo, ¿ Cuál es la


probabilidad de que este funcione más de 100 horas dado que ha funcionado 24
horas?.
2. En un experimento de extraer bolas de una caja, en la cual hay 5 bolas blancas y
95 rojas, ¿la probabilidad de que la tercera sea blanca, depende de las 2 primeras
extracciones?
3. Se lanza un dado correcto y se sabe que el resultado es un número par, ¿Cuál es
la probabilidad de que este número sea divisible por 3?

Probabilidad Condicional
Definición: Sean A y B dos eventos, tales que P(B) > 0. Entonces la probabilidad
condicional de que ocurra A dado que ocurrió B, denotado por P(A/B), se define como:
𝑃(𝐴 ∩ 𝐵)
𝑃(𝐴⁄𝐵) =
𝑃(𝐵)
Ejemplo: En el ejemplo anterior
1. Sea
A ={El bombillo funciona más de 100 horas}
B ={El bombillo funciona 24 horas}
P[A/B] se lee como la probabilidad de que ocurra el evento A dado que ocurrió el
evento B, es decir, la probabilidad de que un bombillo funcione más de 100 horas
dado que ha funcionado 24 horas.
2. Sea
Bi ={La bola extraída en la i-ésima extracción es blanca }
Ri ={La bola extraída en la i-ésima extracción es roja }
La probabilidad deseada se puede escribir como P[B3/.] donde (.) puede ser R1 ∩
R2 ó B1 ∩B2 ó B1 ∩R2 ó R1∩B2

10
Ejemplo: A un grupo de 240 personas se les consulta respecto al nivel de estrés generado
en su actividad laboral; discriminado por sexo.

Bajo (S) Medio (C) Alto (NS)


Masculino (M) 61 37 12
Femenino (F) 85 30 15

Bajo (S) Medio (C) Alto (NS) Total


Masculino (M) 61 37 12 110
Femenino (F) 85 30 15 130
Total 146 67 27 240

Si se está interesado en la probabilidad de que una persona tenga niveles bajos de estres,
la misma puede obtenerse bajo dos situaciones: sin conocer y conociendo el sexo

Bajo la primera situación la probabilidad es:

146
𝑃 (𝑆 ) = = 0,608
240

Ahora bien, si por ejemplo, se conoce que la persona es del sexo femenino, la probabilidad
de tener niveles bajos de estrés

85
𝑃(𝑆 ∩ 𝐹) 240 85
𝑃 (𝑆/𝐹 ) = = = = 0,654
𝑃(𝐹) 130 130
240

Obsérvese que el hecho de conocer el sexo de la persona aumenta la probabilidad de


nivel bajo estrés de 0,608 a 0,654. Es decir, el hecho de ser mujer la probabilidad de nivel
bajo de estrés es mayor.

11
Ejemplo: En un colegio cualquiera el 45% de los estudiantes prefieren tomar sesiones con
el psicólogo para tratar problemas de autoestima (M), el 27% prefiere hablar con su tutor
academico (E), y el 18% aprueba ambas alternativas. Si se selecciona a un estudiante en
forma aleatoria:
• La probabilidad de que tome al menos una de las dos alternativas es:
𝑃(𝐸 ∪ 𝑀) = 𝑃 (𝐸) + 𝑃 (𝑀) − 𝑃(𝐸 ∩ 𝑀)
𝑃(𝐸 ∪ 𝑀) = 0,27 + 0,45 − 0,18 = 0,54
• Si se sabe que prefiere sesiones con el psicólogo, la probabilidad de que también
desee hablar con el tutor academico:

𝑃(𝐸 ∩ 𝑀) 0,18
𝑃(𝐸/𝑀) = = = 0,4
𝑃(𝑀) 0,45

• Dado que dicho estudiante le gusta hablar con el tutor académico, la probabilidad
de que hable con el psicólogo es
𝑃(𝑀 ∩ 𝐸) 0,18
𝑃(𝑀/𝐸) = = = 0,667
𝑃(𝐸) 0,27

Tema 2: Variable Aleatoria

En muchas ocasiones la realización de un experimento aleatorio produce resultados que


no son valores numéricos. Sin embargo, para muchos efectos, en particular para el cálculo
de probabilidades, resulta más fácil utilizar valores numéricos en lugar de trabajar
directamente con los elementos del espacio muestral. Una forma de lograr esto es
asociando a cada suceso elemental del espacio muestral, un valor numérico. Es más
interesante y útil conocer el número de veces que se ha presentado una característica en
lugar de saber cual evento ocurrió. Esto es, a cada uno de los elementos del espacio
muestral se le asigna un numero real, que indica el número de veces que esta presente
la característica de interés. Esta identificación numérica de los eventos hace más sencillo
el cálculo de Probabilidades. La asignación de este valor numérico se realiza a través de
una función la cuál se denomina variable aleatoria. Algunos ejemplos son:

12
• El experimento consiste en lanzar dos dados y es de interés la suma de los dos
dados.
• El experimento consiste en observar si un vuelo de avión en particular sale con
atraso o no; es de interés el número de veces que el vuelo se atrasa en un mes.
• Se registra la entrada de varios turistas aun lugar determinado. El interés es el
número de turistas de la tercera edad.
• En un proceso de control de calidad se seleccionan muestras de veinte artículos y
se está interesado en el número de defectuosos.
Si el resultado del experimento es numérico porque contamos o medimos, por ejemplo, la
estatura de una población, los posibles valores de la variable coinciden con los resultados
del experimento. Sobre un mismo espacio muestral se pueden definir varias variables
aleatorias.
En esta sección se considerará el concepto de variable aleatoria, así como los distintos
tipos de variables aleatorias, lo que permitirá posteriormente manejar los modelos
estadísticos para describir los posibles resultados de un experimento aleatorio y asignar
probabilidades a los eventos de interés.

Definición (Variable Aleatoria Discreta) Una variable aleatoria X se dice que es discreta
si el número posible de valores de X, es decir su rango, es finito o infinito numerable. Esto
es, una variable aleatoria discreta es aquella que sólo puede tomar un número finito o
infinito numerable de valores. En general, todas aquellas variables asociadas con
experimentos en los que se cuenta el número de veces que ocurre un evento son
discretas.
Definición (Variable Aleatoria Continua) Una variable aleatoria X se dice que es
continua si el número posible de valores de X, es decir, su rango es infinito no numerable.
Esta definición establece que X es continua, si puede tomar cualquier valor en un intervalo
(a,b), pudiendo ser 𝑎 = −∞ 𝑦 𝑏 = +∞. Generalmente las variables aleatorias continuas se
asocian con experimentos aleatorios cuyos Puntos muestrales son originados por
procesos de medición (altura, peso, distancia).

Tema 3: Modelos Probabilísticos Discretos

Modelo Binomial

13
Supóngase que se está llevando a cabo un proceso de control de calidad, sobre un
servicio, en el que se califica dicho servicio. Cada evaluación se denomina una prueba y
en cada una de ellas hay una probabilidad asociada con el evento "servicio inconforme".
Estas pruebas tienen sólo dos posibles resultados; inconforme o conforme. Si la
probabilidad no cambia de una prueba a otra, entonces se dice que son pruebas
independientes y se les conoce como pruebas Bernoulli. Este ensayo describe el modelo
de probabilidad más sencillo. El modelo Bernoulli da origen al modelo de probabilidad
discreto más común, el modelo Binomial. Este modelo es útil cuando se quiere conocer la
distribución de probabilidad, por ejemplo, de la variable aleatoria número de éxitos en n
ensayos Bernoulli independientes. Muchos experimentos en la vida real consisten en
efectuar una serie de pruebas de Bernoulli y son análogos al lanzamiento de una moneda
no balanceada. Por tanto, un experimento binomial se define de la siguiente manera:
Definición (Experimento Binomial) Un experimento binomial es aquel que tiene las
siguientes características:
• El experimento consta de un número determinado, n, de ensayos idénticos e
independientes.
• Cada ensayo tiene dos resultados posibles. A uno de ellos lo llamamos éxito
(representado por la letra E) y al otro fracaso (representado por la letra F). La
probabilidad de tener éxito en un ensayo es igual a un valor p, y permanece
constante de un ensayo a otro. La probabilidad de un fracaso es igual a 1−p.
• La variable aleatoria, X, es el número de éxitos observados en los n ensayos.
Por lo tanto, para determinar si un experimento es binomial es necesario examinar si éste
posee las características listadas antes. Es importante señalar que un éxito no es
necesariamente "lo mejor", tal como se usa coloquialmente la palabra.
Ejemplo: El 5% de los servicios ofrecidos por cierto hotel son no conformes. Se
seleccionan aleatoriamente 10 servicios realizados en un día y se observa si son
calificados como conforme o no conforme. ¿Se trata de un experimento binomial? Para
responder, debemos determinar si el experimento cumple con las características
establecidas antes.
• El experimento consiste en 10 ensayos idénticos. Cada uno de ellos consiste en
seleccionar un servicio y observar si está o no conforme. Además, los ensayos son
independientes porque el hecho de que uno esté o no conforme no afecta el estado
de otro servicio.

14
• Cada ensayo tiene dos resultados posibles: El servicio es no conforme (éxito) o el
servicio es conforme (fracaso).
• La probabilidad de que un servicio este no conforme permanece constante en cada
selección y es igual a 0.05.
• La variable aleatoria de interés es X, el número de servicios no conforme.
Por lo tanto, el experimento es binomial.
Definición (Distribución Binomial) Considérese la realización de n ensayos bernoulli
independientes con una probabilidad p de éxito. Sea X la variable aleatoria "número de
éxitos". Entonces se dice que X se distribuye binomial con parámetros n y p, X ∼ B(n,p),
y su función de probabilidad está dada por
𝑛
𝑃(𝑋 = 𝑥) = ( ) 𝑝 𝑥 (1 − 𝑝)𝑛−𝑥
𝑥

Ejemplo Un agente de seguros vende pólizas a 10 personas, los cuales tienen la misma
edad. Se sabe que la probabilidad de que un individuo con esa edad viva 30 años más es
3
de 5 determine la probabilidad de que al cabo de los 30 años vivan:

1. Cinco individuos.
2. A lo sumo seis.
3. Sólo uno.
4. Al menos 2.
la variable X = número de individuos vivos al transcurrir los 30 años, es una variable
3
binomial con n = 10 y p = 5
10
1. 𝑃(𝑋 = 5) = ( ) 0,65 0,45 = 0,2007
5
2. 𝑃(𝑋 ≤ 6) = 𝑃(𝑋 = 1) + 𝑃(𝑋 = 2) + ⋯ + 𝑃(𝑋 = 6) = 0,61772
10
3. 𝑃(𝑋 = 1) = ( ) 0,61 0,49 = 0,00157
1
4. 𝑃(𝑋 ≥ 2) = 1 − (𝑃(𝑋 = 0) + 𝑃(𝑋 = 1)) = 0,9983

Modelo Poisson

Su nombre se debe a su autor, Siméon Denis Poisson, probabilista del siglo XIX. La misma
representa una generalización de la distribución binomial cuando sobre un experimento
aleatorio se define una variable aleatoria X={número de éxitos independientes que ocurren

15
para un intervalo de medida específico (tiempos, lugares, espacios)}, y cuya probabilidad
de ocurrencia es pequeña. También se conoce como la distribución de “eventos raros",
se usa como aproximación a la binomial cuando el tamaño demuestra es grande y la
proporción de éxitos es pequeña. La distribución Poisson es una de las distribuciones
discretas ampliamente utilizada, y puede servir como un modelo para un gran número de
experimentos. Por ejemplo, si estamos modelando un experimento en el cual la variable
de interés es el número de ocurrencias de cierto evento en un intervalo de tiempo
determinado, dicha variable aleatoria puede modelarse usando la distribución Poisson.
Otra área de aplicación es en distribuciones espaciales, donde, por ejemplo, la distribución
Poisson puede ser usada para modelar el número de veces que está presente un evento
en un espacio determinado. Por lo tanto, la distribución Poisson, se aplica en los
siguientes ejemplos específicos:
1. Número de llamadas telefónicas en un intervalo de tiempo.
2. Número de juegos pospuestos por lluvia durante la temporada.
3. Número de bacterias en un determinado cultivo.
4. Número de errores ortográficos en una página.
En conclusión, la distribución de probabilidad de Poisson a menudo proporciona un buen
modelo de la distribución de probabilidad para el número, X, de eventos poco comunes,
que se presentan en el espacio, tiempo, volumen o cualquier otra dimensión, donde su
único parámetro, λ es el valor promedio de X.

Definición (Distribución de Poisson) Sea X la variable aleatoria "número de éxitos en


una unidad de tiempo, área, volumen o espacio". Entonces se dice que X se distribuye
Poisson con parámetro λ, X ∼ P(λ), y su función de probabilidad está dada por
𝑒 −𝜆 𝜆𝑥
𝑃(𝑋 = 𝑥) =
𝑥!
Ejemplo Si un hotel procesa en promedio 6 reservaciones por día, cuál es la probabilidad
de que reciba:
1. Cuatro reservaciones en un día dado.
2. Al menos 2 reservaciones en un día dado.
3. 10 reservaciones en dos días consecutivos.
La variable X=número de reservaciones promedio por día, es una variable aleatoria
poisson con parámetro λ = 6. De esta forma

16
𝑒 −6 64
1. 𝑃(𝑋 = 4) = = 0.1339
4!
2. 𝑃(𝑋 ≥ 2) = 1 − 𝑃(𝑋 < 2) = 0,98
𝑒 −12 1210
3. 𝑃(𝑋 = 10) = = 0.1048
10!

Tema 4: Modelos Probabilístico Normal

Como se dijo en el tema anterior, en muchas situaciones de la vida real surge la necesidad
de dar respuesta a interrogantes como ¿Cuál es la probabilidad de un individuo en
particular este entre 1,64 y 1,80 metros?, ¿Cuál es la probabilidad de que el ingreso
promedio de los habitantes de determinada ciudad sea superior a 1500 dolares?.
Respuestas a estas interrogantes pueden ser dada haciendo uso de las distribuciones de
probabilidad. En ambas situaciones se hace referencia a variables aleatorias continuas,
por lo que para dar respuesta a dichas interrogantes se debe hacer uso de distribuciones
de probabilidad continuas. Una distribución de probabilidad se llama continua si su función
de distribución es continua. En una distribución de probabilidad discreta un evento con
probabilidad cero es un evento imposible. Esto no en el caso de una variable aleatoria
continua, pues entre dos posibles valores de la misma hay infinitos valores posibles,
aunque la probabilidad de ese intervalo no es cero, si lo es la de cada uno de esos valores
individuales. Esto se debe al hecho de que la probabilidad de que X tome algún valor en
un conjunto infinito como un intervalo, no puede calcularse mediante la adición simple de
probabilidades de valores individuales. Realmente, cada valor tiene una probabilidad
de ocurrencia infinitesimal, tan pequeña que estadísticamente equivale a cero. Existen
muchas leyes de probabilidad continuas, siendo la más común e importante la normal. En
este tema se considera esta distribución.

Distribución Normal

Denominada también distribución de Gauss o distribución gaussiana, es un modelo de


probabilidad de gran importancia pues permite modelar numerosos fenómenos naturales,
sociales, psicológicos, entre otros. Algunos ejemplos son:
• Caracteres morfológicos de individuos (personas, animales, plantas,etc) entre
ellos: tallas, pesos, diámetros, perímetros.

17
• Caracteres fisiológicos, por ejemplo: efecto de una misma dosis de un fármaco, o
de una misma cantidad de abono.
• Caracteres sociológicos, por ejemplo: consumo de cierto producto por un mismo
grupo de individuos, puntuaciones de examen.
• Caracteres psicológicos, por ejemplo: cociente intelectual, grado de adaptación a
un medio,...
• Errores cometidos al medir ciertas magnitudes.
• Valores estadísticos muestrales, por ejemplo : la media.
• Otras distribuciones como la binomial o la de Poisson son aproximaciones
normales

La distribución normal fue reconocida por primera vez por el francés Abraham de Moivre
(1667-1754). Posteriormente, Carl Friedrich Gauss (1777-1855) elaboró desarrollos más
profundos y formuló la ecuación de la curva, de ahí que también se le conozca, más
comúnmente, como la campana de Gauss". El termino ”campana” proviene del hecho que
la gráfica de su función de densidad tiene una forma acampanada y es simétrica respecto
de su media. La distribución normal aparece como el límite de varias distribuciones de
probabilidad continuas y discretas, es decir otras distribuciones bajo ciertas condiciones
se pueden aproximar a este modelo. Representa la distribución de mayor aplicación en
estadística y muchos tests estadísticos están basados en la normalidad o, en una
supuesta "normalidad".
Definición (Distribución Normal): Sea X una variable aleatoria de tipo continuo. Se dice
que X sigue una distribución normal con media μ(−∞< μ < +∞) y varianza σ2 (σ > 0),
lo que se denota X ∼ N(μ, σ2), si su función de densidad de probabilidad está dada por

1 −(𝑥−𝜇 )2
𝑓 (𝑥 ) = 𝑒 2𝜎2
√2𝜋𝜎 2

18
Propiedades de la Distribución Normal

La distribución Normal tiene las siguientes propiedades:


• Es unimodal, es decir, tiene una única moda. Su valor coincide con la media y la
mediana
• Su curva es asintótica al eje de abscisas. De esta forma, puede tomar cualquier
valor en el intervalo (−∞,+∞).
• Es simétrica respecto a su media.
• Existe una familia de distribuciones normal, con una forma común. Cada miembro
de esta familia está definido por los valores de su media y su varianza. La media
indica la posición de la campana, de modo que para diferentes valores de la misma
la gráfica es desplazada a lo largo del eje horizontal. La desviación estándar
determina el grado de apuntamiento de la curva.
En la figura, se muestran los gráficos de la distribución normal para varios valores de μ
manteniendo fija σ. Aquí se aprecia que el gráfico de desplaza a la derecha a medida de
que el valor de μ aumenta. Por otro lado, en la figura 2, se varía el valor de σ
manteniendo fijo el valor de μ, provocando esta situación que a medida que aumenta el
valor de σ la gráfica se va extendiendo sobre el eje X, es decir las colas se hacen mas
grandes.
• El área bajo la curva comprendido entre:
o más o menos una desviaciones estándar de la media es igual a 68,3%.
o más o menos dos desviaciones estándar de la media es igual a 95,4%.
o más o menos tres desviaciones estándar de la media es igual a 99,7%.

19
Figura 2

De la familia de distribuciones normal, la más utilizada es la distribución normal estándar,


la cual es una distribución normal con media 0 y varianza 1.

Definición (Distribución Normal Estándar): Sea Z una variable aleatoria de tipo


continuo. Se dice que Z sigue una distribución normal con parámetros µ = 0 y σ= 1, lo que
se denota Z ∼ N(0,1), si su función de densidad de probabilidad está dada por:

1 −(𝑧)2
𝑓 (𝑧 ) = 𝑒 2
√2𝜋
Su importancia radica en que existen tablas publicadas que permiten calcular en forma
sencilla la probabilidad de observar un dato menor o igual a un cierto valor z. Para
determinar las áreas bajo la curva de función de densidad normal se requiere integrar la
su función de densidad, procedimiento para el cual no existe una solución exacta.
Esta tabla, es una tabla de doble entrada y presenta la probabilidad para Z < z, para
valores de z en el intervalo (−3,9;3,9). En la columna de la izquierda se encuentra la parte
entera y el primer decimal de z, y en la fila superior las centésimas de z. En la casilla
donde se interceptan la fila y la columna correspondientes, se ubica el valor de la
probabilidad de que Z < z. Mediante el proceso inverso podemos obtener el valor z que
tiene a su izquierda un área o probabilidad igual α.

20
Definición (Percentil de la distribución normal estándar): Considérese Z ∼ N(0,1) y α
un valor en el intervalo (0,1). Sea 𝑧𝛼 el número real que satisface 𝑃(𝑍 > 𝑧𝛼 ) = 𝛼. Entonces
a 𝑧𝛼 se le denomina el percentil (1−α)100 de la distribución normal estándar. De esta
forma, 𝑧𝛼 es aquel valor de la distribución normal estándar que tiene a su izquierda
(derecha) un área igual a 1−α (α). Para encontrar su valor, obsérvese que 𝑃(𝑍 ≤ 𝑧𝛼 ) =
1 − 𝛼. Por tanto, usando las tablas de la distribución normal estándar se debe ubicar el
valor z que acumule una probabilidad de 1−α, este valor será 𝑧𝛼 .

Ejemplo 1: Obtener el valor Z que tiene a su derecha un área igual a 0,05. Este es el
percentil 95 y se denota por 𝑧0,05. Luego, usando la tabla de la normal estándar se tiene
que 𝑧0,05 = 1,645.
Ejemplo 2: Obtener el valor Z que tiene a su izquierda un área igual a 0,025. El valor
solicitado es el percentil 2,5, denotado por 𝑧0,975. Usando la tabla de la normal estándar
se tiene que 𝑧0,975 = −1,96. Obsérvese que este valor es el mismo valor que tiene a su
derecha una área igual a 0,025, pero con signo negativo, es decir, 𝑧1−𝛼 = −𝑧𝛼 . Esto se
debe a la simetría de la distribución normal alrededor de su media.
Ejemplo 3 Si Z ∼ N(0,1), obtener: P(Z < −0,1), P(Z < 0,1), P(Z > 1,5).
Usando la tabla de la distribución normal estándar se tiene que:

P(Z < −0,1) = 0,4602, P(Z < 0,1) = 0,5398, P(Z > 1,5)= 0,0668

Cualquier variable aleatoria X que siga una distribución N(μ,σ), se puede transformar en
una variable Z con una distribución normal estándar, simplemente aplicando la
conversión:

Esta transformación recibe el nombre de estandarización ó tipificación. Una de las


ventajas de la estandarización es que la distribución no depende de los parámetros, pues
en este caso la media siempre será cero y la varianza uno. Por tanto, la distribución es
única y el gráfico de la función de densidad también. De esta forma, la estandarización
resulta de especial interés en la práctica, pues como se dijo antes, existen tablas

21
publicadas asociadas con la distribución normal estándar, lo que simplifica el cálculo de
probabilidades asociadas con cualquier distribución normal.

Ejemplo 4 Sea X ∼ N(50,5). ¿Cuál es la probabilidad de que X tome un valor entre 45 y


55?.
La probabilidad que se desea calcular es P(45 ≤ X ≤ 55). Estandarizando se tiene que
𝑃(45 ≤ 𝑋 ≤ 55) = 𝑃 (𝑋 ≤ 55) − 𝑃(𝑋 ≤ 45)
55 − 50 45 − 50
𝑃(45 ≤ 𝑋 ≤ 55) = 𝑃 (𝑍 ≤ ) − 𝑃(𝑍 ≤ )
5 5
𝑃(45 ≤ 𝑋 ≤ 55) = 𝑃 (𝑍 ≤ 1) − 𝑃 (𝑍 ≤ −1) = 0,8413 − 0,1587 = 0,6826

Ejemplo 6: Supóngase que el peso de ciertos pacientes sigue una distribución


aproximadamente normal, con una media de 65 Kg y una desviación estándar de 2 Kg.
¿Cuál es la probabilidad de que un paciente elegido al azar tenga un peso superior a 70
Kg?.
Procediendo de igual manera que en el ejemplo anterior, se calcula la probabilidad
solicitada.
𝑃(𝑋 > 70) = 1 − 𝑃(𝑋 ≤ 70)
70 − 65
𝑃(𝑋 > 70) = 1 − 𝑃(𝑍 ≤ )
2
𝑃(𝑋 > 70) = 1 − 𝑃 (𝑍 ≤ −2,5) = 1 − 0,9938 = 0,0062.

22
PSICOLOGÍA EN LINEA
ESTADÍSTICA APLICADA
3 créditos

Profesor Autor:
Ing. Víctor Márquez, Msc, PhD

Titulaciones Semestre

• PSICOLOGIA
Primero

Tutorías: El profesor asignado se publicará en el entorno virtual de aprendizaje


online.utm.edu.ec), y sus horarios de conferencias se indicarán en la sección CAFETERÍA
VIRTUAL.

PERÍODO OCTUBRE 2020 MARZO 2021


Índice

Tabla de contenido

Resultado de aprendizaje de la asignatura ................................................................................................... 2


...................................................................................................................................................................... 2
Unidad 3 Inferencia Estadística ..................................................................................................................... 2
Tema 1. Introducción .................................................................................................................................... 2
Conceptos Básicos ........................................................................................................................................ 3
Estimación para la media de una Población.................................................................................................. 4
Estimación para la diferencia de dos promedios poblacionales 1 −  2 ..................................................... 6

cuando las muestras son independientes ..................................................................................................... 6


PRUEBA DE HIPÓTESIS ................................................................................................................................ 10
PRUEBA DE HIPOTESIS PARA LA MEDIA DE UNA POBLACIÓN CON DISTRIBUCIÓN NORMAL ..................... 12

1
Resultado de aprendizaje de la asignatura

Dotar al estudiante de las capacidades y destrezas necesarias para aplicar técnicas de


análisis estadístico a la resolución de problemas de diversa índole en los que es necesario
realizar gran variedad de tareas específicas que acompañan a cualquier proceso de
análisis de datos, con el objeto de elaborar conclusiones que faciliten la toma de
decisiones en situaciones complejas que se caracterizan por estar sometidas a distintos
grados de incertidumbre.

ESTADÍSTICA APLICADA

Unidad 3 Inferencia Estadística

Resultado de aprendizaje de la unidad: Construir estimaciones y pruebas de hipótesis


con la finalidad de pronosticar y refutar afirmaciones, con un nivel de confianza, sobre los
parámetros desconocidos bajo supuestos de normalidad

Tema 1. Introducción

La estimación consiste en un número obtenido mediante el estadístico muestral,


llamado estimación puntual o por medio de dos valores numéricos que definen un
intervalo, el cual contiene el parámetro estimado con cierto grado de confianza, llamado
intervalo de confianza.
Razón para estimar
Las estimaciones se utilizan porque se deben tomar decisiones racionales, sin que tengan
la información pertinente completa y con una gran incertidumbre acerca de lo que pueda
deparar el futuro, pero con la intención de que las estimaciones constituyan una buena
aproximación de los parámetros desconocidos de la población.

2
Conceptos Básicos

Parámetro: (  ) Es una característica de la población, es por lo general desconocido.


Ejemplos:
• 𝜇: media poblacional
• 𝜋: Proporción Poblacional
• 𝜎 2 : Varianza poblacional
También se puede estimar funciones de parámetros poblacionales. Esto con la
finalidad de comparar características de dos poblaciones. Ejemplo:
• 𝜇1 − 𝜇2 : Diferencia de medias poblacionales
𝜎12
• : Razón de varianzas poblacionales
𝜎22

Estadístico: Es una función de la muestra aleatoria ejemplo:

• 𝑋̅: Media Muestral


• 𝑆 2 : Varianza muestral

Estimador: ( ˆ ) Es un estadístico que tiene como objetivo predecir (estimar) un


parámetro desconocido o una función de parámetros desconocidos. Ejemplo:
• 𝑋̅: Estimador de la media poblacional
• 𝑆 2 : Estimador de la varianza poblacional
• 𝑋̅1 -𝑋̅2 : Estimador de la diferencia de medias poblacional
Estimación: Es el valor que da cuando se evalúa el estimador Ejemplo: X = 55kg

Cuadro Resumen

Parámetro  Estimador ˆ
Descripción (Desconocido) Distribución
Poblacional (Conocido)
Hipótesis Muestral
Z (Normal)
Promedio  X y
“T” (T Student)
Z (Normal)
Diferencia de
dos Promedios
1 −  2 X1 − X 2 y
“T” (T Student)

Varianza 2 S2
2
(Chi-Cuadrado)
Cociente de  2
1 S 1
2

F
dos Varianzas  2
2 S 2
2
(F de Snedecor)
Proporción   Z
(Normal)

3
Diferencia de
Z
dos 1 −  2 1 −  2 (Normal)
proporciones

Estimación para la media de una Población 


Estimación Puntual: El mejor estimador puntual de la media poblacional  esta dado
por la media muestral X

Estimación por Intervalo de confianza.


Para estimar la media poblacional suponiendo normalidad en la población de estudio,
existen dos casos, Cuando la varianza e conocida o desconocida.

• Caso 1 Varianza conocida: Cuando se conoce la desviación estándar poblacional,


sin importar que el tamaño de la muestra sea grande o pequeño y la población de
donde se extrae la muestra es normal. La fórmula para construir una estimación
mediante un intervalo y in nivel de confianza especifico es:
𝜎
𝑋̅ ± 𝑧1−𝛼/2 ∙
√𝑛
Donde:
• 𝑋̅: es la media muestral
𝛼
• 𝑧1−𝛼/2 : es el percentil (1 − 2 ) de la distribución normal estándar
• 𝜎: desviación estándar poblacional
• 𝑛: tamaño de la muestra
Ejemplo: Se toma una muestra de 48 pacientes, a los cuales se le pregunto el tiempo que
sienten que deben consultar al psicólogo después de su última visita. Se obtuvo un
promedio de 12.5 días. Se sabe por experiencia que la desviación estándar poblacional
del tiempo es 1.8 días. Hallar un intervalo para estimar el tiempo de recorrido con un 95%
de confianza.
Datos:
n=48 pacientes.

𝑿=12.5 días
𝜎= 1.8 días
95% de confianza
Formula:
𝜎
𝑋̅ ± 𝑧1−𝛼/2 ∙
√𝑛

4
Se sustituye en la fórmula:
1.8
12.5 ± 𝑧0,975*
√48

Buscar el valor de 𝑧0,975 en la tabla “Z”, el cual es 1,96

12.5 ± 1.96 * 0.26


12.5 ± 0.51
0.51 = 11.99
12.5 ± {
0.51 = 13.01
Se interpreta el intervalo:
(11.99 < 𝜇 < 13.01)
El verdadero promedio del tiempo que necesitan para su próxima cita con el psicólogo
esta entre 11.99 y 13.01 horas con una confianza del 95 %.

• Caso 2: Varianza desconocida.


Cuando se desconoce la desviación estándar poblacional 𝜎, la formula del intervalo
𝛼
de confianza cambia. Se utiliza el percentil de la distribución t de student; y
2
además se sustituye la desviación estándar poblacional ( 𝜎) por la desviación
estándar muestral (S):

S
X  t n −1, 2
n

Ejemplo:
Se desea hacer un estudio del tiempo que se tarda un psicólogo en diagnosticar a sus
pacientes. Para ello se muestrea a siete pacientes nuevos y se registra el tiempo (en
horas) que tarda el psicólogo en determinar un primer diagnóstico: 9.8; 10.2; 10.4; 9.8;
10.0; 10.2 y 9.6 horas. Encuentre un intervalo de confianza del 95% para la media del
tiempo.

Datos:
n= 7

Para poder obtener el promedio (𝑋) y desviación estándar (S ) se debe utilizar los
siguientes datos: 9.8; 10.2; 10.4; 9.8; 10.0; 10.2; 9.6 horas.

𝑿= 10
S= 0.28

5
95% de confianza

Formula:
S
X  t n −1, 2
n

Se sustituye en la fórmula:

0.28
10 ± (𝑡7−1;𝛼/2 )*
√7

10 ± (𝑡6;0,025) * 0.1058

Buscar el valor de (𝑡6;0,025) en la tabla “t de Student”

10 ± 2.447 * 0.1058
10 ± 0.2588
0.2588 = 10.2588
10 ± {
0.2588 = 9.7412
Se interpreta el intervalo:
(9.7412 < 𝜇 < 10.2588)
El verdadero promedio del tiempo de demora para el primer diagnóstico esta entre 9.7412
y 10.2588 horas; con una confianza del 95%.

Estimación para la diferencia de dos promedios poblacionales 1 −  2


cuando las muestras son independientes

Para la estimación por intervalos de confianza para la diferencia de medias, igual que en
la sección anterior, existen dos casos.

• Las varianzas son conocidas: Si las varianzas de las poblaciones de estudio son
conocidas la fórmula para estimar la diferencia de medias a través de un intervalo
de confianza es la siguiente:

𝜎12 𝜎22
𝑋̅1 − 𝑋̅1 ± 𝑍1−𝛼 ∙ √ +
2 𝑛1 𝑛2

6
Ejercicio: Se desea estudiar el tiempo de efecto de dos marcas de sedantes de fuerte
impacto para pacientes críticos. Cuarenta observaciones de la marca A mostraron un
tiempo medio efectivo de 32 horas, 45 observaciones de la marca B mostraron un tiempo
medio de 30 horas. La experiencia indica que las desviaciones estándar para ambas
marcas son iguales a cuatro horas. Calcule un intervalo de confianza del 95% para la
diferencia media del tiempo efectivo de las dos marcas? ¿Cuál marca recomienda usted?
Datos:
• 𝑋̅1 = 32
• 𝑋̅2 = 30
• 𝑛1 =40
• 𝑛1 =45
• 𝜎1 =4
• 𝜎2 =4
• 𝑍1−𝛼 = 𝑍0,975 = 1,96
2

Sustituyendo en la formula tenemos:

16 16
32 − 30 ± 1,96 ∙ √ +
40 45

2 ± 1,70
El intervalo de la diferencia del tiempo promedio de efectividad de las marcas A y B es
(0,3 ; 3,70) horas. Como en el intervalo no incluye el cero. Podemos afirmar con un 95%
de confianza que la efectividad promedio de ambas marcas es diferente, siendo mayor la
de la marca A (esto por ser un intervalo netamente positivo).

NOTA: en el caso que el intervalo de confianza hubiese contenido el cero. Entonces


afirmaríamos con un 95% de confianza que la duración media del efecto del sedante
en ambas marcas es igual.

7
• Las varianzas son desconocidas: En el caso de que las varianzas son
desconocidas, existen dos métodos para estimar las diferencias de medias:
o Asumiendo varianzas iguales (𝜎12 = 𝜎22 )

1 1
𝑋̅1 − 𝑋̅1 ± 𝑡𝑛1 +𝑛2 −2;𝛼/2 ∙ 𝑆𝑝 √ +
𝑛1 𝑛2

(𝑛1 − 1) ∙ 𝑆12 + (𝑛2 − 1) ∙ 𝑆22


𝑆𝑝 = √
𝑛1 + 𝑛2 − 2

Asumiendo varianzas diferentes (𝜎12 ≠ 𝜎22 )

𝑆12 𝑆22
𝑋̅1 − 𝑋̅1 ± 𝑡𝑣;𝛼/2 ∙ √ +
𝑛1 𝑛2
2
𝑆2 𝑆2
( 1 + 2)
𝑛1 𝑛2
𝑣= 2 2
𝑆2 𝑆2
( 1) ( 2)
𝑛1 𝑛2
𝑛1 − 1 + 𝑛2 − 1
EJEMPLO:
Se desea hacer una comparación del grado de violencia en los colegios de dos parroquias.
Para ello se selecciona 10 colegios de cada parroquia y se registra el número de casos
de violencia ocurrido en el último periodo académico:

parroquia A: 200 230 220 190 202 105 300 206 199 186
parroquia B: 409 290 390 380 310 420 530 430 396 402

Obtenga el intervalo de confianza para la diferencia del número de casos de violencia


entre las parroquias A y B. con un nivel de confianza del 95%. Asumir varianzas iguales.
Desarrollo:
Primero debemos calcular las medias u desviaciones muestrales.
𝑋̅𝑎 = 203,8 𝑋̅𝑏 =395,7
𝑛𝑎 = 10 𝑛𝑏 =10

𝑆𝑎 =47,74 𝑆𝑏 =65,67

8
Como se asumen varianzas iguales se usará la siguiente formula:

1 1
𝑋̅1 − 𝑋̅1 ± 𝑡𝑛1 +𝑛2 −2;𝛼/2 ∙ 𝑆𝑝 √ +
𝑛1 𝑛2

(𝑛1 − 1) ∙ 𝑆12 + (𝑛2 − 1) ∙ 𝑆22


𝑆𝑝 = √
𝑛1 + 𝑛2 − 2

Primero calculamos 𝑆𝑝

9 ∙ 47,742 + (9) ∙ 65,672


𝑆𝑝 = √ = 57,40
10 + 10 − 2

Ahora sustituimos en la fórmula:

1 1
203,8 − 395,7 ± 𝑡18;0,025 ∙ 57,40√ +
10 10

1 1
−191,9 ± 2,1009 ∙ 57,40√ +
10 10

−191,9 ± 53,93

La verdadera diferencia de los promedios del número de casos de violencia promedio


entre A y B esta entre (-245,83 y -137,97) con un nivel de confianza de 95%.

Como el intervalo es totalmente negativo, el promedio de la parroquia A es menor que el


B; por lo tanto; La parroquia B tiene más casos de violencia, en promedio, que la parroquia
A.

9
PRUEBA DE HIPÓTESIS

¿Qué es una hipótesis?

Es una afirmación con respecto a una característica o parámetro de una o más


poblaciones.

La verdad o falsedad de una hipótesis estadística nunca se sabe con absoluta


certidumbre a menos que examinemos a toda la población

La aceptación de una hipótesis simplemente implica que los datos no dan suficiente
evidencia para rechazarla
El rechazo de una hipótesis implica que los datos dan suficiente evidencia para
rechazarla.

Hipótesis Nula H 0

Una hipótesis nula con respecto a un parámetro poblacional siempre se establecerá de


modo específico un valor “exacto” del parámetro. Ejemplo:

H 0 :  = 5kg ;

H 0 :  = 0,5 ;

10
Hipótesis Alternativa H 

Permite la posibilidad de varios valores al parámetro. Ejemplo:

H  :  > 8cm;

H  :  < 0,80;

H  :   6meses

¿En qué consiste una prueba de hipótesis?


Es una serie de procedimientos que se realiza para probar una hipótesis que se asume
cierta, partiendo de esta premisa se toma una muestra de la población y si la probabilidad
es muy pequeña (digamos menor a un nivel de significancia α) de que esa muestra
pertenece a la población con la hipotesis nula cierta, entonces se rechaza la hipótesis nula
y se acepta la hipótesis alternativa.
En una prueba de hipotesis se pueden cometer dos tipos de errores:
Error Tipo I. Es el rechazo de la hipótesis Nula cuando es verdadera.
Error Tipo II. El no rechazo de la hipótesis nula (aceptarla) cuando es falsa.

H0: VERDADERA H0: FALSA

No rechazar H0 Error tipo II


Correcto
(Aceptar H0) ( )

Error tipo I
Rechazar H0 Correcto
( )

11
PRUEBA DE HIPOTESIS PARA LA MEDIA DE UNA POBLACIÓN CON
DISTRIBUCIÓN NORMAL

La prueba de hipotesis se realiza en cinco pasos sencillos:


1. Se plantea el sistema de hipotesis: Existen tres posibles planteamientos de
hipotesis, dependiendo de la afirmación que se desea contrastar con respecto a la
hipotesis nula. Esto es:
a. 𝐻𝑜: 𝜇 = 𝜇𝑜 𝑣𝑠 𝐻𝐴 : 𝜇 ≠ 𝜇𝑜
b. 𝐻𝑜: 𝜇 = 𝜇𝑜 𝑣𝑠 𝐻𝐴 : 𝜇 > 𝜇𝑜
c. 𝐻𝑜: 𝜇 = 𝜇𝑜 𝑣𝑠 𝐻𝐴 : 𝜇 < 𝜇𝑜
2. Se determina el nivel de significancia: En este paso se fija el nivel del error tipo
1. Por lo general se determina un 1, 5 o 10%. A este nivel de significancia se denota
como α.
3. Se calcula el estadístico de prueba:
𝑋̅ − 𝜇𝑜
𝑍= 𝜎 𝑝𝑎𝑟𝑎 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑐𝑜𝑛𝑜𝑐𝑖𝑑𝑎
√𝑛

𝑋̅ − 𝜇𝑜
𝑡= 𝑝𝑎𝑟𝑎 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑑𝑒𝑠𝑐𝑜𝑛𝑜𝑐𝑖𝑑𝑎
𝑆
√𝑛
4. Se determina la región de rechazo: La región de rechazo se determina
dependiendo del sistema de hipotesis planteado:

𝐻𝑜: 𝜇 = 𝜇𝑜 𝑣𝑠 𝐻𝐴 : 𝜇 ≠ 𝜇𝑜

𝐻𝑜: 𝜇 = 𝜇𝑜 𝑣𝑠 𝐻𝐴 : 𝜇 > 𝜇𝑜

𝐻𝑜: 𝜇 = 𝜇𝑜 𝑣𝑠 𝐻𝐴 : 𝜇 < 𝜇𝑜

12
En el caso de desconocer la varianza poblacional. La región de rechazo se construye con
una distribución t-student con n-1 grado de libertad.

5. Decisión: se rechaza la hipotesis nula si el estadístico de prueba pertenece a la


región de rechazo.

Ejemplo: Un psicólogo afirma que sus pacientes tardan en promedio 14 días en sentir la
necesidad de una nueva cita. Para probar esa afirmación se tomó una muestra de 48
pacientes, a los cuales se le pregunto el tiempo que tardan en necesitar una nueva cita.
Se obtuvo un promedio de 12.5 días. Se sabe por experiencia que la desviación estándar
poblacional del tiempo de necesidad de una nueva cita es 1.8 días. Realice una prueba
de hipotesis para confirmar la afirmación del psicólogo. Use un nivel de significancia del
5%.

1. Primer paso se plantea el sistema de hipotesis:

𝐻𝑜: 𝜇 = 14 𝑣𝑠 𝐻𝐴 : 𝜇 < 14

2. Se determina el nivel de significancia α=0,05

3. Se calcula el estadístico de prueba: Como se conoce la varianza se utiliza:

𝑋̅ − 𝜇𝑜
𝑍= 𝜎
√𝑛

12,5 − 14
𝑍= = −5,77
1,8
√48

13
4. Determinar la región de rechazo:

Gráfica de distribución
Normal; Media=0; Desv.Est.=1

0,4

0,3
Densidad

0,2

0,1

0,05
0,0
-1,645 0
X

Como -5,77 es menor a -1,645. Es decir, la región de rechazo contiene al estadístico de


prueba. Por lo tanto, se rechaza la hipotesis nula y se acepta la alternativa. Se concluye
que la afirmación del psicólogo es cierta.

14
PSICOLOGÍA EN LINEA
ESTADÍSTICA
3 créditos

Profesor Autor:
Ing. Víctor Márquez, Msc, PhD

Titulaciones Semestre

• PSICOLOGÍA
Tercero

Tutorías: El profesor asignado se publicará en el entorno virtual de aprendizaje


online.utm.edu.ec), y sus horarios de conferencias se indicarán en la sección CAFETERÍA
VIRTUAL.

PERÍODO OCTUBRE 2020/ MARZO 2021


Índice

Tabla de contenido

Resultado de aprendizaje de la asignatura ................................................................................................... 2


...................................................................................................................................................................... 2
Unidad 4: Modelos lineales .......................................................................................................................... 2
Resultado de aprendizaje de la unidad ..................................................................................................... 2
Introducción.................................................................................................................................................. 2
El análisis de regresión, ................................................................................................................................. 2
El análisis de correlación, .............................................................................................................................. 3
Modelo de regresión línea simple poblacional ............................................................................................. 3
Modelo de regresión lineal simple muestral ................................................................................................. 3
Recta de regresión: ....................................................................................................................................... 4
Coeficiente de determinación ( r2) ................................................................................................................ 4
Coeficiente de Correlación Muestral ( r ) ...................................................................................................... 4
Ejercicio resuelto paso a paso ....................................................................................................................... 5

1
Resultado de aprendizaje de la asignatura

Dotar al estudiante de las capacidades y destrezas necesarias para aplicar técnicas de


análisis estadístico a la resolución de problemas de diversa índole en los que es necesario
realizar gran variedad de tareas específicas que acompañan a cualquier proceso de
análisis de datos, con el objeto de elaborar conclusiones que faciliten la toma de
decisiones en situaciones complejas que se caracterizan por estar sometidas a distintos
grados de incertidumbre.

ESTADÍSTICA

Unidad 4: Modelos lineales

Resultado de aprendizaje de la unidad: Analizar la relación existente entre dos variables


con el objetivo de ajustar un modelo matemático lineal que permita el pronóstico o estudio
de una variable en función de la otra.

Introducción.

El objetivo principal en algunas investigaciones estadísticas consiste en establecer


relaciones entre dos o más variables. Para utilizar las relaciones existentes entre ellas se
utilizan dos técnicas: el análisis de regresión y el análisis de correlación.

El análisis de regresión, se utiliza para fines de predicción o descripción. Su objetivo


principal es hallar una ecuación de predicción. Es decir, una fórmula matemática que se

2
pueda usar, para predecir los valores de una variable dependiente o de respuesta, basada
en los valores de otra u otras variables independientes o explicatorias.

El análisis de correlación, se utiliza para medir la fuerza de la relación entre las


variables. Su objetivo no es usar una o más variables para predecir otra, sino más bien
medir la fuerza de asociación entre las variables de interés.

Modelo de regresión línea simple poblacional

El modelo de regresión lineal simple se utiliza en aquellas situaciones donde nos interesa
estudiar la relación que existe entre dos variables, una de las cuales es la variable
dependiente (Y) y la otra es la independiente (X), admitiendo que la relación entre la
variable dependiente y la variable independiente pueda ser expresada por un modelo
lineal.

𝑌 = 𝛽0 + 𝛽1 . 𝑋𝑖 + 𝜀

Dónde:
𝛽0 𝑦 𝛽1 : Son constantes, llamados coeficientes de regresión
𝛽0 : Es la ordenada en el origen, representa el promedio de Y cuando X es igual a cero
𝛽1 : Es la pendiente de la recta de regresión poblacional, representa el cambio medio de
en Y (aumento o disminución) por un cambio unitario particular en X

[n ∗ (∑ Xi ∗ Yi )] − (∑ Xi ∗ ∑ Yi ) 𝛽̂0 = 𝑌̅ − (𝛽̂1 ∗ 𝑋̅)


𝛽̂1 =
(n ∗ ∑ Xi2 ) − (∑ Xi )2

Modelo de regresión lineal simple muestral

̂ + (𝛽
𝑌̂ = 𝛽 ̂ ∗𝑋 )
0 1 𝑖

3
Recta de regresión:

𝑌̂𝑖 = 𝛽̂0 + (𝛽̂1 ∗ 𝑋𝑖 )

Coeficiente de determinación ( r2)

Es la medida de bondad de ajuste que sirve para obtener la cantidad relativa de la


variación de la variable dependiente Y explicada por la variable independiente X. Se
calcula dividiendo la Sumatoria Cuadrada de Regresión (SCR) entre la Sumatoria
Cuadrada Total (SCT).

𝑆𝐶𝑅
𝑟2 =
𝑆𝐶𝑇

Los valores de r2 están entre cero y uno, es decir: 𝟎 < 𝒓𝟐 < 1

• Un r2= 0, indica que no existe relación entre X y Y


• Un r2= 1, indica que existe una relación lineal perfecta entre X y Y.

̂ )2 ∗ [∑ 𝑋2 − (𝑛 ∗ 𝑋
𝑆𝐶𝑅 = (𝛽 ̅ 2
)]
1 𝑖
𝑆𝐶𝑇 = ∑ 𝑌𝑖2 − (𝑛 ∗ 𝑌̅ 2 )

Coeficiente de Correlación Muestral ( r )

Indica si la relación entre X y Y es fuerte o débil, además si es positiva o negativa.


r = 1, indica que la relación entre X y Y es fuerte y positiva
r = -1, indica que la relación entre X y Y es fuerte pero negativa o inversa
r = 0 ; indica que no hay relación entre X y Y

4
(−1 < 𝑟 < 1)

(n ∗ ∑ Xi ∗ Yi ) − (∑ Xi ∗ ∑ Yi )
𝑟= EJERCICIOS DE REGRESION
√(n ∗ ∑ X2i ) − (∑ Xi )2 ∗ √(n ∗ ∑ Y2i ) − (∑ Yi )2

Ejercicio resuelto paso a paso

Durante mucho tiempo se ha creído que las horas de ejercicios (X), influyen en el peso
de las personas (Y). Use un 0.01 de error

X (Horas) 9 2 15 4 18
Y (peso) 76 99 65 88 58

a. Haga todo el análisis de regresión


b. ¿Cuántas horas de ejercicios debe hacer una persona para tener un peso de
60kg?
c. ¿Cuánto pesara una persona, que hace 3 horas de ejercicios semanales?
d. Haga el análisis de correlación.

Solución:
a. Haga todo el análisis de regresión
1. Se identifica la variable independiente (X) y la variable dependiente (Y), para este
caso:
X (Variable independiente): horas de ejercicios
Y (Variable dependiente): pesos de las personas

5
2. Se grafica el diagrama de dispersión

120

100

80

60

40

20

0
0 5 10 15 20

3. Se calcula la Recta de regresión:

𝑌̂𝑖 = 𝛽̂0 + (𝛽̂1 ∗ 𝑋𝑖 )

Donde primero calculamos el Coeficiente de regresión 𝛽̂1 :

[n ∗ (∑ Xi ∗ Yi )] − (∑ Xi ∗ ∑ Yi )
𝛽̂1 =
(n ∗ ∑ Xi2 ) − (∑ Xi )2

Elaboramos una tabla para facilitar los cálculos:


X Y X*Y X² Y²
9 76 9*76= 684 9² 76²
2 99 198 2² 99²
15 65 975 15² 65²
4 88 352 4² 88²
18 58 1044 18² 58²
ƩXi=48 ƩYi=386 ƩXi*Yi=3253 ƩXi²=650 ƩYi²=30910

Calculamos los promedios de X y de Y:


𝑋̅=48/5=9,6 𝑌̅=386/5=77,2

6
Sustituimos en 𝛽̂1

[n∗(∑ Xi ∗Yi )]−(∑ Xi ∗∑ Yi ) [5∗(3253)]−(48∗386)


𝛽̂1 = = = -2,39
(n∗∑ X2 )−(∑ X )2
i i (5∗650)−(48)²

Interpretación de 𝛽̂1

𝛽̂1= -2,39kg; es la disminución del peso por cada hora de ejercicio. Es decir, por cada
hora de ejercicio se baja 2,39kg de peso

Calculamos el coeficiente 𝛽̂0

𝛽̂0 = 𝑌̅ − (𝛽̂1 ∗ 𝑋̅) = 77,2 − (−2,39 ∗ 9,6) = 100,14

Interpretación de 𝛽̂0

𝛽̂0=100.14 kg; es el promedio del peso cuando no se hace ejercicio

b. ¿Cuántas horas de ejercicios (Xi) debe hacer una persona para tener un peso de
60kg (Yi)?

Cómo la incógnita son las horas de ejercicio (Xi) se usa la recta de regresión, se
sustituyen los demás valores y se despeja Xi
𝑌̂𝑖 = 60
𝛽̂0 = 100,14
𝛽̂1 = −2,39
𝑿𝒊 =?
̂ 𝟎 + (𝜷
̂𝒊 = 𝜷
𝒀 ̂ 𝟏 ∗ 𝑿𝒊 )

60 = 100,14 + (−2,39 ∗ 𝑋𝑖 )
2,39 ∗ 𝑋𝑖 = 100,14 − 60
100,14 − 60
𝑋𝑖 =
2,39
40,14
𝑋𝑖 = = 16,79
2,39

𝑋𝑖 = 16,79 horas de ejercicio

7
Respuesta: Se necesitan 16,79 horas de ejercicio para tener un peso de 60 Kg

c. ¿Cuánto pesará una persona (Y), que hace 3 horas de ejercicios semanales (X)?
Para resolver esta pregunta, sustituimos el valor de X en la ecuación de regresión y se
obtiene el valor de Y.
̂ 𝒊 =?
𝒀
𝛽̂0 = 100,14
𝛽̂1 = −2,39
𝑋𝑖 = 3
̂ 𝟎 + (𝜷
̂𝒊 = 𝜷
𝒀 ̂ 𝟏 ∗ 𝑿𝒊 )

̂ 𝒊 = 100,14 + (−2,39 ∗ 𝑋𝑖 ) = 92,97


𝒀

̂ 𝒊 = 92,97𝐾𝑔
𝒀

Respuesta: Una persona pesará 92,97 Kg, si hace 3 horas de ejercicio semanal

1. Calculamos e interpretamos el Coeficiente de determinación (r2)


𝑆𝐶𝑅
𝑟2 =
𝑆𝐶𝑇

𝑆𝐶𝑅 = (𝛽̂1 )2 ∗ [∑ 𝑋𝑖2 − (𝑛 ∗ 𝑋̅ 2 )]


𝑆𝐶𝑅 = (−2,39)2 ∗ [650 − (5 ∗ 9,62 )] = 1080,73

𝑆𝐶𝑇 = ∑ 𝑌𝑖2 − (𝑛 ∗ 𝑌̅ 2 )

𝑆𝐶𝑇 = 30910 − (5 ∗ 77,22 ) = 1110,8


𝑆𝐶𝑅 1080,73
𝑟 2 = 𝑆𝐶𝑇 = = 0,97
1110,8

𝑟 2 = 0,97

8
Interpretación de 𝑟 2 : Las horas de ejercicios explican la variación del peso en un 97%,
el 3% restante de la variación se debe a otras variables.

2. Calculamos e interpretamos el Coeficiente de Correlación Muestral ( r )

(n ∗ ∑ X i ∗ Yi ) − (∑ X i ∗ ∑ Yi )
𝑟=
√(n ∗ ∑ Xi2 ) − (∑ Xi )2 ∗ √(n ∗ ∑ Yi2 ) − (∑ Yi )2

(5 ∗ 3253) − (48 ∗ 386)


𝑟=
√(5 ∗ 650) − 482 ∗ √(5 ∗ 30910) − 3862

16265 − 18528
𝑟=
√3250 − 2304 ∗ √154550 − 148996

−2263
𝑟=
√946 ∗ √5554

−2263
𝑟=
30,76 ∗ 74,53

−2263
𝑟= = −0,99
2292,54

𝒓 = −𝟎, 𝟗𝟗

Interpretación de r:
La relación es fuerte y negativa entre las horas de ejercicio (X) y el peso de las personas
(Y)

También podría gustarte