Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadistica 240206 081536
Estadistica 240206 081536
Estadística
Introducción a la Estadística
[1.1] ¿Por qué estudiar estadística?
1
TEMA
Esquema
Introducción a la estadística
TEMA 1 – Esquema
Importancia de la estadística
Tipos de investigación
Pura Aplicada
Transversal Longitudinal
Ideas clave
¿Qué es investigar?
Lo + recomendado
No dejes de leer…
La lectura de este documento te permitirá conocer cuáles son los principales mitos que
se han creado acerca de la Estadística y cómo, a partir de análisis formales, se ha
demostrado con hechos que dicha disciplina es un apoyo fundamental para los
desarrollos científicos.
Accede al artículo a través del aula virtual o desde la siguiente dirección web:
http://www.mundoestadisticacimat.mx/pdfs/mitos.pdf
No dejes de ver…
Historia de la Estadística
El vídeo muestra los inicios de la Estadística, así como los avances y las contribuciones
más notables.
Accede al vídeo a través del aula virtual o desde la siguiente dirección web:
https://www.youtube.com/watch?v=lTnJLGhmW8k
+ Información
A fondo
La estadística
Accede al artículo a través del aula virtual o desde la siguiente dirección web:
http://www.monografias.com/trabajos91/acerca-estadistica/acerca-estadistica.shtml
Accede al artículo a través del aula virtual o desde la siguiente dirección web:
www.poldsaenz.sld.cu/scproyecto/metodologia%201.doc
Bibliografía
2
TEMA
Esquema
TEMA 2 – Esquema
El muestreo
Tipos de muestreo
Delimitación del
muestreo
Estadística
Ideas clave
Para estudiar este tema deberás leer el capítulo VI páginas 154 a 171, sobre muestreo y
algunos tópicos sobre aplicaciones a la economía. El enlace web para tener acceso a este
material es: http://herzog.economia.unam.mx/profesor/barajas/estadis/parte4.pdf
Así mismo, es recomendable complementar la lectura mediante el vídeo:
https://www.youtube.com/watch?v=zGtk_Ii9VBs
2.1. El muestreo
Es importante considerar que antes de aplicar el método de muestreo que sea adecuado,
se debe definir el marco. Este está compuesto por una serie de registros de los elementos
que forman la población, tales como: directorios, mapas, listas, es decir, los marcos
Muestreo aleatorio
simple
Muestreo sistemático
Muestreo estratificado
Métodos de Métodos
Muestreo por
muestreo probabilísticos conglomerados
Muestreo de áreas
Métodos no Muestreo con fines
probabilísticos especiales Muestreo polietápico
Muestreo de cuotas
Muestreo por
conveniencia Muestreo de juicio
Cada uno de los métodos anteriores se deriva en diferentes aplicaciones cuyo empleo
depende de la naturaleza del estudio estadístico que se deba llevar a cabo.
Muestreo no probabilístico
En el muestreo por cuotas, por ejemplo, el investigador debe conocer muy bien los
estratos de la población o a los individuos adecuados para un estudio, desde luego este
método no tiene aleatoriedad, y es muy utilizado en las encuestas de opinión. Para
aplicarlo, en primer lugar, se establecen cuotas formadas por un determinado número
de elementos que reúnen ciertas características. Una vez determinada la cuota, se eligen
los primeros individuos que cumplen con los requisitos que se requieren en el estudio.
Muestreo Probabilístico
Los elementos que forman parte de una muestra probabilística se seleccionan en base a
valores de probabilidad conocidos. Estos son los métodos más recomendados, ya que
permiten la extracción de muestras cuyo análisis conduce a la elaboración de inferencias
sin sesgo acerca de la población de interés.
Los métodos de muestreo que se utilizan y que tienen como herramienta fundamental la
aplicación de la teoría de probabilidad son: muestreo aleatorio simple, muestreo
sistemático, muestreo estratificado, muestreo por conglomerados,
muestreo de áreas y muestreo polietápico.
El método se denomina así, porque su forma de aplicación permite que todos los
individuos de la población tengan la misma probabilidad de pertenecer a la muestra. Es
un muestreo probabilístico por medio del cual es posible hacer inferencias
estadísticas, así como calcular las probabilidades de error asociadas a las mismas.
dentro de los límites marcados por el tamaño de la población. Una parte de estos
números es: 145, 339, 284, 628, 384,…, una vez que se tienen los cincuenta números
aleatorios, se extraen de la población los elementos cuyo número coincide con el
correspondiente de la lista. El procedimiento de muestreo aleatorio simple se puede
utilizar como herramienta auxiliar en la aplicación de otros métodos de
muestreo probabilístico.
Para extraer una muestra sistemática de tamaño ‘n’, se escoge al azar un número
entero menor al tamaño N de la población, dicho número que es el de inicio, se
asigna al primer elemento que se va a extraer y que formará parte de la muestra. A
continuación, se establece el valor del intervalo de selección que es la diferencia
constante entre cada número asignado a los elementos que se van a extraer. El valor de
dicho intervalo se calcula dividiendo el tamaño de la población entre el tamaño de la
muestra. Así, por ejemplo, extraer una muestra sistemática de tamaño n= 25, de una
población de tamaño N= 100. La solución es: tamaño del intervalo = N/ n = 100/ 25 =
Los estratos más comunes son: género, edad, religión, nivel socioeconómico, nivel de
escolaridad y nacionalidad. El muestreo aleatorio estratificado se emplea cuando el
estudio que se va a realizar requiere resaltar las características de un grupo en particular,
o bien para analizar las relaciones entre los diferentes estratos.
Veamos un ejemplo. Se desea extraer una muestra de tamaño n=50 del grupo de
funcionarios de una empresa cuya composición es la siguiente:
Para llevar a cabo un estudio específico, el investigador debe seleccionar, en primer lugar,
los conglomerados de interés, y extraer los componentes de la muestra por medio de
muestreo aleatorio simple o de muestreo aleatorio sistemático.
5 9 2
Hay que considerar que el procedimiento se puede aplicar en más etapas y que estas son
sucesivas. Por ejemplo, para llevar a cabo un estudio acerca de la efectividad de la
educación preescolar, se pueden establecer las siguientes etapas:
Para que las conclusiones obtenidas al analizar una muestra se puedan aplicar en forma
confiable y sea posible hacer inferencias válidas sobre el total de individuos de la
población de interés, es necesario que sea representativa.
A pesar de las ventajas que supone la aplicación de los diferentes métodos de muestreo
probabilístico, hay que tener en cuenta que realmente no existe una descripción
formal que permita afirmar si una muestra es o no representativa de una
población.
El tamaño de la muestra que se debe extraer es también un gran limitante, sobre todo
porque, por ejemplo, las muestras pequeñas no representan en forma adecuada las
Lo + recomendado
No dejes de leer…
Accede al artículo a través del aula virtual o desde la siguiente dirección web:
https://es.scribd.com/document/340997891/01-Muestreo-P1-pdf
No dejes de ver…
El muestreo estadístico
Accede al vídeo a través del aula virtual o desde la siguiente dirección web:
https://www.youtube.com/watch?v=HwICOFhF_eM
Lo + recomendado
A fondo
Accede al artículo a través del aula virtual o desde la siguiente dirección web:
https://studylib.es/doc/5342579/estad%C3%ADstica-aplicada-a-las-licenciaturas
3TEMA
Ordenamiento y determinación de variables
Esquema
TEMA 3 – Esquema
Clasificación de variables
Variables Variables
cualitativas cuantitativas
Obtención de datos
Selección de datos
Ideas clave
Para estudiar este tema deberás leer el documento cuyo enlace web se muestra a
continuación. El documento contiene conceptos fundamentales acerca de las variables
que se utilizan en los estudios de Estadística. Disponible en:
http://norestadistica.blogspot.mx/2011/03/variables-estadisticas.html
Igualmente, para hacer una revisión de conceptos y reafirmar tus conocimientos sobre el
tema, deberás leer el documento que se encuentra en el enlace web:
http://www.uclm.es/profesorado/jmezo/estadistica/t2.pdf
Cuando la información que se tiene se refiere a una característica o atributo, se dice que
corresponde a una variable cualitativa. Nacionalidad, sexo o género, religión, estatus
socioeconómico, región, nivel de estudios, etc., son algunas cualidades que pueden
componer dicha variable.
Una variable cualitativa puede ser dicotómica, cuando solo puede tomar dos
valores posibles: si, no, hombre, mujer, y politómica, cuando se le pueden asignar tres o
más valores.
En general los métodos para recopilar datos estadísticos se aplican en función del
carácter del estudio que se va a realizar. Si la información existe, solo habrá que acudir a
la fuente correspondiente (fuente secundaria), y mediante algún método de muestreo,
extraer los datos hasta conformar la muestra que se requiere.
Una vez extraída la muestra se revisan los datos, se corrigen y se vacían en una
tabla resumen o bien en una tabla de clasificación cruzada o tabla de contingencia.
Por ejemplo, se aplicó una encuesta a 2 000 personas para determinar el porcentaje de
ellas que llega al trabajo en su automóvil y tiene casa propia. Si una persona llega al
trabajo en automóvil propio, ¿se puede suponer que tiene casa propia?
P P'
Una vez que se corrigen los datos, se vacían en una tabla de clasificación cruzada, en el
lugar que les corresponde. Se simbolizan los eventos importantes: M, personas que
manejan hacia el trabajo; P, personas que son propietarias de una casa. Dado que se trata
de variables nominales dicotómicas, la descripción numérica de la muestra se limita a
determinar porcentajes que pueden ser de interés para un estudio en particular.
Así el porcentaje que se pide es: 824/2 000*100 = 41.2%. Note que dispuesta la tabla en
esta forma, es posible determinar otros porcentajes que pudieran interesar. ¿Qué
porcentaje de personas de la muestra pagan alquiler? 1 000/2 000*100 = 50%
INTERVALOS DE
CLASE Fi Xi Fr Fa Fra
0 10 12 5 0,3077 12 0,3077
10 20 7 15 0,1795 19 0,4872
20 30 12 25 0,3077 31 0,7949
30 40 6 35 0,1538 37 0,9487
40 50 2 45 0,0513 39 1
39
En primer lugar, se formulan las categorías o intervalos de clase (entre cinco y quince),
y los datos de la muestra se asignan en la categoría que les corresponde según su valor.
Se puede apreciar que solo dos empresas ganaron entre 40 y 50 miles de euros, 31
empresas (79.49%) obtuvieron ganancias menores a 30 mil euros.
El análisis de la tabla nos permite sacar las primeras conclusiones acerca del
comportamiento de los datos en la muestra.
Desde luego, el análisis va más allá. Se deben determinar los promedios estadísticos,
validarlos y determinar la forma de la distribución comparándola con un patrón ya
establecido.
Lo + recomendado
No dejes de leer…
Accede al artículo a través del aula virtual o desde la siguiente dirección web:
http://www.uaeh.edu.mx/docencia/VI_Lectura/licenciatura/documentos/LEC5.pdf
No dejes de ver…
Recopilación de datos
Accede al vídeo a través del aula virtual o desde la siguiente dirección web:
https://www.youtube.com/watch?v=JX_yBqCtnYk
Accede al vídeo a través del aula virtual o desde la siguiente dirección web:
https://www.youtube.com/watch?v=-ZnUSLlUj9A
+ Información
A fondo
Accede al artículo a través del aula virtual o desde la siguiente dirección web:
https://archivos.csif.es/archivos/andalucia/ensenanza/revistas/csicsif/revista/pdf/Nu
mero_14/SILVIA_BORREGO_2.pdf
4 TEMA
Descripción gráfica de los datos
Esquema
TEMA 4 – Esquema
Gráficos para Gráficos para
describir variables describir variables
categóricas numéricas
Ideas clave
Para estudiar este tema deberás leer el siguiente documento cuyo contenido se basa en
la descripción de los componentes fundamentales para la elaboración de tablas y
gráficas: https://www.fisterra.com/mbe/investiga/graficos/graficos.asp#Figura 2
Igualmente es importante que veas con mucha atención el siguiente vídeo que contiene
ejemplos acerca de la elaboración de tablas y gráficas:
https://www.youtube.com/watch?v=8xvjdMHKmYU
En la sección No dejes de ver tendrás acceso a un vídeo que contiene suficientes ejemplos
de cómo trazar gráficas para datos que corresponden a variables categóricas.
NÚMERO DE
NIVEL DE RIESGO ACCIONES
BAJO 45
MEDIO 35
ALTO 80
TOTAL 160
NIVEL DE RIESGO
80
NÚMERO DE ACCIONES
70
60
50
40 80
30 45
20 35
10
0
BAJO MEDIO ALTO
NIVEL DE RIESGO
Género Cantidad
Hombre 75
Mujer 45
total 120
Superficie
Continente Millones Km2
América 42,7
África 30,2
Antártida 14
Asia 44,6
Europa 10,5
Oceanía 9
Los diagramas de dispersión o diagramas de puntos son gráficos que se utilizan para
representar series de tiempo. En el eje horizontal se marcan los períodos de tiempo y en
el vertical la variable en estudio. El desarrollo de los puntos del diagrama puede ser un
indicativo del comportamiento de la serie, lo cual es fundamental para establecer
un modelo que pueda utilizarse para hacer pronósticos.
La gráfica de una serie de cronológica se puede representar también como una línea
quebrada que muestra los cambios de la variable en el tiempo. Una vez trazada
la serie también es importante establecer la tendencia, por medio de una línea que pasa
a través de las variaciones.
VENTAS DE
REFRIGERADORES
2005-2012
2000
ERO DE UNIDADES
1500
1000
500
0
I III I III I III I III I III I III I III I III
1 2 3 4 5 6 7 8
PERIODOS DE TIEMPO (TRIMESTRES)
Cuando se trata de una serie estacional, puede ser, por ejemplo, de un producto o servicio
cuya demanda varía en función de las estaciones del año se hace necesario suavizar los
picos de la gráfica para poder apreciar la magnitud del efecto estacional.
2000
1800
1600
1400
1200
1000 Series1
800 Series2
600
400
200
0
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31
INTERVALOS DE
CLASE Fi Xi Fr Fa Fra
0 10 12 5 0.3077 12 0.3077
10 20 7 15 0.1795 19 0.4872
20 30 12 25 0.3077 31 0.7949
30 40 6 35 0.1538 37 0.9487
40 50 2 45 0.0513 39 1.0000
Histograma
BENEFICIOS MENSUALES
14
12 12
12
10
No de empresas
8 7
6
6
4
2
2
0
5 15 25 35 45
MILES DE EUROS
Polígono de frecuencias
Xi Fi
0 0
5 12
15 7
25 12
35 6
45 2
55 0
El polígono de frecuencias es una gráfica de línea que se traza considerando los puntos
medios de los intervalos y las frecuencias. Antes del trazo se agregan dos marcas
de clase, una al principio y otra al final, ambas con frecuencia cero. Se conoce también
como gráfica de puntos medios.
POLÍGONO DE FRECUENCIAS
14
NÚMERO DE EMPRESAS
12
10
0
0 5 15 25 35 45 55
GANANCIAS
Ojiva porcentual
0,7
10 0,3077 0,6
0,5
20 0,4872 0,4
30 0,7949 0,3
0,2
40 0,9487 0,1
0
50 1,0000 0 10 20 30 40 50
GANANCIAS
La ojiva porcentual es una gráfica de línea que muestra el porcentaje total de valores de
la muestra, que cumple con alguna condición. Así por ejemplo viendo la gráfica
podríamos decir que aproximadamente un 80% de las empresas de la muestra tuvo
ganancias de 30 mil euros o menos.
Cuando solo son dos variables cuya relación es objeto de estudio, esta se puede
representar en un plano de coordenadas rectangulares en donde el eje horizontal
𝑌𝑌� = 𝑚𝑚𝑚𝑚 + 𝑏𝑏, es la forma de la ecuación de regresión lineal que mejor se ajusta a una
muestra con dos variables. Los parámetros de la regresión, ‘m’ y ‘b’, se calculan
aplicando:
x Y XY x^2 y^2
ANUNCIOS VENTAS (miles)
3 125 375 9 15625
5 152 760 25 23104
4 131 524 16 17161
4 133 532 16 17689
5 142 710 25 20164
3 116 348 9 13456
3 127 381 9 16129
6 163 978 36 26569
33 1089 4608 145 149897
Cuando se recopila información para realizar un estudio, es importante tener muy claro
cuál es el objetivo del mismo. Esto permite que nos enfoquemos en la presentación de
los datos fundamentales.
Es importante tomar en cuenta que las tablas o gráficas que muestran el comportamiento
de una variable deben ser elaboradas con el fin de que puedan ser leídas, entendidas e
interpretadas, por lo tanto, hay que evitar agregar a la presentación elementos muy
personales que desvirtúen el sentido de la información.
Información innecesaria
En ocasiones se puede suponer que añadir información adicional puede enriquecer una
presentación. Nada más alejado de la realidad. Debemos limitarnos a los datos
medulares, los que tienen verdadero interés.
Lo + recomendado
No dejes de leer…
Accede al artículo a través del aula virtual o desde la siguiente dirección web:
http://www.elartedepresentar.com/2011/11/4-formas-de-mentir-con-graficos-de-
datos-en-una-presentacion/
No dejes de ver…
Vídeo en el que se describen los procedimientos para trazar gráficas para variables
categóricas.
Accede al vídeo a través del aula virtual o desde la siguiente dirección web:
https://www.youtube.com/watch?v=khn8vrlcswk
Vídeo en el que se aborda el tema de cómo hacer una tabla de distribución de frecuencias.
Accede al vídeo a través del aula virtual o desde la siguiente dirección web:
https://www.youtube.com/watch?v=bKK0kXzwpgs
Este vídeo está preparado para que puedas repasar como trazar las gráficas de una tabla
de distribución de frecuencias.
Accede al vídeo a través del aula virtual o desde la siguiente dirección web:
https://www.youtube.com/watch?v=bKK0kXzwpgs
+ Información
A fondo
Accede al artículo a través del aula virtual o desde la siguiente dirección web:
http://devigomez.blogspot.mx/2013/05/proceso-adminstrativo.html
5 TEMA
Esquema
TEMA 5 – Esquema
Medidas de tendencia central
Medidas de relaciones
Promedios estadísticos Medidas de dispersión
entre variables
Ideas clave
Para estudiar este tema deberás leer el capítulo 3 del libro: Levine, D. M., Krehbiel, T. C.
y Berenson, M. L. (2014). Estadística para administración. México: Pearson educación.
Disponible a través de la Biblioteca Virtual de UNIR.
Accede al vídeo «Medidas para datos agrupados» a través del aula virtual
17.5 37.5 50 5
30 22.5 22.5 40
37.5 20 25 20
15 27.5 32.5 7.5
17.5 25 27.5 22.5
25 32.5 2 10
22.5 25 16 5
10 10 8 47.5
5 25 3 35
17.5 7.5 9
Solución:
∑ 𝑋𝑋𝑖𝑖
𝑋𝑋� =
𝑛𝑛
17.5 + 30 + 37.5 + 15 + 17.5 + 25 + 22.5 + ⋯ + 5 + 47.5 + 35 818
𝑋𝑋� = = = 20.97
39 39
La mediana se denomina también promedio de posición, por lo que ocupa el lugar central
en una muestra de datos que no están agrupados en intervalos. Los valores se ordenan
en forma creciente y si el tamaño de la muestra es impar, hay un valor en el centro que
corresponde a la Mediana. Cuando el número de datos es par, hay dos valores en el
centro, el valor de la mediana se obtiene promediándolos.
Dada una muestra con datos X1, X2, X3, X4,…Xn, la posición que ocupa la mediana es:
𝑋𝑋𝑛𝑛+1 , si n=39, la mediana ocupa el lugar N° 20, por lo tanto Md= 22.5
2
El 50% de los valores de la muestra es mayor que la mediana, y el 50% es menor. Una
ventaja importante de este promedio es que su valor no se afecta cuando la muestra
contiene valores extremos.
2 10 22.5 30
3 10 22.5 32.5
5 15 22.5 32.5
5 16 25 35
5 17.5 25 37.5
7.5 17.5 25 37.5
7.5 17.5 25 40
8 20 25 47.5
9 20 27.5 50
10 22.5 27.5
La Moda o valor modal Mo, es el dato que es más frecuente, el que más veces se repite.
En este caso Mo=25. Cuando 2 o más valores tienen la misma frecuencia se toma como
Moda el menor.
Las medidas de variación o dispersión se utilizan para calcular el grado en que los datos
de la muestra difieren de un promedio. Si la diferencia es pequeña, se puede considerar
que la muestra contiene datos cuyos valores son regulares y que el promedio es
significativo.
Rango = Xmax. – Xmin. Se obtiene restando el valor menor de la muestra del valor
mayor. Para la muestra anterior R= 50 – 2 = 48
Desviación Media
∑|𝑥𝑥 − 𝑥𝑥̅ |
𝐷𝐷𝐷𝐷 =
𝑛𝑛
Para evaluar esta medida es necesario comparar varias muestras. Aquella con el menor
valor de DM será la que tenga menos dispersión.
Varianza
Una propiedad de la media aritmética establece que la suma de los cuadrados de las
desviaciones de los datos de una muestra con respecto a su media es mínimo, esta suma
dividida entre (n-1) se denomina varianza.
∑(𝑥𝑥 − 𝑥𝑥̅ )2
𝑆𝑆 2 =
𝑛𝑛 − 1
(2 − 20.97)2 + (3 − 20.97)2 + (5 − 20.97)2 + ⋯ + (50 − 20.97)2 5756.97
𝑆𝑆 2 = =
39 − 1 38
= 151.5
Sin embargo, el resultado de esta aplicación arroja unidades al cuadrado, que desde luego
no son compatibles con el estudio de la muestra. Este problema se resuelve extrayendo
la raíz cuadrada de la varianza, y el valor resultante se denomina Desviación típica o
estándar.
𝑆𝑆 = √151.5 = 12.30
∑ 𝐹𝐹𝐹𝐹∗𝑋𝑋𝑋𝑋
𝑋𝑋� = 𝑛𝑛 El coeficiente de variación V, es una medida de la dispersión relativa que hay
en una muestra, con respecto a la media aritmética.
La siguiente tabla es una distribución de frecuencias de las tarifas (en dólares), de una
muestra de 20 hoteles en una ciudad.
INTERVALOS DE
CLASE Fi Xi Fr Fa Fra
110 140 4 125 20 4 20
140 170 4 155 20 8 40
170 200 5 185 25 13 65
200 230 5 215 25 18 90
230 260 0 245 0 18 90
260 290 2 275 10 20 100
20 100
Solución:
Cuando los datos de la muestra están categorizados, los valores de cada Xi corresponden
a las marcas de clase, y en los cálculos hay que tomar en cuenta el número de datos es
decir, las frecuencias absolutas Fi
Media aritmética
Mediana
Para calcular el valor de la mediana hay que fijar su posición (n/2), esta permite
identificar el intervalo de valores en donde se encuentra dicho promedio, para
determinar los demás elementos de la fórmula:
𝑛𝑛
−𝑓𝑓𝑎𝑎
𝑋𝑋� = 𝐿𝐿𝑖𝑖 +� 2 � 𝐶𝐶
𝑓𝑓𝑚𝑚𝑚𝑚𝑚𝑚
n/2= 10
L1= 170
Facum= 8
Fmed.= 5
C= 30
Md=170 + [(10-8)/5]*30
Md. = 182
𝑑𝑑1
= 𝐿𝐿𝑖𝑖 + � � 𝐶𝐶
𝑑𝑑1 + 𝑑𝑑2
» Li=Límite inferior del intervalo de mayor frecuencia.
» ‘d1’= Mayor frecuencia – frecuencia del intervalo anterior
» ‘d2’= Mayor frecuencia – frecuencia del intervalo siguiente.
» C= ancho del intervalo de clase
L1= 170
d1= 5-4= 1
d2= 5-5= 0
C= 30
Medidas de dispersión
∑ 𝐹𝐹𝐹𝐹|𝑋𝑋𝑋𝑋 − 𝑋𝑋�|
𝐷𝐷𝐷𝐷 =
𝑛𝑛
Desviación media
234
114
7.5
157.5
0
183
3670
4366
Varianza
Fi*(Xi-
Xmedia)^2
13689
3249
11.25
4961.25
0
16744.5
38655
� )𝟐𝟐
∑ 𝑭𝑭𝑭𝑭(𝑿𝑿𝑿𝑿 − 𝑿𝑿
𝑺𝑺 = � = √𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐. 𝟒𝟒𝟒𝟒 = 𝟒𝟒𝟒𝟒. 𝟏𝟏𝟏𝟏
𝒏𝒏 − 𝟏𝟏
Coeficiente de variación:
𝑆𝑆 45.11
𝑉𝑉 = ∗ 100 = ∗ 100 = 24.58%
𝑋𝑋� 183.5
El grado de la relación entre variables cuantitativas se mide por medio del coeficiente de
correlación ‘r’ de Pearson, cuyo valor oscila entre -1 y 1. Si r=1, entre las variables
hay una relación lineal directa perfecta, ya que cuando la variable independiente
aumenta, la variable dependiente también se incrementa.
Cuando r=-1, la relación entre las variables es lineal inversa perfecta, es decir,
cuando aumenta la variable independiente, la variable dependiente disminuye.
x Y XY x^2 y^2
ANUNCIOS VENTAS (miles)
3 125 375 9 15625
5 152 760 25 23104
4 131 524 16 17161
4 133 532 16 17689
5 142 710 25 20164
3 116 348 9 13456
3 127 381 9 16129
6 163 978 36 26569
33 1089 4608 145 149897
Solución:
Covarianza
Dado que la covarianza es positiva, se deduce que existe variación conjunta entre las
variables y se da en el mismo sentido.
Ejemplo
Con un nivel de significancia 0.05, ¿existe relación entre el tipo de comunidad en el que
reside la persona y su preferencia en temas de lectura?
Solución:
(𝑓𝑓𝑜𝑜 −𝑓𝑓𝑒𝑒 )2
𝜒𝜒 2 = ∑ � �; con k-1 grados de libertad, en donde k es el número de categorías, fo es
𝑓𝑓𝑒𝑒
En una tabla de contingencia como la del caso, la frecuencia esperada fe para una
frecuencia observada fo, se calcula multiplicando el total de la hilera por el total de la
columna y dividiendo el producto entre el total de la muestra. Así por ejemplo la fe que
410∗430
corresponde a 180= , siguiendo con el procedimiento, fe para 100 =
1040
300*430/1040 = 124.04
La siguiente tabla muestra los elementos que se requieren para calcular el estadístico de
la prueba 𝜒𝜒 2
(𝑓𝑓𝑓𝑓 − 𝑓𝑓𝑓𝑓)2
fo fe (fo- fe)2
𝑓𝑓𝑓𝑓
180 169,52 109,85 0,65
100 124,04 577,85 4,66
150 136,44 183,81 1,35
130 130,10 0,01 0,00
110 95,19 219,27 2,30
90 104,71 216,43 2,07
100 110,38 107,84 0,98
90 80,77 85,21 1,05
90 88,85 1,33 0,01
Total 13,07
Fuente:
cristina92sm.wordpress.com
Lo + recomendado
No dejes de leer…
Accede al artículo a través del aula virtual o desde la siguiente dirección web:
https://archivos.csif.es/archivos/andalucia/ensenanza/revistas/csicsif/revista/pdf/Nu
mero_23/VIRGINIA_CARMONA_GONZALEZ01.pdf
No dejes de ver…
Vídeo para aprender a calcular las medidas de tendencia central y las medidas de
dispersión utilizando las funciones de Excel.
Accede al vídeo a través del aula virtual o desde la siguiente dirección web:
https://www.youtube.com/watch?v=DUbOXH6qLY0
+ Información
A fondo
Accede al artículo a través del aula virtual o desde la siguiente dirección web:
http://www.gestiopolis.com/estadistica-aplicada-a-los-negocios
6
TEMA
Estadística
Esquema
Ideas clave
Conceptos previos
» Experimento aleatorio: es un proceso que puede dar lugar a varios resultados sin
que sea posible predecir cuál va a ocurrir. Hasta que el experimento aleatorio no se
haya llevado a cabo no es posible saber el resultado del mismo.
» Espacio muestral: es el conjunto de resultados básicos de un experimento. El
experimento, una vez realizado, dará lugar a un resultado que se encuentra dentro del
espacio muestral definido para el experimento.
» Suceso: dentro del espacio muestral hay diversos resultados posibles, cada uno de
estos posibles resultados recibe el nombre de suceso.
Planteamos el sencillo experimento de lanzar una moneda al aire. ¿Cuáles son los
posibles resultados básicos que vamos a obtener?
C: sacar cara
X: sacar cruz
Entonces, el espacio muestral es: Ω={C,X}, siendo C y X cada uno de ellos un suceso.
¿Cuál sería el espacio muestral si en lugar de una moneda tuviésemos dos monedas?
Ω={CC,CX,XC,XX}.
Definición de probabilidad
Vamos a considerar como definición de probabilidad la dada por Laplace: El caso de que
todos los sucesos elementales del espacio muestral tengan la misma probabilidad del
suceso A es el cociente entre el número de resultados favorables a que ocurra el suceso A
en el experimento y el número de resultados posibles del experimento.
Tenemos a continuación una tabla de datos sobre ocupación y nivel de ingresos del
cabeza de familia:
Bajo Medio Alto
Ama de casa 8 26 6
Obreros 16 40 14
Ejecutivos 6 62 12
Profesionales 0 2 8
Así, por ejemplo, ¿cuál es la probabilidad de Ama de casa? Hemos dicho que este
concepto se corresponde con la frecuencia relativa, así que el resultado será 40/200. Este
valor, igual a 0,2, será la probabilidad de seleccionar una persona al azar de entre las 200
personas consultadas y que esta sea Ama de casa.
¿Y de Ama de casa con Ingreso Bajo? En este caso, recurrimos a las frecuencias absolutas
conjuntas y calculamos la relativa conjunta, 8/200. Así pues, 0,04 será la probabilidad
de que la persona seleccionada, además de ser Ama de casa, tenga Ingreso Bajo.
Vamos a continuar aquí definiendo una serie de reglas útiles para el cálculo de
probabilidades que vienen a sumarse a la regla de Laplace, ya estudiada al comienzo de
este tema.
Las reglas que vamos a ver son tres, sirviendo cada una de ellas para el cálculo de un tipo
de probabilidad:
Teorema de Bayes: en las mismas condiciones que el caso anterior, queremos saber,
habiéndose producido el suceso, la probabilidad de que haya sido una causa concreta la
que lo ha originado.
Probabilidad condicionada
𝑃𝑃(𝐴𝐴 ∩ 𝐵𝐵)
𝑃𝑃(𝐴𝐴 ∕ 𝐵𝐵) =
𝑃𝑃(𝐵𝐵)
Sabiendo que tenemos una familia de Ingreso Bajo, ¿cuál es la probabilidad de que la
persona seleccionada sea Ama de casa?
A: Ama de casa.
B: Ingreso Bajo.
8
200 8
𝑃𝑃(𝐵𝐵|𝐴𝐴) = = = 0,2667
30 30
200
Del mismo modo, podrían preguntarnos la probabilidad de Ingreso Bajo (B), sabiendo
que la persona es Ama de casa (A):
8
200 8
𝑃𝑃(𝐵𝐵|𝐴𝐴) = = = 0,2
40 40
200
Tenemos un suceso A, el cual puede ocurrir debido a una serie de causas, las cuales
denotamos por Hi, de modo que la probabilidad de que ocurra el suceso coincide con la
suma de la probabilidad del suceso condicionada a que se haya dado cada una de las
causas en particular.
El suceso A puede ocurrir bajo los sucesos/causas H1 a H5. Por este motivo, el espacio
muestral está dividido en pequeñas parcelas de intersección vacía, esto es, que no se dan
a la vez.
Así, estando A⊂Ω, calculamos la probabilidad de que ocurra A del siguiente modo, de
acuerdo con este teorema:
Sabemos entonces que, teniendo en cuenta que la pieza puede haber sido producida por
una de las cuatro máquinas (A, B, C o D), la probabilidad de que tengamos una pieza
defectuosa es de 0,00025. Por tanto, es reducida la probabilidad de que nuestro cliente
se lleve una pieza defectuosa.
Teorema de Bayes
𝐻𝐻 𝑃𝑃(𝐻𝐻𝑖𝑖 ∩𝐴𝐴)
𝑃𝑃 � 𝐴𝐴𝑖𝑖 � = 𝑃𝑃(𝐴𝐴)
(*)
𝑃𝑃(𝐻𝐻𝑖𝑖 ∩𝐴𝐴)
Por otro lado, de la misma definición sabemos que 𝑃𝑃(𝐴𝐴/𝐻𝐻𝑖𝑖 ) = , por lo tanto
𝑃𝑃(𝐻𝐻𝑖𝑖 )
0,05 20
𝑃𝑃(𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 ∩ 𝐷𝐷) 𝑃𝑃(𝐷𝐷𝐵𝐵 |𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚) · 𝑃𝑃(𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚) 100 · 100
𝑃𝑃(𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚|𝐷𝐷) = = = = 0,04
𝑃𝑃(𝐷𝐷) 𝑃𝑃(𝐷𝐷) 25
10000
Una variable aleatoria no es más que una variable de las estudiadas hasta ahora, con la
particularidad de que no somos capaces de asignarle un valor concreto hasta que
determinados hechos futuros hayan ocurrido. Por ejemplo, pensemos en un trabajador
cualquiera de tu empresa, cualquier trabajador elegido al azar: ¿cuál es el salario de este
trabajador? Lo más seguro es que no seas capaz de adivinar su salario, tan solo podrás, a
lo sumo, indicar el rango salarial en el que esperas que se encuentre su salario. Una vez
le hayas preguntado a este trabajador, ya podrás asignarle un valor. Pero, ¿y si ahora que
conocemos su salario cambiamos de trabajador? Vuelta a empezar… Estamos aquí
trabajando con la variable aleatoria salario de un trabajador.
Por tanto, las variables aleatorias son aquellas variables matemáticas a las cuales no
podemos asignarles un valor concreto a priori, y de las cuales solo conocemos el rango
de valores que podrán tomar. Aunque no conocemos su valor, es posible calcular la
probabilidad de que tome determinados valores para, de este modo, poder controlar y
saber algo más acerca de cómo se va a comportar. También podremos calcular su media,
su varianza y, en definitiva, las medidas resumen aprendidas en temas anteriores, que
nos permiten controlar en parte su incertidumbre y conocer un poco más acerca de su
comportamiento.
Definición
En función de los valores que tome la variable, se puede clasificar en discreta o continua
del siguiente modo:
Variable aleatoria discreta: es aquella que solo puede tomar un número finito o
infinito numerable de valores. Por ejemplo: el número de caras en los diez lanzamientos
de una moneda, o el número de lanzamientos necesarios para obtener la primera cara,
etc.
Bernoulli
𝑃𝑃(é𝑥𝑥𝑥𝑥𝑥𝑥𝑥𝑥) = 𝑃𝑃(𝐸𝐸) = 𝑝𝑝
𝑃𝑃(𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓) = 𝑃𝑃(𝐸𝐸� ) = 1 − 𝑝𝑝
En un lote hay N artículos fabricados, entre los cuales hay n defectuosos. Se toma al azar
un artículo del lote y se observa si es defectuoso o no. La variable aleatoria X, que
representa el artículo extraído es defectuoso, se distribuye como una b(p), donde p es la
Binomial
𝑛𝑛
𝑋𝑋~𝐵𝐵(𝑛𝑛; 𝑝𝑝) → 𝑃𝑃(𝑋𝑋 = 𝑥𝑥) = � � (𝑝𝑝) 𝑥𝑥 1 − 𝑝𝑝𝑛𝑛−𝑥𝑥 ,
𝑥𝑥
donde
𝑛𝑛 𝑛𝑛!
� �= .
𝑥𝑥 𝑥𝑥!·(𝑛𝑛−𝑥𝑥)!
𝑋𝑋~𝐵𝐵(4; 0,5)
4
𝑃𝑃(𝑋𝑋 = 2) = � � (0,5)2 (1 − 0,5)4−2 = 6 · 0,25 · 0,25 = 0,375
2
4·3·2·1 24
Previamente se ha calculado que �42� = = = 6.
2·1 (2·1) 4
Poisson
Así, llamaremos Poisson de parámetro λ>0 a un proceso aleatorio para el cual cada
variable aleatoria X se define como número de acontecimientos que ocurren en un
intervalo de longitud t, y se dice que 𝑋𝑋~𝑃𝑃(𝜆𝜆 ∙ 𝑡𝑡). El número de acontecimientos ocurridos
en un intervalo es independiente del correspondiente a cualquier otro intervalo disjunto
con el anterior.
𝑒𝑒 −𝜆𝜆 ·𝜆𝜆𝑥𝑥
𝑋𝑋~𝑃𝑃(𝜆𝜆) → 𝑃𝑃(𝑋𝑋 = 𝑥𝑥) = 𝑥𝑥!
,
20 21 22 23
𝑃𝑃(𝑋𝑋 ≤ 3) = 𝑝𝑝(0) + 𝑝𝑝(1) + 𝑝𝑝(2) + 𝑝𝑝(3) = 𝑒𝑒 −2 � + + + �
0! 1! 2! 3!
= 0,857
Entonces, la probabilidad pedida es:
Normal
Una variable aleatoria continua 𝑋𝑋 sigue una distribución normal de media µ y varianza
𝜎𝜎 2 , y lo denotamos como 𝑋𝑋~𝑁𝑁(𝜇𝜇, 𝜎𝜎 2 ).
Sin embargo, hay variables aleatorias que no siguen una distribución normal. Un ejemplo
de este caso lo encontramos en la variable renta anual de las familias, ejemplo que ya
fue presentado en el tema anterior como ejemplo de variable continua. Los valores que
puede tomar dicha variable continua no se encuentran simétricamente distribuidos
alrededor de un valor central, sino que el conjunto de valores que puede tomar esa
variable va desde el 0 hasta un valor máximo indeterminado. Esta variable presenta una
mayor frecuencia en los valores próximos a cero y una menor probabilidad conforme va
tomando valores elevados y acercándose al valor máximo. Se dice así que la distribución
presenta asimetría por la derecha.
Es posible transformar estas variables para que sigan una distribución normal. Una
transformación habitual consiste en tomar el logaritmo neperiano de la variable, lo cual
tiene sentido para variables positivas como el caso de la renta. En este caso, si 𝑋𝑋 es una
variable positiva con distribución simétrica por la derecha, entonces su transformación
logarítmica 𝑌𝑌 = 𝑙𝑙𝑙𝑙(𝑋𝑋) se distribuye como una distribución log-normal.
Para el cálculo de probabilidades existen tabulaciones de la distribución, que nos dan las
distintas probabilidades para la variable normal tipificada (estandarizada). La
𝑋𝑋 − 𝜇𝜇 𝑋𝑋 − 𝜇𝜇
𝑍𝑍 = =
√𝜎𝜎 2 𝜎𝜎
Vamos a ver con el siguiente ejemplo cómo tipificar la variable 𝑋𝑋 para pasar de un cálculo
de probabilidades sobre 𝑋𝑋 al cálculo de probabilidades sobre 𝑍𝑍.
Si el cociente intelectual (CI) de una población se ajusta a una N(96,2; 5,72 ), elegido un
individuo al azar, ¿cuál es la probabilidad de que su CI sea mayor que 100?
𝑋𝑋 = 𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣 𝑑𝑑𝑑𝑑𝑑𝑑 𝐶𝐶𝐶𝐶.
El valor 0,252 del ejemplo anterior sale de las tablas de tabulación de la normal estándar.
Lo + recomendado
No dejes de leer…
Accede al artículo a través del aula virtual o desde la siguiente dirección web:
http://www.fuenterrebollo.com/Aeronautica2016/ejer-distribuciones.pdf
No dejes de ver…
Este vídeo muestra un tutorial para hallar el área bajo la curva en una distribución
normal.
Accede al vídeo a través del aula virtual o desde la siguiente dirección web:
http://www.utel.edu.mx/blog/infografias-utel/estadistica-y-probabilidad-tabla-de-
distribucion-normal/
+ Información
A fondo
A continuación, se facilita el enlace a unos apuntes muy sencillos. Estos han sido
facilitados por la Universidad de La Rioja, procedentes de un seminario de creatividad
matemática. En ellos se recuerdan los principales elementos del análisis combinatorio.
Accede al artículo a través del aula virtual o desde la siguiente dirección web:
http://www.unirioja.es/talleres/creatividad_matematica/SeminarioBachillerato/COM
BINATORIA.pdf
Bibliografía
Arias, L., Portilla, L. M. y Bernal, M. E. (2008). Los costos y su manejo con el control
estadístico de procesos, con ayuda de la distribución normal. Scientia et Technica, 38,
259-264. Recuperado de
http://revistas.utp.edu.co/index.php/revistaciencia/article/view/3757/2001
7 TEMA
Estadística
Esquema
Ideas clave
Para estudiar este tema es necesario que leas las Ideas clave expuestas a continuación.
Es necesario también leer los siguientes documentos:
Propiedades de logaritmos:
Sabemos que la estimación puntual es una técnica que busca determinar el mejor
estadístico. Una vez calculado por única vez, su valor deberá ser el que tenga la mayor
aproximación al valor exacto del parámetro.
Algunas partes del procedimiento requieren del cálculo diferencial e integral para
maximizar la función de verosimilitud, estas no serán tratadas ni en las
exposiciones ni en la evaluación.
En las páginas web que te iremos recomendando a lo largo del tema 2, podrás
documentarte al respecto
Ahora resolveremos paso a paso un ejemplo que podrás tomar como modelo para la
solución de otros casos.
Vamos a suponer que se extrae una muestra de tamaño n de una población que sigue una
distribución de probabilidad exponencial con parámetro 𝜃𝜃. Dado que las variables
aleatorias de la muestra son: 𝑥𝑥1 , 𝑥𝑥2 , 𝑥𝑥3 , … 𝑥𝑥𝑛𝑛 , la función de probabilidad que sigue la
población se puede expresar como:
𝑥𝑥𝑖𝑖
1
𝑓𝑓(𝑥𝑥𝑖𝑖 ; 𝜃𝜃) = 𝑒𝑒 −− 𝜃𝜃 Para 𝑥𝑥𝑖𝑖 > 0; 𝜃𝜃 > 0
𝜃𝜃
𝑛𝑛
∑𝑖𝑖=1 𝑥𝑥𝑖𝑖
𝑥𝑥1 𝑥𝑥2
1 1 1
𝐿𝐿(𝑥𝑥1 , 𝑥𝑥2 , 𝑥𝑥3 , … 𝑥𝑥𝑛𝑛 ; 𝜃𝜃) = � 𝑒𝑒 − 𝜃𝜃 � ∗ � 𝑒𝑒 − 𝜃𝜃 � … ℎ𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎 n 𝑡𝑡é𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟 = 𝑒𝑒 𝜃𝜃 ,
𝜃𝜃 𝜃𝜃 𝜃𝜃𝑛𝑛
𝑛𝑛
1 ∑𝑖𝑖=1 𝑥𝑥𝑖𝑖
𝑙𝑙𝑙𝑙�𝐿𝐿(𝑥𝑥1 , 𝑥𝑥2 , 𝑥𝑥3 , … ; 𝜃𝜃)� = 𝑙𝑙𝑙𝑙 � 𝑛𝑛 𝑒𝑒 𝜃𝜃 �
𝜃𝜃
𝑛𝑛
1 ∑𝑖𝑖=1 𝑥𝑥𝑖𝑖
𝑙𝑙𝑙𝑙 � � + 𝑙𝑙𝑙𝑙 �𝑒𝑒 𝜃𝜃 �
𝜃𝜃 𝑛𝑛
∑𝑛𝑛𝑖𝑖=1 𝑥𝑥𝑖𝑖
𝑙𝑙𝑙𝑙(1) − 𝑛𝑛 𝑙𝑙𝑙𝑙(𝜃𝜃) +
𝜃𝜃
Recuerda que ln (e)=1, ya que el número e es la base del sistema de logaritmos naturales.
Ahora considerando toda la igualdad podemos expresar:
∑𝑛𝑛𝑖𝑖=1 𝑥𝑥𝑖𝑖
𝑙𝑙𝑙𝑙(𝑥𝑥1 , 𝑥𝑥2 , 𝑥𝑥3 , … 𝑥𝑥𝑛𝑛 ; 𝜃𝜃) = −𝑛𝑛𝑛𝑛𝑛𝑛(𝜃𝜃) +
𝜃𝜃
1 ∑𝑛𝑛
𝑖𝑖=1 𝑥𝑥𝑖𝑖 ∑𝑛𝑛
𝑖𝑖=1 𝑥𝑥𝑖𝑖 𝑛𝑛 𝜃𝜃2 𝑛𝑛 ∑𝑛𝑛 𝑥𝑥𝑖𝑖
−𝑛𝑛 � � + 𝜃𝜃2
= 0; 𝜃𝜃2
= ; ∑𝑛𝑛𝑖𝑖=1 𝑥𝑥𝑖𝑖 = ; 𝑖𝑖=1 =𝜃𝜃� = 𝑋𝑋�
𝜃𝜃 𝜃𝜃 𝜃𝜃 𝑛𝑛
Consistencia
Sesgo
Por ejemplo, una estimación puntual se puede comparar al ejercicio de tiro a una
diana. En este sentido, el centro de la diana es el verdadero valor del parámetro a estimar
(θ). De manera que los intentos de un tirador insesgado estarían distribuidos alrededor
del centro de la diana. Mientras que los intentos de un tirador sesgado estarían
sistemáticamente desviados de la diana.
Eficiencia
Recordando que la dispersión de una variable aleatoria se mide por medio de la varianza,
por tanto, de dos estimadores centrados de un mismo parámetro, se prefiere el que tiene
menor varianza y se dice que es el más eficiente. Lo anterior se puede expresar como:
Por otro lado, T1 es más eficiente que T2, si V(T1) < V(T2)
Suficiencia
𝑓𝑓(𝑥𝑥1 , 𝑥𝑥2 , 𝑥𝑥3 , 𝑥𝑥4 , … 𝑥𝑥𝑛𝑛 ; 𝜃𝜃) = ℎ(∪; 𝜃𝜃)𝑔𝑔(𝑥𝑥1 , 𝑥𝑥2 , 𝑥𝑥3 , 𝑥𝑥4 , … 𝑥𝑥𝑛𝑛 ), denominada factorización
de Neyman Fisher. Para demostrar la igualdad anterior, utilizaremos como función
𝑒𝑒 −𝜆𝜆
de densidad el modelo de Poisson 𝑃𝑃(𝑥𝑥; 𝜆𝜆) = 𝜆𝜆𝑥𝑥 𝑥𝑥!
; 𝑥𝑥 = 1,2,3,4, …
Solución:
ln�𝐿𝐿(𝑥𝑥1 , 𝑥𝑥2 , 𝑥𝑥3 , … 𝑥𝑥𝑛𝑛 ; 𝑝𝑝)� = 𝑛𝑛 𝑙𝑙𝑙𝑙𝑙𝑙 + � 𝑥𝑥𝑖𝑖 ln(1 − 𝑝𝑝) − 𝑛𝑛 ln(1 − 𝑝𝑝)
𝑖𝑖=1
Finalmente:
𝑛𝑛
𝑝𝑝 =
∑𝑛𝑛𝑖𝑖=1 𝑥𝑥𝑖𝑖
Ahora bien, si tenemos una muestra de tamaño n=6, compuesta por 3, 3, 2, 1,2,3, el
estimador de máxima verosimilitud de p, será:
6 6 3
𝑝𝑝̂ = = =
1 + 2 + 2 + 3 + 3 + 3 14 7
𝑥𝑥 −𝑥𝑥
𝑓𝑓(𝑥𝑥) = 𝑒𝑒 𝜃𝜃
𝜃𝜃
Donde θ>0; calcular el estimador máximo verosímil de θ para una muestra aleatoria
simple de tamaño n.
Solución:
� � 𝑒𝑒 𝜃𝜃 � 𝑥𝑥𝑖𝑖
𝜃𝜃
𝑖𝑖=1
3. La siguiente tabla contiene una muestra aleatoria simple de 15 registros de los tiempos
para realizar una tarea:
Calcula la estimación máximo verosímil del tiempo medio de realización del proceso.
Solución:
15
1 42.87
𝑥𝑥̅ = � 𝑥𝑥𝑖𝑖 = = 2.858
15 15
𝑖𝑖=1
Solución:
5. Una urna contiene bolas blancas y negras. Sea p la probabilidad de extraer una bola
blanca, cuando se realiza una extracción al azar. La variable aleatoria asociada a esta
prueba es X, que puede tomar los siguientes valores: X=1, si la bola extraída es blanca,
X= 0, si la bola extraída es negra. ¿Qué valor de p es el estimador de máxima
verosimilitud?
Solución:
Lo + recomendado
No dejes de leer…
Accede al artículo a través del aula virtual o desde la siguiente dirección web:
http://www.gestiopolis.com/que-es-un-pronostico-caracteristicas-y-metodos/
+ Información
A fondo
Accede al documento a través del aula virtual o desde la siguiente dirección web:
http://halweb.uc3m.es/esp/Personal/personas/aarribas/esp/docs/Sol_Ej_EMV.pdf
Accede al documento a través del aula virtual o desde la siguiente dirección web:
http://www2.ulpgc.es/hege/almacen/download/29/29399/emv.pdf
Bibliografía
8
[8.7] Intervalo de confianza para el cociente de variaciones
Esquema
Ideas clave
Para estudiar este tema es necesario que leas las Ideas clave expuestas a continuación.
Es muy importante que tengas en cuenta las páginas web señaladas en el desarrollo de
los temas anteriores, ya que te servirán de referencia cuando necesites revisar alguna
fórmula o concepto.
Te recomendamos que leas con mucha atención el desarrollo de cada apartado, así como
los ejemplos resueltos que han sido preparados para guiarte en tu estudio e incrementar
tu experiencia operacional.
La búsqueda de información segura, veraz, confiable, que nos dé mayor certeza y nos
permita tomar mejores decisiones, hace necesaria la formulación de intervalos para
estimar parámetros de la población.
Los grados de confianza que se manejan en la práctica son 90%, 95% y 99%. Cada
porcentaje representa el área central entre dos valores de Z simétricamente situados. Los
valores de Z correspondientes a los grados de confianza anteriores son: 1.64, 1.96 y 2.58
respectivamente.
O bien:
𝜎𝜎 𝜎𝜎
𝑋𝑋� − 𝑍𝑍 ≤ 𝜇𝜇 ≤ 𝑋𝑋� +
√𝑛𝑛 √𝑛𝑛
Ejemplos:
1. Si 𝑋𝑋�= 80, σ=8 y n= 64, construya una estimación de intervalo de confianza del 95%
de la media poblacional 𝜇𝜇.
Solución:
Sustituyendo en la fórmula anterior:
8 8
80 − 1.96 ≤ 𝜇𝜇 ≤ 80 + 1.96
√64 √64
2. Suponga que se desea estimar la vida media de un gran embarque de focos. Se sabe
que la desviación típica es de 80 horas, y una muestra aleatoria de 81 focos ha revelado
que la vida media de los focos de la muestra es de 375 horas.
Construye una estimación de intervalo de confianza del 90% para la media poblacional
de la duración de los focos de este embarque.
Solución:
Considerando que muy rara vez se conoce la desviación estándar real de la población,
para hacer una estimación de la media formulando un intervalo de confianza, deberán
� y 𝑺𝑺.
utilizarse solamente los estadísticos de la muestra 𝑿𝑿
Tomando en cuenta lo anterior, la fórmula que se utiliza para hacer una estimación por
intervalo de confianza es:
𝑆𝑆
𝑋𝑋� ± 𝑡𝑡𝑛𝑛−1
√𝑛𝑛
O bien:
𝑆𝑆 𝑆𝑆
𝑋𝑋� − 𝑡𝑡𝑛𝑛−1 ≤ 𝜇𝜇 ≤ 𝑋𝑋� + 𝑡𝑡𝑛𝑛−1
√𝑛𝑛 √𝑛𝑛
Por ejemplo, para una muestra de tamaño 11 y un grado de confianza del 90%, el número
de grados de libertad es 10, y dado que 1-α = 0.90, el 0.10 restante queda repartido
simétricamente en los dos extremos de la distribución, por tanto, el valor de t se debe
buscar en la columna encabezada por el valor 0.05, como se muestra en la figura.
Ejemplos:
1. En una dependencia se desea calcular el ingreso medio de una comunidad, para esto
se tomó una muestra de 25 familias y se determinó un ingreso medio de $ 12500 con una
desviación estándar de $800. Formule un intervalo de confianza del 90% para hacer una
estimación del ingreso medio de la zona.
Solución:
El valor de t correspondiente a (25-1) grados de libertad, con α/2 = 0.05 es 1.7109, por
lo que el intervalo de confianza se puede expresar como:
800 800
12500 − 1.7109 ∗ ≤ 𝜇𝜇 ≤ 12500 + 1.7109 ∗
√25 √25
Solución:
Dado que el tamaño de la muestra es mayor que 30, el Teorema del límite central nos
permite utilizar la distribución normal como distribución de muestreo, lo cual
significa que para el grado de confianza del 90%, podemos utilizar Z= 1.64, por tanto:
800 800
12500 − 1.64 ∗ ≤ 𝜇𝜇 ≤ 12500 + 1.64 ∗
√50 √50
Para formular un intervalo de confianza para un nivel dado (90%, 95%, 99%) para la
varianza y la desviación típica de una población normal, debemos tener en cuenta la
(𝒏𝒏−𝟏𝟏)𝑺𝑺𝟐𝟐
variable aleatoria 𝝈𝝈𝟐𝟐
que tiene una distribución chi cuadrada.
Ejemplos:
Se pide construir un intervalo con un nivel de confianza del 90% para la varianza de la
población.
Solución:
Ahora considerando que α= 0.1, tenemos que α/2 = 0.05, y para 19 grados de libertad
los valores de chi cuadrada son 10.1117 y 30.144, por lo tanto sustituyendo en la
fórmula anterior:
19 ∗ 2000 19 ∗ 2000
< 𝜎𝜎 2 <
30.144 10.1117
Hemos visto que en una muestra de tamaño n la proporción p de elementos que tienen
cierta característica es p=x/n, x es el número de elementos cuya proporción interesa.
Utilizaremos la fórmula:
𝑝𝑝 ∗ (1 − 𝑝𝑝) 𝑝𝑝 ∗ (1 − 𝑝𝑝)
𝑝𝑝 − 𝑍𝑍 ∗ � ≤ 𝜋𝜋 ≤ 𝑝𝑝 + 𝑍𝑍 ∗ �
𝑛𝑛 𝑛𝑛
Ejemplo:
Solución:
Construir un intervalo de confianza del 95% para la proporción de días en los que se
efectuaron 3 operaciones.
Solución:
0.041 ≤ π ≤ 0.159
Dadas dos muestras 𝑛𝑛1 ≥ 30, 𝑛𝑛2 ≥ 30, se puede considerar la distribución de la
diferencia de medias como aproximadamente normal, sin perder de vista, que si se sabe
que las poblaciones son normales, la distribución muestral de medias es normal sin
importar el tamaño de las muestras.
En la expresión anterior, 𝑥𝑥̅1 , 𝑥𝑥̅2 , son los valores de las medias de cada muestra; 𝜇𝜇1 , 𝜇𝜇2 , son
las medias de las poblaciones; 𝜎𝜎1 2 , 𝜎𝜎2 2 son las varianzas poblacionales y 𝑛𝑛1 , 𝑛𝑛2
representan el tamaño de cada una de las muestras.
Ejemplos:
Solución:
5 10 5 10
(70.5 − 71.4) − 1.65 ∗ � + < 𝜇𝜇1 − 𝜇𝜇2 < (70.5 − 71.4) + 1.65 ∗ � +
12 12 12 12
𝑥𝑥̅1 = 72.5; 𝑥𝑥̅2 = 69.8; 𝑛𝑛1 = 𝑛𝑛2 = 40; 𝑠𝑠1 = 2.45; 𝑠𝑠2 = 1.75
Solución:
Dado que el tamaño de las muestras n1, n2 >=30, de acuerdo con el teorema del límite
centra podemos utilizar para hacer la estimación el valor de Z= 1.96, por tanto:
𝑋𝑋�1 = 15; 𝑋𝑋�2 = 22; 𝑆𝑆1 2 = 7.5; 𝑆𝑆2 2 = 3; 𝑛𝑛1 = 10; 𝑛𝑛2 = 8
Solución:
Para resolver este caso tendremos en cuenta que el tamaño de las muestras es menor
de 30. No se conocen las varianzas de las poblaciones, pero se considera que son
iguales, es decir 𝜎𝜎1 2 = 𝜎𝜎2 2 , en este sentido para desarrollar el procedimiento de
solución es necesario calcular una varianza conjunta 𝑆𝑆𝑝𝑝 2, utilizando la expresión:
Considerando que para construir el intervalo de confianza del 90%, debemos buscar
el valor de t en la tabla de la distribución t de Student.
1 1 1 1
(15 – 22) -1.746* 2.35* � + < µ1 - µ2 < (15-22) + 1.746* 2.35*� +
10 8 10 8
Solución:
25 100 2
�10 + � 225
𝑣𝑣 = 8 = ≅ 10
2 2 23.01
25 100
� � � 8 �
� 10
9 � + � 7 �
De tal forma que para (1- α)= 0.90, y 10 grados de libertad, el valor de t es igual a 1.812.
A continuación, sustituyendo en la fórmula:
25 100 25 100
(44-40) – 1.812 * � + < 𝜇𝜇1 − 𝜇𝜇2 < (44 − 40) + 1.812 ∗ � +
10 8 10 8
El intervalo permite aceptar o rechazar las suposiciones acerca de si los valores de las
varianzas poblacionales son iguales o no.
Para la cual, 𝑆𝑆1 2 , 𝑆𝑆2 2, son las varianzas de muestras aleatorias independientes. F es el
valor de la distribución F de Fisher, con v1= n1-1 grados de libertad en el numerador y
v2= n2-1 grados de libertad en el denominador. Para la aplicación de la fórmula anterior
es necesario considerar como n1 el tamaño de la muestra de la varianza más grande.
Ejemplo:
𝑆𝑆1 2 = 8; 𝑛𝑛1 = 10; 𝑆𝑆2 2 = 3; 𝑛𝑛2 = 8, construya un intervalo de confianza del 90% para el
cociente de las varianzas poblacionales.
Solución:
Para el nivel de confianza y los tamaños de las muestras dados, se tiene: F(9, 7)= 3.677,
y F(7,9)=3.293, por lo tanto:
8 𝜎𝜎1 2 8
< 2<
3.677 ∗ 3 𝜎𝜎2 3.293 ∗ 3
𝜎𝜎1 2
0.73 < < 0.81
𝜎𝜎2 2
Sean p1 y p2 las proporciones de éxitos de dos muestras aleatorias de tamaños n1 y n2, con
n1, n2 ≥ 30. De acuerdo con la distribución Binomial, sabemos que q1 = 1-p1, y q2 = 1-p2.
En base a lo anterior, la estimación de la diferencia de proporciones poblacionales π1 –
π2 por medio de un intervalo de confianza de un nivel establecido, tiene la forma:
Ejemplo:
Solución:
pA= 50/200=0.25; pB=30/150 = 0.2; q1= 1-0.25=0.75; q2=1-0.2 = 0.8; y para el grado
de confianza que se pide, Z= 1.96, por tanto sustituyendo en la fórmula anterior:
0.25∗0.75 0.20∗0.80
(0.25-0.20)–1.96*� + < 𝜋𝜋𝐴𝐴 − 𝜋𝜋𝐵𝐵 < (0.25-0.20)+1.96*
200 150
0.25∗0.75 0.20∗0.80
� +
200 150
Ejemplo:
Solución:
De esta forma la expresión que vamos a utilizar para construir el intervalo es.
𝑝𝑝�(1−𝑝𝑝�)
𝑝𝑝̂ ± 𝑍𝑍 � , siendo 𝑝𝑝̂ el estimador del parámetro que se busca
𝑛𝑛
(0.45, 0.65)
𝑝𝑝𝑝𝑝
𝑁𝑁 �𝑝𝑝, � 𝑛𝑛 �.
Lo + recomendado
No dejes de leer…
Te recomendamos este libro en general y la lectura del capítulo 4 en particular, que hace
referencia a la toma de decisiones en la Administración.
No dejes de ver…
Accede al vídeo a través del aula virtual o desde la siguiente dirección web:
https://www.youtube.com/watch?v=qfhtjcgnoGg
+ Información
A fondo
Accede al documento a través del aula virtual o desde la siguiente dirección web:
http://www.ugr.es/~mdhuete/rlaborales/PTema4.pdf
Bibliografía
independientes
9 TEMA
Estadística
Esquema
Ideas clave
Para estudiar este tema es necesario que leas las Ideas clave expuestas a continuación.
Es muy importante que tengas en cuenta las páginas web señaladas en el desarrollo de
los temas anteriores, ya que te servirán de referencia cuando necesites revisar alguna
fórmula o concepto.
En toda prueba de hipótesis debe haber un nivel de significancia que se simboliza con
la letra α y es la probabilidad de rechazar la hipótesis nula cuando es verdadera, es decir
de cometer un error tipo I. Así mismo, cuando se acepta una hipótesis nula que es falsa
se comete un error tipo II. La probabilidad de cometer un error tipo II se simboliza con
la letra β
Accede al vídeo «Prueba de hipótesis para una población» a través del aula
virtual
Casos y soluciones:
1. Una cadena de tiendas está implementando un nuevo sistema para atender a los
clientes en menor tiempo. Actualmente el tiempo promedio de espera es de 10 minutos,
con una desviación estándar poblacional de 2.5 minutos. El departamento de control de
calidad calculó en una muestra de 50 clientes que el tiempo medio de espera con el nuevo
sistema es de 9 minutos. Con un nivel de significancia de 0.05, ¿se puede concluir que el
tiempo medio de espera es menor de 10 minutos?
Solución:
9−10
para 𝑋𝑋�=9; n=50; σ = 2.5; µ = 10; tenemos: 𝑍𝑍 = 2.5 =-2.8284
√50
2. El gerente de una casa de bolsa afirma que sus asesores financieros hacen en promedio
cada uno 50 llamadas telefónicas a clientes preferentes, en busca de ampliar los
portafolios de inversión. Algunos de sus agentes piensan que su estimación es muy
conservadora, y que en realidad se hacen más llamadas. Una muestra aleatoria de 30
asesores ha revelado que la cantidad media de llamadas es 52, con una desviación
estándar de 2.8. Con el nivel de significancia de 0.05, ¿se puede afirmar que el número
de llamadas por asesor es de más de 50?
Solución:
52−50
𝑡𝑡 = 2.8 = 3.9123
√30
Conclusión: dado que 3.9123 > 1.699 que es el valor crítico de t, se rechaza Ho y
se acepta que el número de llamadas es mayor que 50.
3. Un analista urbano afirma que en una región determinada el 25% de las familias que
rentan departamento se mudan en el lapso de un año. Una muestra de 250 familias
reveló que 56 se mudaron el año pasado. ¿Sugiere esta evidencia que la proporción de
familias que se mudan en el lapso de una año es diferente al porcentaje que se conoce?
Utilice un nivel de significancia de 0.01.
Solución:
Cuando se conocen las varianzas de las dos poblaciones, el error estándar de la diferencia
entre dos medias se puede calcular mediante:
Casos:
promedio se calculó en 35%, con una desviación estándar de 6.5%. Se pide utilizar un
nivel de significancia α=0.01
Solución:
31.5−35
𝑍𝑍 = 2 2
=- 2.80
�5 +6.5
35 50
Los valores críticos de Z son ± 2.58, el valor del estadístico de prueba Z=-2.80, se
encuentra en la región de rechazo de la Hipótesis nula, por lo que no se puede afirmar
que los rendimientos de las acciones son iguales.
Para llevar a cabo esta prueba se supone que las poblaciones muestreadas tienen
desviaciones estándares iguales pero desconocidos, las desviaciones de las muestras se
combinan formulándose una varianza conjunta:
2
(𝑛𝑛1 − 1)𝑆𝑆1 2 + (𝑛𝑛2 − 1)𝑆𝑆2 2
𝑆𝑆𝑝𝑝 =
𝑛𝑛1 + 𝑛𝑛2 − 2
𝑋𝑋�1 − 𝑋𝑋�2
𝑡𝑡 =
1 1
�𝑆𝑆𝑝𝑝 2 � + �
𝑛𝑛1 𝑛𝑛2
Matutino: 6 9 8 7 10 8
Vespertino 9 11 8 12 10 13 15 10
Solución:
La forma de la hipótesis alternativa señala que debemos efectuar una prueba de dos
extremos.
Las pruebas para diferencias de proporciones entre dos poblaciones revisten gran
importancia en el ámbito empresarial porque se utilizan para tomar decisiones sobre
todo cuando es necesario comparar porcentajes de unidades defectuosas en dos procesos
de producción y determinar cuál es el mejor, lo cual implica un análisis a fondo de los
procedimientos de control de calidad. Su aplicación es fundamental también cuando es
necesario revisar los efectos de medicamentos suministrados en dos tratamientos
diferentes, esto con el fin de determinar la efectividad de los mismos.
Es necesario considerar que, para poder calcular el estadístico de prueba, en primer lugar
debemos obtener una proporción conjunta pc tomando en cuenta los tamaños de las
muestras y el número de elementos que en cada una de ellas cumple con alguna
característica establecida. Dado que en la Hipótesis nula se plantea que las proporciones
de las poblaciones π1 y π2 son iguales, resulta muy adecuado obtener una proporción
global combinando ambas muestras. La fórmula que se aplica es:
𝑋𝑋1 + 𝑋𝑋2
𝑝𝑝𝑐𝑐 =
𝑛𝑛1 + 𝑛𝑛2
𝑝𝑝1 − 𝑝𝑝2
𝑍𝑍 =
𝑝𝑝𝑐𝑐 (1 − 𝑝𝑝𝑐𝑐 ) 𝑝𝑝𝑐𝑐 (1 − 𝑝𝑝𝑐𝑐 )
� +
𝑛𝑛1 𝑛𝑛2
Ejemplo:
6. Como preparación para la revisión del contrato colectivo de trabajo el sindicato de una
gran empresa cuestionó a sus agremiados acerca de sus preferencias sobre uno de dos
aspectos: incrementar el salario o los beneficios para el retiro. De 1000 hombres que
fueron entrevistados, 750 estuvieron a favor de un incremento en los beneficios para el
retiro, y de 500 mujeres entrevistadas 400 estuvieron a favor de un incremento en los
beneficios para el retiro. Con un nivel de significancia de 0.05, pruebe la hipótesis de que
las proporciones de hombres y mujeres que están a favor de un incremento en los
beneficios para el retiro son iguales.
Solución:
750+400
𝑝𝑝𝑐𝑐 = = 0.767; p1=750/1000= 0.75; p2= 400/500 = 0.8
1500
0.75−0.80
𝑍𝑍 = =-2.16
0.767∗(1−0.767) 0.767∗(1−0.767)
� +
1000 500
Para un nivel de significancia de 0.05 y una prueba de dos extremos, los valores críticos
de Z son ± 1.96 por tanto el valor del estadístico de prueba queda situado en la zona
Uno de los análisis estadísticos que se utilizan en forma más común en la práctica es la
comparación de dos grupos diferentes de observaciones con respecto a una
variable numérica. Cuando existe Normalidad y las varianzas son iguales, la
comparación de los dos grupos se puede realizar con un parámetro como la media
poblacional. Las muestras independientes se extraen de poblaciones diferentes, es decir,
cuando la selección de los datos de una población no está relacionada con la de los datos
de la otra, son muestras independientes.
Al resolver un caso señalaré el procedimiento que se sigue para efectuar una prueba de
hipótesis con este tipo de muestra.
2
Empresa Avalúos A Avalúos B Diferencias d 𝑑𝑑 − 𝑑𝑑̅
1 235000 230000 5000 360000
2 212000 205000 7000 6760000
3 230000 219000 11000 43560000
4 242000 238000 4000 160000
5 205000 200000 5000 360000
6 230000 225000 5000 360000
7 231000 228000 3000 1960000
8 212000 215000 -3000 54760000
9 225000 223000 2000 5760000
10 250000 245000 5000 360000
𝑑𝑑̅ = 4400 114400000
Las cantidades están expresadas en dólares. Se pide analizar si hay diferencia en los
avalúos medios de las dos compañías, con un nivel de significancia de 0.05.
Solución:
Siendo µd, el promedio de las diferencias entre los avalúos de las dos compañías.
Se calculan las diferencias entre los avalúos y estas se promedian:
∑ 𝑑𝑑 44000
𝑑𝑑̅ = = = 4400
𝑛𝑛 10
(𝑓𝑓𝑜𝑜 −𝑓𝑓𝑒𝑒 )2
𝜒𝜒 2 = ∑ � 𝑓𝑓𝑒𝑒
�;
Ejemplos:
Solución:
a) Ho: Las frecuencias son iguales
𝐻𝐻1 : Las frecuencias no son iguales
b) Considerando k=3, para 2 grados de libertad y nivel de
significancia 0.05, rechace Ho si: 𝜒𝜒2 > 5.991
20 − 30 2 30 − 30 2 40 − 30 2
c) 𝜒𝜒2 = + + = 6,67
30 30 30
El valor deldenominador (30) se obtuvo sumando lasfrecuencias observadas
y dividiendo la suma entre 3
d) Dado 6.67>5.991 serechaza Ho, por tanto las frecuencias no son
iguales.
= 0.05
5,991 6,67
Con un nivel de significancia 0.05, ¿existe relación entre el tipo de comunidad en el que
reside la persona y su preferencia en temas de lectura?
Solución:
En una tabla de contingencia como la del caso, la frecuencia esperada fe para una
frecuencia observada fo, se calcula multiplicando el total de la hilera por el total de la
columna y dividiendo el producto entre el total de la muestra. Así por ejemplo la fe que
410∗430
corresponde a 180= .
1040
𝑓𝑓𝑓𝑓 − 𝑓𝑓𝑓𝑓 2
𝑓𝑓𝑓𝑓 − 𝑓𝑓𝑓𝑓 2
fo fe 𝑓𝑓𝑓𝑓
180 169.52 109.85 0.65
100 124.04 577.85 4.66
150 136.44 183.81 1.35
130 130.10 0.01 0.00
110 95.19 219.27 2.30
90 104.71 216.43 2.07
100 110.38 107.84 0.98
90 80.77 85.21 1.05
90 88.85 1.33 0.01
total 13.07
Dado que 13.07> 9.488, se rechaza la hipótesis nula por tanto no hay relación entre la
comunidad en la que habita la gente y sus preferencias de lectura.
Lo + recomendado
No dejes de leer…
Accede al artículo a través del aula virtual o desde la siguiente dirección web:
http://www.liderazgoymercadeo.com/liderazgo_tema.asp?id=95
Accede al documento a través del aula virtual o desde la siguiente dirección web:
http://www.vitutor.com/estadistica/inferencia/c_e.html
No dejes de ver…
Pruebas de hipótesis
Accede al vídeo a través del aula virtual o desde la siguiente dirección web:
Vídeo 1:
https://www.youtube.com/watch?v=AJcy4eZMwWM
Vídeo 2:
https://www.youtube.com/watch?v=TZlcEKlgo7Y
Vídeo 3:
http://es.slideshare.net/jab2801/t-de-student-para-dos-muestras-independientes-
9249928
Accede al vídeo a través del aula virtual o desde la siguiente dirección web:
https://www.youtube.com/watch?v=_LLrNTJtMs0
+ Información
A fondo
Ejercicios resueltos
Accede al documento a través del aula virtual o desde la siguiente dirección web:
http://www.monografias.com/trabajos89/ejercicios-resueltos-prueba-
hipotesis/ejercicios-resueltos-prueba-hipotesis.shtml
Bibliografía
Rubin, L. (2004). Estadística para Administración y Economía (7ª ed). México: Pearson
Educación.
[10.6] Pronósticos
10 TEMA
Estadística
Esquema
Ideas clave
Para estudiar este tema es necesario que leas las Ideas clave expuestas a continuación.
Es muy importante que tengas en cuenta las páginas web señaladas en el desarrollo de
los temas anteriores, ya que te servirán de referencia cuando necesites revisar alguna
fórmula o concepto.
Accede al vídeo «Modelo de regresión lineal simple» a través del aula virtual
«r» y su valor varía entre -1 y 1. Cuando r=1, se dice que las dos variables tienen una
relación directa perfecta; si r=-1 la relación entre las variables es no directa perfecta, si
r=0 no hay ninguna relación entre las variables.
𝒏𝒏 ∑ 𝒙𝒙𝒙𝒙 − ∑ 𝒙𝒙 ∑ 𝒚𝒚
𝒓𝒓 =
�𝒏𝒏 ∑ 𝒙𝒙𝟐𝟐 − (∑ 𝒙𝒙)𝟐𝟐 ∗ �𝒏𝒏 ∑ 𝒚𝒚𝟐𝟐 − (∑ 𝒚𝒚)𝟐𝟐
Ejemplo:
Calcula el valor del coeficiente de correlación r, para la siguiente serie de datos, e indica
el significado del resultado obtenido
Solución:
Los elementos de la fórmula se han obtenido utilizando la hoja de cálculo de Excel, con
la cual podemos simplificar el procedimiento.
8∗246−23∗66
𝑟𝑟 = =0.7867
√8∗99−232 ∗√8∗700−66^2
� = 𝒂𝒂 + 𝒃𝒃𝒃𝒃; 𝒀𝒀
La forma del modelo de Regresión Lineal Simple es 𝒀𝒀 � se conoce como valor
La figura muestra la recta de regresión que se ajusta mejor a la trayectoria general de los
datos, y su ecuación se obtiene aplicando el procedimiento de mínimos cuadrados.
El procedimiento debe su nombre a que la suma de los cuadrados de las distancias entre
los puntos del diagrama de dispersión, y los correspondientes que están sobre la recta,
es mínima. Véase la siguiente figura:
Dado que un modelo de regresión lineal es una herramienta formidable capaz de mejorar
el proceso de toma de decisiones empresariales y profesionales, su formulación requiere
una serie de condiciones que al cumplirse garantizan su efectividad:
» Muestra suficiente. Es la que garantiza que los datos son fiables, que reducen la
incertidumbre y el sesgo, y que por lo tanto le dan confiabilidad a la investigación.
» Regresores deterministas. La diferencia entre los valores reales de la variable Y y
los valores estimados de Y, obtenidos con un modelo de regresión lineal se denomina
perturbación estocástica o error de estimación. En la ecuación de regresión el error de
estimación se representa como ui. La variable Y se conoce como regresora o regresada,
y la variable X se denomina también variable explicativa. Para que un regresor sea
determinista es necesario que no haya relación entre la perturbación y las variables
explicativas.
» No multicolinealidad. Cuando se utiliza el modelo de regresión lineal para
formular un modelo económico, por ejemplo, puede ocurrir que las variables
explicativas o regresoras tengan un alto grado de correlación, este hecho se conoce
como multicolinealidad, y puede ocurrir en series de tiempo o en series
macroeconómicas.
En este modelo se considera que los factores que no están incluidos explícitamente,
están incorporados en ui. Los valores de ui pueden ser positivos o negativos, pero como
se cancelan el efecto de la media sobre los valores estimados de Y es cero.
Dada una muestra aleatoria simple con una variable independiente o explicativa
X y una variable dependiente o regresada Y, la ecuación de regresión lineal tiene
la forma:
𝑌𝑌� = 𝑎𝑎 + 𝑏𝑏𝑏𝑏
∑ 𝑋𝑋𝑋𝑋 − 𝑛𝑛𝑋𝑋�𝑌𝑌�
𝑏𝑏 = ; 𝑎𝑎 = 𝑌𝑌� − 𝑏𝑏𝑋𝑋�
∑ 𝑋𝑋 2 − 𝑛𝑛𝑋𝑋� 2
Ejemplo:
Por ejemplo, el consumo no solo depende de la renta, también depende de los precios de
un bien de interés y de otros bienes que pueden ser complementarios o sustitutos. En el
ámbito empresarial las ventas están relacionadas con la inversión, pero también son
importantes las políticas de precios y el gasto en publicidad.
En este contexto, un modelo de regresión lineal simple en el que intervienen una variable
independiente y una dependiente puede presentar serias limitaciones para ajustarse en
forma adecuada al comportamiento de los registros de una muestra. La poca efectividad
de un modelo de regresión lineal simple puede deberse a la omisión de otras variables
causales, cuya inclusión mejoraría en forma notable su capacidad explicativa.
Por lo anterior, al formular un modelo de regresión lineal debemos tener en cuenta todas
las variables que intervienen, con el objeto de obtener la ecuación que mejor se ajuste a
los datos, que explique las variaciones de Y y que nos permita calcular los pronósticos
más cercanos a la realidad.
Dado que el modelo de regresión lineal simple para una población es:
� = 𝑨𝑨 + 𝑩𝑩𝑩𝑩
𝒀𝒀
La hipótesis nula Ho señala que no hay relación entre las variables estableciendo que el
coeficiente de la regresión poblacional vale cero. La hipótesis alternativa establece lo
contrario.
2
∑�𝑌𝑌 − 𝑌𝑌��
𝑆𝑆𝑒𝑒 = �
𝑛𝑛 − 2
Se = 786.90
= 11.45
6
Podría afirmarse que, para un valor dado del precio del producto, el pronóstico de la
demanda tendría una variación de ± 11 unidades.
𝑆𝑆𝑒𝑒
𝑆𝑆𝑏𝑏 =
�∑ 𝑋𝑋 2 − 𝑛𝑛𝑋𝑋� 2
11.45
𝑆𝑆𝑏𝑏 = = 2.208
�243.20 − 8 ∗ (5.2)2
𝑏𝑏 − 𝐵𝐵 −24.85 − 0
𝑡𝑡𝑐𝑐 = = = −11.25
𝑆𝑆𝑏𝑏 2.208
Como se puede ver en la figura anterior, -11.25 se encuentra en la zona de rechazo de H0,
por lo que se acepta que las variables están relacionadas.
10.6. Pronósticos
Ejemplo:
Dada la ecuación de regresión lineal 𝑌𝑌� = 515.47 − 24.85 𝑋𝑋, calcular el valor de Y si X= 7
Solución:
Y ±2.447 (Se); 341.52 ± 2.447 (11.45) por tanto: 313.5 < 𝑌𝑌� < 369.5, lo cual significa que
el valor estimado de Y para X=7 se encuentra en el intervalo 3113.5 a 369.5 con un 95%
de confianza.
Lo + recomendado
No dejes de leer
Badii, M.H.; A. Guillen; E. Cerna; J.; Valenzuela & J. Landeros. (2012). Análisis de
Regresión Lineal Simple para Predicción. Daena: International Journal of Good
Conscience, 7(3) 67-81. Noviembre 2012. México.
Accede al documento a través del aula virtual o desde la siguiente dirección web:
http://www.spentamexico.org/v7-n3/7%283%2967-81.pdf
Accede al documento a través del aula virtual o desde la siguiente dirección web:
http://www.gestiopolis.com/herramientas-de-planeacion-administrativa/
No dejes de ver
Accede al vídeo a través del aula virtual o desde la siguiente dirección web:
https://www.youtube.com/watch?v=kYGPpxhDiks
+ Información
A fondo
A través de este documento puedes acceder a diversos ejercicios resueltos sobre regresión
lineal simple.
Accede al documento a través del aula virtual o desde la siguiente dirección web:
http://www.vitutor.com/estadistica/bi/ejercicios_regresion.html
Bibliografía