Documentos de Académico
Documentos de Profesional
Documentos de Cultura
APUNTES DE ESTAD ìSTICA V9 AGOSTO 2013
APUNTES DE ESTAD ìSTICA V9 AGOSTO 2013
APUNTES DOCENTES
ASIGNATURA: ESTADÍSTICA
Estos registros o mediciones generan diversos volúmenes de datos y para que estos datos se conviertan en
información se deben procesar de diferentes maneras. Una de las formas como se pueden tratar los datos
para extraer la información que ellos contienen es utilizando las técnicas estadísticas
DEFINICIÓN DE ESTADÍSTICA
Es una ciencia que estudia cómo debe emplearse información para facilitar la toma de decisiones en
situaciones prácticas que se manifiestan bajo incertidumbre
IMPORTANCIA DE LA ESTADÍSTICA
La actividad más importantes para las personas que trabajan en las organizaciones empresariales es la
toma de decisiones. Dado el enorme aumento de la disponibilidad de datos (gracias a los sistemas de
información), y dada la complejidad creciente de las operaciones empresariales, los procesos de decisión se
ven sometidos a presiones extraordinarias.
Una de las técnicas más valiosa que ayudan en los procesos de toma de decisiones es la Estadística. Por lo
que es indispensable que los hombres y mujeres que dirigen organizaciones o que de alguna manera
participan en la toma de decisiones estén familiarizados con las técnicas estadísticas para poder determinar
cuando se puede examinar un problema existente mediante la aplicación del análisis estadístico.
DIVISIÓN DE LA ESTADÍSTICA
La Estadística se divide en dos grandes ramas:
La Estadística Descriptiva
La Inferencia Estadística
ESTADÍSTICA DESCRIPTIVA
Son los conocimientos y métodos que tratan de la recolección, organización y presentación numérica y
gráfica de los datos.
Los análisis que se hacen con las herramientas de la estadística descriptiva selimitan, únicamente, al
conjunto de datos que se recolectaron
INFERENCIA ESTADÍSTICA
Son los conocimientos y métodos que permiten:
CONCEPTOS BÁSICOS
DATO
En términos generales un dato es un registro o anotación que se hace del estado de un fenómeno en un
momento determinado
ELEMENTO
En general, un elemento es una parte indivisible de un todo o un componente indivisible o básico de un
cuerpo. Pero, en estadística se llama elemento a las entidades que tienen una o varias características cuyo
estado nos interesa registrar. El registro del estado de estas características es lo que constituye los datos.
Estos elementos pueden ser individuos, objetos o sucesos.
Los individuos pueden ser personas o seres vivos animales o vegetales. Los sucesos pueden ser, por
ejemplo, los accidentes de tránsito, los encuentros deportivos, los recorridos que realiza un vehículo o los
días del año
Personas
Individuos
Otros seres
vivos
Sucesos Entidades
intangibles
Ejemplos de sucesos:
Accidentes
Eventos sociales o deportivos
Los días, los meses, los años
Los viajes
Los recorridos de un vehículo
Las entrevistas
EJEMPLOS DE ELEMENTOS
En una investigación sobre el comportamiento de los los salarios de trabajadores los elementos son los
trabajadores (personas), y la característica que se observa a cada elemento es el valor de su salario.
En una investigación sobre comportamiento de las ventas de una comercializadora los elementos
podrían ser las facturas (un objeto), y la característica observada es el valor de cada factura.
También, En una investigación sobre comportamiento de las ventas de una comercializadora los
elementos podrían ser los meses (un suceso), y la característica observada el valor de las ventas de
cada mes
En una investigación sobre los accidentes de tránsito los elementos son los accidentes (un suceso), y la
característica observada podría ser el número de personas lesionadas por accidente observado
Los fenómenos se producen cuando el estado de las características observadas varía, usualmente, de un
elemento a otro
POBLACIÓN
Todos los elementos que presentan una característica común
Es el conjunto de todos los elementos que hacen parte de una situación que se está estudiando y sobre la
cual se intenta sacar conclusiones
Las poblaciones se deben definir con toda claridad de tal manera que no exista confusión sobre si un
determinado elemento pertenece o no a la población
Significa que una definición de población debe empezar por la palabra “Todos” o “Todas” seguida de una
descripción del elemento que se está observando mas una restricción al alcance de la palabra Todos(as)
Ejemplo: En un estudio del nivel salarial de los operarios del sector de confecciones de la ciudad, una
definición de población podría ser la siguiente:
EJEMPLO:
Para indicar que una población tiene 670 elementos se indica así: N = 670
CLASES DE POBLACIONES
Las poblaciones se dividen en dos clases:
Poblaciones finitas
Poblaciones infinitas
Poblaciones Finitas
Son las poblaciones a las cuales se les pueden determinar fácilmente el número de elementos que las
componen, es decir, su tamaño
EJEMPLO:
Situación o fenómeno: La edad de los estudiantes de las UTS
Población: Todos los estudiantes de las UTS
Tipo de población: Finita, porque fácilmente se pueden contabilizar sus elementos acudiendo a la oficina de
la institución que registra estos datos
Poblaciones infinitas
Son las poblaciones que físicamente es imposible numerarlas o determinar su tamaño
Son las poblaciones que aunque se puede determinar su tamaño, no es conveniente hacerlo por razones
económicas o de tiempo
EJEMPLO:
Situación: Accidentes por día en un cruce de calles de la ciudad
Población: Todas los días mientras exista este cruce
Tipo de población: Infinita. Es imposible determinar cuantos elementos tiene esta población
EJEMPLO:
Situación: Número promedio de hijos por pareja de un barrio de la ciudad
Población: todas las parejas que habitan en el barrio
Tipo de población: Infinita. Es muy costoso o demanda mucho tiempo determinar su tamaño
De acuerdo con su comportamiento las características que se observan en los elementos de una población
se pueden clasificar en constantes o variables
CARACTERÍSTICAS CONSTANTES
Una característica es constante cuando el valor que presenta esta característica no varía de un elemento a
otro o varía muy poco; por ejemplo, la estatura de una persona adulta observada en los últimos 20 meses o
la profesión de un graduado universitario.
CARACTERÍSTICAS VARIABLES
Es una característica que cambia frecuentemente de valor cuando se observa en algunos o en todos los
elementos de la población.
Es un símbolo que puede tomar diversos valores dentro de un conjunto determinado de valores que
reciben el nombre de dominio de la variable.(Significado matemático)
La estadística solamente estudia las características variables Estas características variables, comúnmente
denominadas variables, pueden ser de dos clases:
Variables cualitativas o categóricas
Variables cuantitativas
Variables cualitativas o categóricas: Son las que describen el estado de la característica únicamente
mediante palabras. Se refieren a atributos, cualidades, actitudes o preferencias de los elementos que se
están estudiando
EJEMPLOS:
Las profesiones u ocupaciones de un grupo de personas: Abogado, maestro, panadero, ingeniero, etc.
El estado civil de un grupo de personas: Soltero, casado, unión libre, etc.
El sabor de las naranjas de una cosecha: dulce, insípido, ácido
El color favorito de un grupo de individuos: Blanco, rojo, verde, etc.
Pasatiempos de un grupo de estudiantes: Deportes, lectura, reuniones sociales, labores manuales, etc.
La calidad de un producto: Bueno, regular o defectuoso
Como se puede observar, en los ejemplos, cada una de estas variables se expresa a través de dos o más
modalidades o categorías: soltero, casado, unión libre; bueno, regular, defectuoso.
Los datos que se registran cuando las variables son cualitativas o categóricascorresponden a la cantidad o
proporción de elementos que caen dentro de cada categoría que toma la variable, por ejemplo: el número de
abogados o de maestros, el número de individuos que prefieren el color blanco, laproporción de productos
defectuosos.
Las variables categóricas se pueden a su vez subdividir en variables nominales y variables ordinales.
Variables Nominales: Son las que no tienen una forma particular de organizar sus categorías. Por ejemplo,
no existe una forma común de ordenar los colores o el estado civil de las personas.
Variables ordinales: Cuando existe una forma común de organizar las categorías que toma la variable. Por
ejemplo: las modalidades como se puede expresar la calidad de un producto se pueden ordenar como
bueno, regular, defectuoso o al contrario, en defectuoso, regular, bueno. Las categorías con las que se
califica el servicio que presta una EPS se pueden ordenar como pésimo, malo, regular, bueno o excelente.
Variables cuantitativas: Son las que se describen por medio de números, por ejemplo, la edad de los
empleados de una empresa, las personas que visitan por día un museo, los saldos de las cuentas por
cobrar de una empresa, el peso de los paquetes que moviliza una empresa transportadora, el número de
vehículos que vende un concesionario, etc.
Las variables cuantitativas se pueden clasificar, también, en discretas o continuas:
Variables cuantitativas discretas: Son las que únicamente pueden tomar valores enteros tales como el
número de vehículos que vende un concesionario o el número de personas que asisten a una sala de cine
Variables cuantitativas continuas: Son las que se refieren a mediciones de magnitudes físicas o a
características apreciables en unidades monetarias y admiten valores fraccionarios o decimales tales como
el peso de los paquetes que moviliza una transportadora, los saldos de las cuentas de ahorro de una entidad
financiera o el tiempo que dura el recorrido de un bus urbano.
Variables cuantitativas categóricas: Cuando se quiere facilitar el manejo de los datos o aumentar la
comprensión de un fenómeno, las variable cuantitativas se pueden convertir en categóricas, como cuando
las personas que miden menos de 1.50 metros se clasifican como de estatura pequeña, las personas que
miden entre 1.50 metros y menos de 1.70 se clasifican como de estatura mediana y las personas que miden
1.70 metros o más se clasifican como de estatura alta.
CENSO
Es cuando se observa y registra el estado de una característica examinado a todos los elementos de una
población
Los censos rara vez se realizan debido al tiempo que demandan y a la cantidad de recursos que necesitan
por lo que se recurre a tomar datos del estado de la variable en algunos de los elementos de la población
MUESTRA
Es cuando se observa y registra el estado de una característica variable examinado a una parte de los
elementos que pertenecen a una población
Las muestras deben ser representativas y para esto se requiere que las características de la población estén
representadas en la muestra, en la misma proporción en que están incluidas en la población.
TAMAÑO DE LA MUESTRA
Es el número de elementos que componen la muestra. Se suele indicar con la letra n
EJEMPLO:
Para indicar que una muestra 350 elementos se indica así: n = 350
PARÁMETRO
Es el resultado de una medida o cálculo que se hace utilizando los datos relacionados con el valor que toma
una característica variable cuando se observan todos los elementos de una población, es decir, cuando se
hace un censo. Por ejemplo, la edad promedio de los niños que cursan primer grado, este año, en todas las
escuelas oficiales de la ciudad. El parámetro siempre es un valor constante.
ESTADÍSTICO
Es el resultado de una medida o cálculo que se hace utilizando los datos relacionados con el valor que toma
una característica variable cuando se observan algunos de los elementos de una población, o sea, una
muestra. Por ejemplo, la edad promedio de los niños de primer grado de algunas escuelas oficiales de la
ciudad escogidas al azar. El estadístico es un valor que varía de muestra en muestra
En los estudios estadísticos experimentales el investigador controla o manipula una o varias variables con
el fin de determinar su comportamiento en determinadas condiciones
ESTADÍSTICAS
Es cualquier conjunto ordenado de datos como por ejemplo las estadísticas de un torneo de fútbol, las
estadísticas de ventas de una empresa o las estadísticas de accidentes
AMPLITUD DE CLASE
Es la distancia o diferencia que hay entre los límites de una clase. En el ejemplo anterior la amplitud de la
clase de ingresos es de $300.000. Es decir, que para calcular la amplitud de clase se resta del límite
superior de la clase el límite inferior.
Para expresar estas ideas en símbolos, llamamos A a la amplitud de la clase, LS al límite superior de la clase
y LI al límite inferior de la clase, expresando aritméticamente la amplitud de la clase así:
A = LS – LI
Entonces, para visualizar las características de un conjunto de datos, la Estadística propone que se agrupen
estos datos en intervalos de valores o “clases”
Amplitud constante se refiere a que la amplitud de todas las clases de un conjunto de clases en que se
agrupa un determinado grupo de datos debe ser la misma para todo el conjunto.
Conjunto de clases mutuamente excluyentes se refiere a que cualquier dato, de un grupo de datos en
estudio, debe corresponder únicamente a una sola clase
Conjunto de clases exhaustivas cuando el conjunto de clases puede contener a todos los datos de una
muestra.
NÚMERO DE CLASES
Una de las primeras inquietudes que surge cuando se van a agrupar un conjunto de datos en clases
estadísticas es en cuantas clases es conveniente o adecuado agrupar estos datos. Hay varios criterios para
resolver este problema:
El número de clases es determinado por una circunstancia deseable u obligante
Determinar el número de clases de clases orientándose por una norma empírica de la estadística
Determinar el número de clases utilizando la expresión empírica: No.C = 2 K
Determinar el número de clases utilizando la expresión empírica: No.C = 1 + 3,3 log( n )
Otros criterios
El primer caso se presenta, por ejemplo, cuando el estudio actual se va a comparar con un estudio anterior o
un estudio realizado por otro investigador. Entonces, para facilitar las comparaciones entre los dos estudios,
es deseable que los datos del estudio actual se agrupen con el mismo número de clases del estudio anterior
La norma empírica de la estadística indica que el número de clases en que se deben agrupar cualquier
conjunto de datos debe ser como mínimo 5 ó 6 clases y como máximo alrededor de 20 clases
En la expresión No.C = 2K, No.C es abreviatura de número de clases y K indica las clases en que, según
esta expresión, se deben agrupar los datos.
Por ejemplo, para un estudio contiene 155 datos esta expresión funciona así:
Sí K = 6 clases, entonces, No.C = 26 = 64 como 64 < 155 el número de clases igual a 6 no es conveniente
Sí K = 7 clases, entonces, No.C = 27 = 128 como 128< 155 el número de clases igual a 7 no es conveniente
Sí K = 8 clases, entonces, No.C = 28 = 256 como 256> 155 el número de clases igual a 8, según este
procedimiento, es al más adecuado para agrupar los 155 datos del estudio.
En la expresión No.C = 1 + 3,3 log( n ), No,C es también, abreviatura de número de clases, log se refiere
a logaritmo con base 10 y n es la cantidad de datos que se desean agrupar
Por ejemplo, para el estudio de 155 datos se tiene: No.C = 1 + 3,3 log(155) = 8,23, quiere decir que el
número conveniente de clases, para agrupar estos 155 datos es de 8 clases
Otros criterios pueden ser, por ejemplo, números de clases que hacen que los límites de las clases sean
muy fáciles de establecer o que las clases automáticamente queden mutuamente excluyentes.
EJEMPLO PRÁCTICO
La siguiente tabla se refiere a los galones de gasolina corriente que tanquearon la semana pasada, en un
autoservicio, una muestra de vehículos escogidos al azar
3,8 1,7 2,8 2,0 2,5 1,8 2,9 3,6 2,2 3,0
2,8 4,7 3,3 6,9 5,0 2,6 4,0 2,7 4,1 3,4
4,8 5,3 4,9 3,0 3,9 2,0 5,6 2,3 4,5 2,9
6,1 3,0 1,9 6,4 2,6 2,0 2,0 2,6 3,1
Este ejemplo es útil para fines de aprendizaje, porque en situaciones reales, se suelen manejar volúmenes
de datos muy superiores al del presente ejemplo
MÉTODO ESTADÍSTICO
Como se dijo al comienzo de este tema, para describir una situación representada por un conjunto de datos, como el
anterior, la estadística propone agrupar los datos en un conjunto de clases o categorías y con este conjunto construir una
tabla que se llama Tabla de Frecuencias o Distribución de Frecuencias. Para realizar este proceso se deben resolver, en
primera instancia, las siguientes preguntas:
¿En cuántas clases o categorías es más conveniente o se desea agrupar las datos recolectados?
¿Cuál es el tipo de variable relacionada con la situación o fenómeno en estudio?
¿Cómo se construyen estas clases o categorías?
¿Cómo se construye una Distribución de Frecuencias?
Norma empírica: Se puede escoger cualquier número de clases entre 6 y 20 dependiendo del
criterio o preferencia personal del analista y se hacen varios tanteos hasta encontrar un número de
clases satisfactorio
Aplicando la fórmula No.C = 1 + 3,3log(n) = 1 + 3,3log (39) = 6,25 quiere decir que el número de clases
conveniente es de 6
TABLA No.1
LA TIPOS DE FRECUENCIAS
Los tipos de frecuencias que se presentan en la tabla No.2 son los siguientes:
Frecuencia Absoluta FA: Es la cantidad de datos de la muestra que corresponden a cada clase. Se
obtiene por conteo
Frecuencia Absoluta Acumulada FAA: Se obtiene, para cada clase, sumando la frecuencia absoluta
de la clase, FA, con la frecuencia absoluta de la clase anterior
Frecuencia Relativa FR: Se calcula, para cada clase, dividiendo la frecuencia absoluta de la clase, FA,
entre el total de datos de la muestra. Es práctico que los valores de la frecuencia relativa se tomen con
dos decimales y su suma se ajuste para que dé exactamente uno
Frecuencia Relativa Acumulada FRA: Se calcula, para cualquier clase, sumando la frecuencia relativa
de la clase, FR, con la frecuencia relativa de la clase anterior
lado de la tabla de distribución de frecuencias y se utilizó, en este caso, la columna de frecuencia relativa
acumulada.
Observando esta tabla se puede ver que el 59% de los vehículos de la muestra tanquearon menos de 3,3
galones de gasolina o que el 13% de los vehículos de la muestra tanquearon mas de 5,1 galones
Estos gráficos permiten visualizar de manera fácil y rápida los resultados que se presentan en la distribución
de frecuencias
EL HISTOGRAMA
Es un gráfico de frecuencia absoluta, FA o la frecuencia relativa, FR, donde las clases se representan
mediante rectángulos. El siguiente histograma se refiere al ejemplo práctico y se utilizó la frecuencia relativa
HISTOGRAMA
0,40 0,36
0,35
FRECUENCIA RELATIVA
0,30
0,25 0,23
0,20
0,15
0,15 0,13
0,10 0,08
0,05
0,05
0,00
1.5 2.4 3.3 4.2 5.1 6.0 6.9
GALONES
EL POLÍGONO DE FRECUENCIAS
Se hace a partir del histograma uniendo las marcas de clase proyectadas sobre el lado superior de los
rectángulos y agregando, para cerrar la figura, dos clases adicionales, una, por encima del límite superior de
la clase más alta y la otra, por debajo del límite inferior de la clase más baja
MARCA DE CLASE
Es el punto medio de una clase. Se calcula sumando los límites de cada clase y dividiendo este total por 2.
El símbolo que usualmente se utiliza para representar la marca de clase es Xi
𝐿𝑆 + 𝐿𝐼
Xi =
2
Donde LS es el límite superior de la clase y LI es el límite inferior de la clase. Por ejemplo, para construir la
marca de clase de la primera clase se procede así:
1,5 + 2,4
Xi = = 1,95
2
Las marcas de clase se utilizan, también, cuando se requiere representar todos los valores de una clase por
un solo número. Por ejemplo, 1,95 galones representa todos los valores de la muestra que se encuentran
entre 1,5 galones y 2,4 galones
Se puede construir, entonces, con las marcas de clase, una tabla auxiliar de cálculos que permita elaborar
fácilmente el polígono de frecuencias, como se presenta a continuación:
TABLA AUXILIAR DE CÁLCULOS
Marca de
No. CLASES clase FR
0 0,6 1,5 1,05 0,00
1 1,5 2,4 1,95 0,23
2 2,4 3,3 2,85 0,36
3 3,3 4,2 3,75 0,15
4 4,2 5,1 4,65 0,13
5 5,1 6,0 5,55 0,05
6 6,0 6,9 6,45 0,08
7 6,9 7,8 7,35 0,00
Obsérvese que la tabla tiene ahora 8 clases porque se han agregado dos clases, la número cero y la número
7. A estas clases se les llama clases falsas porque no hay observaciones para ellas; su finalidad es
presentar el polígono de frecuencias como una figura cerrada
POLÍGONO DE FRECUENCIAS
0,40 0,36
0,35
FRECUENCIA RELATIVA
0,30
0,23
0,25
0,20
0,15
0,13
0,15
0,08
0,10
0,05
0,05
0,00 0,00
0,00
1,05 1,95 2,85 3,75 4,65 5,55 6,45 7,35
GALONES
Tanto el histograma como el polígono de frecuencias permiten visualizar algunas de las características de la
situación o fenómeno que se está estudiando, tales como:
Los demás detalles de la construcción del polígono de frecuencias serán explicados por el docente en la
exposición que haga sobre este tema
LA OJIVA
La ojiva es un gráfico de frecuencias acumuladas que describe que cuantas unidades o qué porcentaje de
unidades se encuentran por encima o por debajo de un determinado valor de la variable.
Este gráfico se construye a partir de la tabla MENOR QUE, utilizando la frecuencia absoluta acumulada, FAA
o la frecuencia relativa acumulada, FRA. En el gráfico que se presenta a continuación se utilizó la frecuencia
relativa acumulada.
OJIVA
1,2
FRECUENCIA RELATIVA ACUMULADA
1,00
1 0,92
0,87
0,8 0,74
0,59
0,6
0,4
0,23
0,2
0
0
1,5 2,4 3,3 4,2 5,1 6,0 6,9
GALONES
Los detalles sobre la construcción de estos gráficos serán explicados por el docente en la exposición que
haga sobre este tema
LA INTERPOLACIÓN
En general, la interpolación, es un método de cálculo para establecer el valor de la ordenada de un valor de
la variable que se encuentra “dentro” de otros valores ya calculados en una tabla. En el caso de la
Estadística Descriptiva, se utiliza para calcular valores de la frecuencia absoluta acumulada, FAA o de la
frecuencia relativa acumulada, FRA, correspondientes a valores de la variable que no se encuentran en la
tabla MENOR QUE, pero que están dentro de los valores mínimo y máximo recolectados en el estudio.
Por ejemplo, si se quiere saber qué porcentaje de los vehículos tanquearon mas de 4,8 galones de gasolina,
al buscar este valor en la tabla MENOR QUE se detecta que aunque no está tabulado, se encuentra entre
los valores de la variable 4,2 y 5,1 galones. Con esta información se pueden disponer los datos existentes y
los buscados de la siguiente manera:
X0 =4,2 Y0 = 0,74
X1 = 4,8 Y1= ?
X2 = 5,1 Y2 = 0,87
La expresión matemática que permite realizar el cálculo de interpolación es la siguiente:
(𝑋1 −𝑋0 )
Y´1= Y0 + (Y2 - Y0)
(𝑋2 −𝑋0 )
( 4,8 −4,2 )
Y´1= 0,74 + ( 0,87 - 0,74 ) = 0,827 ≈ 0,83
( 5,1 − 4,2 )
Esto quiere decir que el 83% de los vehículos de la muestra tanquearon menos de 4,8 galones, pero, como
se quiere saber es que porcentaje tanqueómas de 4,8 galones, se debe restar el resultado anterior de 1
1 - 0,83 = 0,17 = 17% = porcentaje de vehículos de la muestra que tanquearon mas de 4,8 galones
EJEMPLO PRÁCTICO
Una muestra de 41 días del número de transacciones que se realizan por día un cajero automático se
presenta en la siguiente tabla:
73 68 76 71 60 41 91 67 85
83 56 79 62 64 87 66 74
87 91 78 49 91 72 63 68
47 81 54 90 77 63 52 75
80 84 36 67 51 45 61 57
Norma empírica: Se puede escoger cualquier número de clases entre 5 y 20 dependiendo del
criterio o preferencia personal del analista y se hacen varios tanteos hasta encontrar un número de
clases satisfactorio
No.C = 1 + 3,3 log (41) = 6,3 que indica que un número conveniente de clases para esta cantidad de datos
es de 6 clases.
Xmax = 91
Xmin = 36
R = 55
No.C = 6
A = 9,16667
Amod = 9
En el cálculo anterior se puede observar que para construir la amplitud modificada, se borra toda la parte
decimal de la amplitud, A, calculada
Cuando la amplitud modificada es un número impar, las marcas de clase, que se utilizan para representar a
las clases, son valores fraccionarios, como ocurre en este ejemplo; esta situación es incómoda porque no
refleja la realidad en los casos de variable discreta, por lo que se prefiere agrupar los datos en clases que
sean de amplitud par, como se presenta a continuación, para el mismo ejemplo, donde la amplitud se cambió
de 9 transacciones por día a 8 transacciones por día, esto hace que el número de clases pase de 6 a 7
Amod = 8
Se observa, también, que el límite inferior de cada clase es igual al límite inferior de la clase anterior más
uno. También se puede ver que el límite superior de la última clase, (98), no coincide con el Xmax, (91), de
los datos y el límite inferior de la primera clase es el Xmin (36), de los datos.
Las clases construidas de esta manera se llaman CLASES CERRADAS, porque en cada clase se
contabilizan todos los datos incluidos entre los dos límites de la clase. Sin embargo, estas clases, como se
puede observar, son de amplitudes constantes, mutuamente excluyentes y exhaustivas.
También se observa que la tabla MENOR QUE, se construye de manera un poco distinta a como se hizo
para el caso de variable continua, nótese que el último valor de la columna Menor Que, no es igual al límite
superior de la última clase, sino a ése valor más uno .
REPRESENTACIÓN GRÁFICA
HISTOGRAMA
Para el caso de variable discreta el histograma, recibe también el nombre de DIAGRAMA DE FRECUENCIAS y
en él las clases se encuentran separadas, como se ve en el siguiente gráfico:
DIAGRAMA DE FRECUENCIAS
0,25
0,22 0,22
0,2
Frecuencia Relativa
0,15
0,15 0,14
0,12
0,1
0,1
0,05
0,05
0
36 44 45 53 54 62 63 71 72 80 81 89 90 98
Número de transacciones
Con frecuencia, en lugar de identificar cada clase con sus límites de clase, es más práctico utilizar la marca
de clase, como se muestra en este gráfico, a continuación
Diagrama de Frecuencias
0,25
0,22 0,22
0,20
Frecuencia relativa
0,15
0,15 0,14
0,12
0,10
0,10
0,05
0,05
0,00
40 49 58 67 76 85 94
Número de transacciones
Ahora es mucho más fácil leer el diagrama de frecuencias, por ejemplo, en el 14% de los días de la muestra
se realizaron 58 transacciones, el número de transacciones por día menos frecuente, en la muestra, fue de
40 transacciones por día
POLÍGONO DE FRECUENCIAS
Se construye de la misma manera, a partir del diagrama de frecuencias y las marcas de clase, como se hizo
en el caso de variable continua. Nótese que en esta gráfica se presenta una distorsión debido a que las
clases no son adyacentes
Polígono de Frecuencias
0,2
Frecuencia Relativa
0,15
0,14
0,15 0,12
0,10
0,1
0,05
0,05
0 0,00
0
31 40 49 58 67 76 85 94 103
Número de Transacciones
OJIVA
Cuando la variable es discreta, como en este caso, la ojiva se construye de forma diferente, porque la
variable sólo toma valores enteros, aunque, aquí también, este gráfico se construye a partir de la tabla
MENOR QUE
OJIVA
1,2
Frecuencia Relativa Acumulada
1,00
1 0,9
0,8 0,75
0,6 0,53
0,4 0,31
0,17
0,2
0,05
0
36 45 54 63 72 81 90 99
Número de transacciones
Los detalles sobre la construcción de este gráfico serán explicados por el docente en la exposición que haga
sobre este tema
Cuando el intervalo de valores que toma la variable es reducido y la variable es discreta, es más práctico
agrupar los datos en clases de amplitud cero, como se muestra en el siguiente caso. Aquí X simboliza los
valores que toma la variable que son al mismo tiempo las clases estadísticas. Estas clases cumplen con las
tres características de una clase estadística: son de amplitud constante, son mutuamente excluyentes y son
exhaustivas
EJEMPLO
Se tomó una muestra de 60 facturas registrando el número de errores por factura. Los resultados se
presentan en la siguiente tabla:
1 0 1 2 0 0 1 0 0 1
2 1 1 1 0 1 4 0 0 0
0 3 0 0 1 0 1 2 2 0
4 1 1 0 0 0 1 0 0 1
2 2 0 3 3 1 0 2 2 0
0 0 3 1 2 2 0 1 1 1
MENOR
X FA FR FAA FRA QUE FRA
0 25 0,42 25 0,42 0 0
1 19 0,31 44 0,73 1 0,42
2 10 0,17 54 0,90 2 0,73
3 4 0,07 58 0,97 3 0,90
4 2 0,03 60 1,00 4 0,97
60 1,00 5 1,00
Diagrama de Frecuencias
30
25
25
No. de facturas
19
20
15
10
10
4
5 2
0
0 1 2 3 4
No. de errores
EJEMPLO
Se interrogó a una muestra de clientes de una cafetería sobre el tipo de bebida gaseosa que prefieren
obteniéndose los siguientes resultados:
No. CLASES FA FR
1 Cocacola 10 0,29
2 Link 3 0,09
3 Pepsicola 6 0,17
4 Postobón 8 0,23
5 Quatro 4 0,11
6 Seven Up 1 0,03
7 Sprite 3 0,08
35 1,00
Diagrama de Frecuencias
0,35
0,29
0,3
Frecuencia Relativa
0,25 0,23
0,2 0,17
0,15
0,11
0,09 0,08
0,1
0,05 0,03
0
Cocacola Link Pepsicola Postobón Quatro Seven Up Sprite
Tipo de bebida
Diagrama Circular
Seven Up
3%
Sprite
8%
Quatro Cocacola
11% 29%
Postobón
Link
23%
9%
Pepsicola
17%
EJEMPLOS
Calcular la estatura promedio de un grupo de personas
Hallar la diferencia entre el mayor y el menor valor de un conjunto de datos
Establecer el valor que más se repite dentro de un conjunto de datos
3. PARÁMETROS Y ESTADÍSTICOS
En la unidad anterior se vio que los cálculos o medidas que se realizan con los datos referidos a una
situación pueden clasificarse de dos maneras:
Parámetros: Cuando el cálculo se realiza con todos los datos de la población. Los parámetros son valores
constantes
Estadísticos: Cuando el cálculo se realiza con una parte de los datos de la población, es decir, una
muestra. Los estadísticos son variables
Las medidas tendencia central, reciben este nombre porque al representar el resultado de un cálculo en un
gráfico de una distribución de frecuencias (histograma o polígono de frecuencias), el valor calculado siempre
se sitúa hacia el centro de la gráfica.
Los cálculos de las medidas de tendencia central y de dispersión para poblaciones, en algunos casos, son
diferentes de los cálculos de las medidas de tendencia central y de dispersión para muestras, por lo que se
utilizan, en estos casos, símbolos diferentes para cada tipo de medida.
9. LA MEDIA ARITMÉTICA
Existen dos tipos de media aritmética: la Media Aritmética Simple y la Media Aritmética Ponderada. A la
media aritmética simple se le llama usualmente La Media y la forma de calcularla depende de sí los datos
están o no agrupados en clases.
µ=
Xi Para Poblaciones ̅=
𝑿
Xi Para Muestras
N n
El significado de los símbolos es el siguiente:
µ Es la letra del alfabeto griego “mu”, simboliza la media aritmética calculada para una población
̅ Se lee equis trazo o equis barra, simboliza la media aritmética calculada para una muestra
𝑿
N Es el número de valores que toma la variable, en estudio, en la población
n Es el número de valores que toma la variable, en estudio, en la muestra
𝑿𝒊 Es cada uno de los valores que toma la variable en la muestra o en la población
EJEMPLO
Las comisiones que un vendedor ha recibido en los 6 primeros meses del año se presentan en la siguiente
tabla:
SOLUCIÒN:
Ingresos
MES (Miles de $ ) ∑ 𝑥𝑖 = 5400
Enero 800
∑ 𝑥𝑖 5400
Febrero 950 𝑥̅ = = = $900 𝑚𝑖𝑙𝑒𝑠
𝑛 6
Marzo 920
Abril 1000 Interpretación: La media aritmética es el mismo
Mayo 830 promedio y es como sí en cada uno de los 6 meses el
comisionista hubiera ganado $900.000
Junio 900
Suma 5400
µ=
XiFAi Para Poblaciones ̅=
𝑿
XiFAi Para Muestras
N n
el significado de los símbolos es el siguiente:
µ Es la letra del alfabeto griego “mu”, simboliza la media aritmética calculada para una población
̅ Se lee equis trazo o equis barra, simboliza la media aritmética calculada para una muestra
𝑿
N Es el tamaño de la población
n Es el tamaño de la muestra
𝑋𝑖 Es la marca de clase de cada una de las clases en que se han agrupado los datos
𝐹𝐴𝑖 Es la frecuencia absoluta de cada una de las clases en que se han agrupado los datos
EJEMPLO
Una muestra del valor de las facturas, en miles de pesos, que se cancelan con tarjetas de crédito en una
cadena de almacenes de modas se presenta en la siguiente tabla:
SOLUCIÒN:
El total de la cuarta columna es ∑ 𝑥𝑖 𝐹𝐴𝑖 = 10.764 y el total de datos, n, es 224, por lo que la media aritmética
buscada es:
10.764
𝑥̅ = = $48.054 miles
224
Interpretación: El valor de promedio de cada factura pagada con tarjeta de crédito es de $48.054 miles, que
es como si cada factura fuera de este valor
EJEMPLO
Las notas obtenidas por un estudiante en 3 quices de un corte y las notas finales, del semestre, extraídas del
polígrafo correspondiente, se presentan en la siguiente tabla:
En el caso de los quices no existe ninguna información que permita pensar que estas tres notas tienen
diferente nivel de importancia, por lo que su promedio se puede calcular utilizando la fórmula de la media
para datos no agrupados, lo que no ocurre para el caso del polígrafo donde, por ejemplo, la nota de la
asignatura B vale el doble que la nota de la asignatura A; en casos como este, para calcular el promedio, se
utiliza una variante de la media aritmética que recibe el nombre de Media Aritmética Ponderada o Promedio
Ponderado, cuya expresión matemática es la siguiente:
∑ Xi Wi
p = Media aritmética ponderada
∑ Wi
NOTA
FINAL CRÉDITOS ∑ Xi Wi = 31.2
ASIGNATURA Xi Wi XiW i
A 4,9 2 9,8 ∑ Wi = 9
B 3,1 4 12,4
C 3.0 3 9.0 𝑋̅P = 3.47
Suma 9 31,2
Sí para este caso del polígrafo el promedio se calculara como media aritmética simple, ignorando la
información de los créditos, este cálculo daría 3.7 que es diferente del promedio ponderado que da un valor
de 3.47
El índice de la raíz depende del número de factores de crecimiento. Sí los factores de crecimiento son 2, la
raíz es cuadrada, sí los factores de crecimiento son 6 la raíz es sexta y así sucesivamente.
𝑉𝑎𝑙𝑜𝑟𝑒𝑛𝑃𝑜𝑟𝑐𝑒𝑛𝑡𝑎𝑗𝑒
FC = 1 +
100
Como el valor en porcentaje se llama comúnmente Tasa, la expresión, más apropiada, para el Factor de
Crecimiento es:
𝑇𝑎𝑠𝑎
FC = 1 +
100
EJEMPLO
La rentabilidad de un título valor ha estado variando en las últimas semanas como se presenta en la
siguiente tabla:
Como las unidades de este cálculo son Factores de Crecimiento, para convertir este resultado en tasa, se
despeja ésta de la última fórmula
𝑇𝑎𝑠𝑎
FC = 1 + ====>Tasa = ( FC – 1 )x100
100
Por lo tanto:
Tasa promedio = (1.00856 – 1 ) x 100 = 0.856% ≅ 0.9%
Respuesta: El título ha estado aumentado a una tasa promedio del 0.9% semanal
Cuando los datos se presentan en valores absolutos, pero, se debe calcular un porcentaje promedio, los
factores de crecimiento se determinan como se indica en el siguiente ejemplo:
EJEMPLO
Las ventas anuales de una empresa, en millones de pesos, se presentan en la tabla No.1. ¿A qué tasa
promedio anual están variando las ventas de esta empresa?
TABLA No.1 Obsérvese que se pide la tasa promedio de
Ventas crecimiento, que es un valor relativo y no la
(Millone venta promedio anual, que es un valor
AÑO s) absoluto.
Para convertir las ventas, que son valores
2001 68 absolutos, en factores de crecimiento, se
2002 75 divide el valor de un periodo cualquiera entre
2003 32 el valor del periodo inmediatamente anterior.
2004 59 Por ejemplo, el factor de crecimiento del año
2005 73 2004 se consigue dividiendo 59 entre 32
2006 92 Los demás cálculos se muestran en la tabla
No.2
2007 108
TABLA No.2 Obsérvese que no se puede calcular el factor de crecimiento
Ventas del año 2001 porque no se conocen las ventas del año 2000.
(Millone
AÑO s) FC Con los datos de la tercera columna, FC, se calcula G
2001 68
G = 6√(1.1029)(0.4267)(1.8438)(1.2373)(1.2603)(1.1739)
2002 75 1,1029
2003 32 0,4267 G = 1.08017 (Factor de Crecimiento promedio)
2004 59 1,8438
Tasa Promedio = (1.08017 – 1) x 100 = 8.017%
2005 73 1,2373
2006 92 1,2603 Respuesta: Las ventas están creciendo a una tasa promedio
2007 108 1,1739 del 8% anual
También se puede calcular la media geométrica para el caso de valores que varían en función del tiempo y
sólo se conocen los valores iníciales y finales del periodo, como se puede ver en el siguiente ejemplo:
EJEMPLO
Una persona invirtió $25 millones a 3 años, recibiendo al final de este periodo la suma de $33,306 millones
¿A qué tasa promedio mensual creció esta inversión?
36 33.306
G= √ = 1.00800 (Factor de Crecimiento promedio)
25
Como la tasa que se pide es mensual el número de periodos es 36, por lo tanto, el índice de la raíz es 36
Tasa = ( FC – 1 )x100
13. LA MEDIANA
La mediana es el valor que ocupa la posición central de un conjunto de datos cuando estos están ordenados
de menor a mayor.
EJEMPLO
La siguiente tabla presenta las notas obtenidas por una muestra de estudiantes en un examen
Ordenando estos datos de menor a mayor donde el menor está en el extremo izquierdo y el mayor en el
extremo derecho de la fila se tiene:
El número que ocupa la posición central es 3.8 porque por debajo de él hay 4 datos y por encima otros 4, por
lo tanto, 3.8 es el valor mediano
Alternativamente, el docente podría haber utilizado el promedio o media aritmética para describir el
comportamiento de los estudiantes en la muestra, como se vio anteriormente, pero, la mediana, entonces, es
otra manera de describir una situación que es diferente de la media aritmética
𝑥̃ = Xn+1
2
Esta expresión indica que el valor mediano ocupa la posición (n + 1)/2 cuando los datos están ordenados en
orden ascendente
Para aplicar esta expresión es preciso ordenar, entonces, los datos en orden ascendente e indicar la
posición u orden de cada dato como se muestra a continuación:
X1 X2 X3 X4 X5 X6 X7 X8 X9
1.2 1.7 2.9 3.5 3.8 4.0 4.3 4.7 4.8
Los Xi indican la posición de cada dato, por ejemplo, X7 indica que 4.3 ocupa la séptima posición cuando
los datos están ordenados de forma ascendente
Como el número de datos es 9, entonces (n+1)/2 es igual a 5, esto quiere decir que el valor mediano es el
valor que ocupa la quinta posición cuando los datos están ordenados de menor a mayor
𝑥̃ = X5 = 3.8
X n / 2 X n / 21
𝑥̃ =
2
Esto quiere decir que el valor mediano es el resultado de promediar los valores que ocupan las posiciones
X n / 2 y X n / 2 1
EJEMPLO
Una muestra de las estaturas, en metros, de 10 estudiantes de una clase se presentan en la siguiente tabla:
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10
1.57 1.62 1.65 1.68 1.69 1.71 1.73 1.75 1.77 1.81
Como se puede observar, en esta ocasión, no existe un valor único que se localice en el centro del conjunto
de datos ordenado, los valores X5 y X6 ocupan el centro de este conjunto y la mediana se localiza en el
punto medio entre estos dos datos , por lo que para establecer su valor se promedian 1.69 y 1.71 así:
X5 X6 1.69 1.71
𝑥̃ = = = 1.70
2 2
Este valor se interpreta como que la mitad de los estudiantes de esta muestra miden menos de 1.70 metros
se deja al lector de estas notas, que como ejercicio, verifique que la expresión de la mediana para número
par de datos produce el mismo resultado anterior
Primer Caso
La frecuencia absoluta acumulada, FAA, hasta alguna de las clases, de la distribución de frecuencias,
coincide con la cantidad total de datos dividida entre 2, es decir, ( n / 2), como se puede ver en el siguiente
ejemplo:
EJEMPLO
Los ingresos en una semana, en millones de pesos, de una muestra de tabernas se presenta en la siguiente
tabla:
Como se puede observar el número de datos de la muestra n es 120, por lo tanto, n/2 es 60 y este valor
coincide con la frecuencia absoluta acumulada, FAA, hasta la cuarta clase. En este caso la mediana es igual
al límite superior de la cuarta clase, es decir:
Este valor se puede interpretar diciendo que la venta mínima de la mitad de las tabernas de la muestra fue
de $2.8 millones
Segundo caso
El cálculo del total de datos de la muestra dividido entre 2, n/2, no coincide con el valor de la frecuencia
absoluta acumulada, FAA, de ninguna de las clases
n / 2 FAA i 1
𝑥̃ = 𝐿𝐼𝑖 + A
FAi
Para saber cuál es la clase que contiene la mediana se compara n/2, el tamaño de la muestra dividido entre
2, con las frecuencias absolutas acumuladas, FAA, de la distribución de frecuencias. La mediana se
encuentra en la clase cuya frecuencia absoluta acumulada, FAA, sea inmediatamente superior a n/2. A esta
clase, en términos de la expresión anterior, se le llama la clase i, y la clase anterior a esta se le llama la clase
i-1
EJEMPLO
Los saldos de los depósitos al finalizar un mes en las cuentas de ahorro de un número de cuentahabientes,
de los bancos locales, escogidos al azar, se presentan en la siguiente tabla:
SALDO
Clase MENSUAL No. De
No. (Miles de $) depósitos FAA
1 0 300 25 25
2 300 600 36 61
3 600 900 51 112 clase i - 1
4 900 1.200 42 154 clase i
5 1.200 1.500 37 191
6 1.500 1.800 30 221
7 1.800 2.100 22 243
8 2.100 2.400 19 262
9 Mas de 2.400 17 279
El número total de datos de la muestra es 279 depósitos, por lo tanto, n/2 es $139.5 miles. El valor, de la
frecuencia absoluta acumulada, FAA; inmediatamente superior a éste es $154 miles, es decir, que la clase
en la que se encuentra la mediana es la cuarta clase que va de $900 a $1.200 miles. Esta es entonces la
clase i. La clase anterior a ésta es la tercera clase y su frecuencia absoluta acumulada hasta aquí es $112
miles.
139 .5 112
𝑥̃ = 900 + 300
= $1.096 miles
42
esto quiere decir que la mitad de los clientes de la muestra tenían un saldo, al final del mes observado,
inferior a $1.096.000
Primer cuartil o Q1: Es el valor por debajo del cual se encuentran la cuarta parte de los datos o 25% de los
datos cuando están ordenados de menor a mayor
Segundo cuartil o Q2: Es el valor por debajo del cual se encuentran la mitad de los datos o 50% de los
datos cuando están ordenados de menor a mayor, es decir, es la misma mediana
Tercer cuartil o Q3: Es el valor por debajo del cual se encuentran las tres cuartas partes de los datos o 75%
de los datos cuando están ordenados de menor a mayor
EJEMPLO
El número de clientes que atendieron en un día once vendedores de un centro comercial escogidos al azar
se presenta en la siguiente tabla
Q1 Q2 Q3
Como se puede observar los números 8, 15 y 23 dividen el conjunto en cuatro partes iguales. Estos valores
reciben, respectivamente, los nombres de Primer Cuartil, Segundo Cuartil y Tercer Cuartil
Primer caso:
La frecuencia absoluta acumulada hasta alguna de las clases coincide con el valor de la operación
Qi x n
Donde:
100
EJEMPLO:
Las utilidades por acción del portafolio de inversiones de una empresa se presenta en la siguiente tabla:
Segundo caso:
La frecuencia absoluta acumulada, FAA, hasta cualquiera de las clases no coincide con el valor de la
operación Qixn/100
En este caso, el cálculo del cuartil se hace de manera parecida al segundo caso del cálculo de la mediana.
La expresión que se utiliza es la siguiente:
EJEMPLO
Utilizando el mismo ejemplo del primer caso
Un percentil, por lo tanto, es un valor por debajo del cual se encuentra un determinado porcentaje de los
datos. Por ejemplo:
P30 = 200 que se lee: “Percentil 30 igual a 200”, quiere decir que por debajo del valor 200, del conjunto
ordenado de datos, se encuentran el 30% de los datos.
Primer caso:
Pxn
La frecuencia absoluta acumulada hasta alguna de las clases coincide con el valor de la operación: 100
Donde:
P es el percentil que se quiere calcular
n es el tamaño de la muestra.
Sí el percentil que se quiere calcular es igual al límite superior de la clase cuya frecuencia absoluta
𝑃𝑥𝑛
acumulada, FAA, coincide con el valor de la operación 100 , entonces, el valor del percentil buscado es
igual al límite superior de la clase
EJEMPLO
La siguiente tabla se refiere a una muestra, al azar, del tiempo que duraron las llamadas telefónicas
realizadas por el personal de oficina de una empresa
Segundo caso:
La frecuencia absoluta acumulada, FAA, hasta cualquiera de las clases no coincide con el valor de la
𝑃𝑥𝑛
operación
100
En este caso, el cálculo del percentil se hace de manera parecida al segundo caso del cálculo de la
mediana. La expresión que se utiliza es la siguiente:
Para saber cuál es la clase que contiene el percentil se compara la operación 𝑃𝑥𝑛⁄100 con las frecuencias
absolutas acumuladas, FAA, de la distribución de frecuencias. El percentil se encuentra en la clase cuya
frecuencia absoluta acumulada, FAA, sea inmediatamente superior al valor de esta operación. A esta clase,
en términos de la expresión anterior, se le llama la clase i, y la clase anterior a esta se le llama la clase i-1
EJEMPLO
Duración llamadas No. de
Cálculo del Percentil 70, P70:
en minutos Llamadas FAA
0,0 2,0 46 46 𝑃𝑥𝑛 70 𝑥 230
= = 161
2,0 4,0 67 113 100 100
4,0 6,0 44 157 Clase i - 1
El percentil buscado se encuentra en la
6,0 8,0 31 188 Clase i clase cuya FAA es inmediatamente
8,0 10,0 25 213 superior a 161. A esta clase se le llama
clase i. Reemplazando en la fórmula se
Mas de 10,0 17 230
tiene:
230
161 − 157
Interpretación: El 70% de las llamadas, de la P70 = 6.0 +2.0 [ ]
31
muestra, fue inferior a 6.26 minutos
P70 = 6.26 minutos
EJEMPLO
Para el mismo ejemplo de la duración de las llamadas ¿Cuál fue la duración mínima del 40% de las
llamadas?
El valor que se pide es menor que el 40% de las llamadas, por lo tanto, este valor es superior al 60% de las
llamadas de la muestra, lo que quiere decir que se requiere calcular el percentil 60
16. LA MODA
La moda, de un conjunto de datos, es el valor que más se repite dentro de ese conjunto.
EJEMPLO
Una muestra de las edades de la última promoción de graduados se presenta en la siguiente tabla:
EJEMPLO
Los puntajes alcanzados, en una escala de 100 puntos, en las pruebas de ingreso, por los aspirantes a
trabajar en una empresa se presentan en la siguiente tabla:
Interpretación: Cuando un conjunto de datos tiene más de una moda, esta medida de tendencia central no
es útil para describir el comportamiento de los datos
EJEMPLO
El tiempo, en horas, que gastan los buses de una empresa de transportes en realizar el viaje entre dos
ciudades determinadas, en una muestra de recorridos escogidos al azar, se presenta en la siguiente tabla:
No. de No. de
La más alta frecuencia corresponde a 19
Motos Semanas semanas y el valor de la variable para esta
0 1 frecuencia es de 4 motos por semana, por lo
1 3 que la moda es 4, es decir:
2 5 𝑥̂ = 4 motocicletas por semana
3 12
4 19 Interpretación: El volumen de venta más
frecuente es de 4 motos por semana
5 16
6 10
más de 6 4
EJEMPLO
Se preguntó a una muestra de profesionales, escogidos al azar, por la marca de celular que utilizan y el
resultado se presenta en la siguiente tabla:
Tercer caso: Datos de variable discreta o continua agrupados en clases de amplitud mayor que cero
Se aplica la fórmula como se muestra en el siguiente ejemplo
EJEMPLO
Utilizando un radar de carretera los agentes de tránsito tomaron una muestra de la velocidad, en kilómetros
por hora, a la que se desplazan los vehículos al pasar por un puente. Los resultados están en la siguiente
tabla:
𝑑1 = 61 – 44 = 17 17
𝑥̂ = 60 + 10 [17+6] = 67.39 Kmts / hora
𝑑2 = 61 – 55 = 6
Interpretación: Lo más común es que los
vehículos de la muestra se desplacen por el
puente a 67.39 Kmts / hora
PRIMER CASO
La frecuencia acumulada hasta cualquiera de las clases es diferente de n/2
Este caso se presenta cuando ninguno de los valores de la columna de frecuencias relativas acumuladas o
FAA coincide con el tamaño de la muestra dividida entre 2, es decir, n/2
EJEMPLO
La siguiente tabla se refiere a una muestra del número de computadores que vendieron en un mes 112
tiendas de tecnología del país escogidos al azar
𝑥̃ = 4
SEGUNDO CASO
Algún valor de la frecuencia absoluta acumulada coincide con n/2
Este caso se da cuando en la distribución de frecuencias de la frecuencia absoluta acumulada, FAA, algún
valor de esta columna, es igual al tamaño de la muestra dividido por 2, es decir, n/2
EJEMPLO
Se tomó una muestra del número de estufas eléctricas que vendieron en el año una muestra de
distribuidores escogidos al azar
Primer cuartil o Q1: Es el valor por debajo del cual se encuentran la cuarta parte de los datos o 25% de los
datos cuando están ordenados de menor a mayor
Segundo cuartil o Q2: Es el valor por debajo del cual se encuentran la mitad de los datos o 50% de los
datos cuando están ordenados de menor a mayor, es decir, es la misma mediana
Tercer cuartil o Q3: Es el valor por debajo del cual se encuentran las tres cuartas partes de los datos o 75%
de los datos cuando están ordenados de menor a mayor
𝑥𝑄𝑖 = X(n+1)Qi/100
𝑥𝑄𝑖 es la posición que ocupa el cuartil cuando los datos están ordenados de menor a mayor
Qi corresponde a Q1, Q2, o Q3 y toman los valores 25, 50 y 75 respectivamente
EJEMPLO No. 1
El número de clientes que atendieron en un día once vendedores de un centro comercial escogidos al azar
se presenta en la siguiente tabla:
la tabla de datos ordenados de menor a mayor se presenta en la siguiente tabla donde X1, X2, X3, etc,
representan la posición que ocupan los datos:
Q1 Q2 Q3
Por simple inspección se puede establecer que los números 8, 15 y 23 dividen el conjunto de datos en 4
partes iguales, donde:
El primer cuartil ocupa la tercera posición, es decir, 𝑥𝑄1 = X3 = 8
El segundo cuartil ocupa la sexta posición, es decir, 𝑥𝑄2 = X6 = 15
El tercer cuartil ocupa la novena posición, es decir, 𝑥𝑄3 = X9 = 23
No siempre es fácil establecer los cuartiles por simple inspección por lo que se debe aplicar la fórmula para
calcular cada uno de los cuartiles.
INTERPRETACIÓN:
La cuarta parte de los vendedores, de la muestra, atendieron menos de 8 clientes
EJEMPLO No. 2
Los ingresos en miles de pesos, en un día, de una muestra de taxis escogidos al azar se presentan en la
siguiente tabla:
Q1 Q2 Q3
En este caso ningún cuartil coincide exactamente con alguno de los valores de la tabla de datos ordenada
X3.25 quiere decir que el primer cuartil se encuentra entre el tercero y cuarto valor en orden ascendente. Esto
quiere decir que es un valor superior a X3 pero inferior a X4. Para calcular el cuartil se interpola el excedente
de X3, es decir, 0.25 por la distancia que hay entre X3 y X4 así:
PERCENTILES
Los percentiles son valores que dividen un conjunto de datos en 100 partes iguales, cuando este conjunto
está ordenado de menor a mayor
El percentil de un número, es un valor de un conjunto de datos por debajo del cual se encuentra la fracción o
porcentaje de los datos correspondientes a ése número. Por ejemplo:
P30 = 78.3 (se lee: percentil de 30 igual a 78.3). Indica que por debajo de 78.3 se encuentran el 30% de los
datos
Los cuartiles son casos especiales de los percentiles. Por ejemplo, el primer cuartil, Q1, equivale a P 25,
porque por debajo de Q1 se encuentran el 25% de los datos
XP = X(n+1)P/100
XP es la posición que ocupa el percentil dentro del conjunto de datos ordenados de menor a mayor
n es el tamaño de la muestra
P es el valor percentil
El cálculo de los percentiles sigue la misma mecánica que el cálculo de los cuartiles como se puede ver en
los siguientes ejemplos
EJEMPLO 3
Para el caso del ejemplo 1 calcule el percentil 35, es decir, P35 e interprete el resultado
XP35 = X (11+1)35/100 = X(12)35/100 = X420/100 = X4.2
X4.2= X4 + 0.2( X5 – X4 )
INTERPRETACIÓN:
El 35 % de los vendedores atendieron 10 o menos clientes
El 65% de los vendedores atendieron 11 o mas clientes
El máximo número de clientes atendidos por el 35% de los vendedores fue de 10
El mínimo número de cliente que atendieron el 65% de los vendedores fue de 11
EJEMPLO 4
Para el caso del ejemplo 2 calcule P78 e interprete el resultado
INTERPRETACIÓN
El 78% de los taxis de la muestra tuvieron ingresos por debajo de $25.42 miles
El 22% de los taxis de la muestra tuvieron ingresos superiores a $25.42 miles
El ingreso máximo del 78% de los taxis de la muestra fue de $25.42 miles
El ingreso mínimo del 22% de los taxis de la muestra fue de $25.42 miles
MEDIDAS DE DISPERSIÓN
Se había dicho anteriormente que el objetivo de las medias de tendencia central es describir (parcialmente),
el comportamiento de un conjunto de datos que pertenezcan a una muestra o a una población. Sin embargo,
esta capacidad descriptiva de las medidas de tendencia central es parcial porque es necesario
complementarla con otra característica de las muestras y poblaciones que es la dispersión.
EJEMPLO
Las ventas mensuales, en millones de pesos, de dos empresas se presentan en las siguientes tablas:
CREACIONES ARMANY
DISEÑOS GALAXIA
VENTAS
VENTAS
MENSUALES No. De
MENSUALES No. De
(MILLONES) MESES
(MILLONES) MESES
6 10 14
10 14 11
10 14 13
14 18 32
14 18 16
18 22 19
18 22 11
22 26 12
22 26 10
26 30 7
26 30 10
30 34 5
30 34 7
86
34 38 5
86
20
hace en el gráfico de la izquierda, se
15 puede ver que sus ventas siguen
ARMANY
patrones de comportamiento muy
10 GALAXIA diferentes.
5
La diferencia se encuentra, entonces, en
0
que las dos muestras tienen diferente
4 8 12 16 20 24 28 32 36 40 “dispersión” de sus datos alrededor de
Millones de pesos la media.
CONCEPTO DE DISPERSIÓN
Se llama DISPERSIÓN al grado de variabilidad o de dispersión de un conjunto de datos alrededor de algún
valor que se toma como referencia. Usualmente se toma como referencia alguna de las medidas de
tendencia central.
DISPERSIÓN Y VARIABILIDAD
La variabilidad hace referencia a qué tan diferentes son entre sí los datos de una muestra o una población.
La dispersión y la variabilidad son conceptos sinónimos como se puede ver en los siguientes ejemplos:
En este caso todas las notas son iguales, por lo tanto, no hay ninguna variabilidad y ninguna dispersión
Ahora hay una nota diferente a las demás, por lo tanto, existe una pequeña variabilidad entre los datos y una
pequeña dispersión con respecto a la primera muestra
En esta última muestra, hay un aumento notorio en la variabilidad entre los datos y en la dispersión con
respecto a la muestra anterior
Es preciso resaltar, que la dispersión es un concepto relativo, siempre se evalúa comparando una muestra o
población con algún valor de referencia o con otra muestra o población
IMPORTANCIA DE LA DISPERSIÓN
Para que una medida de tendencia central sea representativa de los datos que la originaron se requiere que
su valor sea similar a los datos de esa muestra o población que pretende describir, como se puede ver en el
siguiente ejemplo:
Como se puede observar, en la muestra de baja dispersión, el valor del promedio es similar o está cerca de
los valores de la muestra, en cambio, en la muestra de alta dispersión, ninguno de los valores de la muestra
es parecido al valor de la media. Por lo tanto, el promedio de la primera muestra es verdaderamente
representativo de los datos de esta muestra y el de la segunda muestra no lo es.
El concepto de dispersión, entonces, es importante porque entre mayor sea la dispersión de un conjunto de
datos, menor es la fuerza representativa que tiene la medida de tendencia central calculada con esos datos
La Varianza
La desviación Estándar
EL RANGO
Es la diferencia o distancia entre el mayor valor, de un conjunto de datos y el valor menor. Este concepto ya
se había mencionado para agrupar los datos en clases estadísticas, por lo tanto se utilizará para enunciarlo
el mismo símbolo, es decir la letra R, es decir,
R = Xmax - Xmin
EJEMPLO
Calcular el rango de los siguientes conjuntos de datos
NOTAS DE UNA MUESTRA DE 10 ESTUDIANTES NOTAS DE UNA MUESTRA DE 10 ESTUDIANTES
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
3,2 3,5 3,8 3,5 3,8 3,7 3,6 3,8 3,9 3,5 0,1 3,5 0,7 5,0 1,0 4,7 4,9 3,8 3,9 0,9
La dispersión de la muestra de la izquierda, medida por el rango, es menor que la dispersión de la muestra
de la derecha
El cálculo anterior se realizó con muestras de datos que no están agrupados. Cuando los datos ya están
agrupados en clases el rango se establece restando del valor del límite superior de la clase mas alta el valor
del límite inferior de la clase mas baja. En símbolos:
EL RANGO INTERCUARTÍLICO
Una de las desventajas del rango es que solamente se tienen en cuenta, para su cálculo, los valores
máximo y mínimo, por lo que no indica como están distribuidos internamente los datos. Esta desventaja se
puede corregir con el rango intercuartílico
Para simbolizar el rango intercuartílico se utiliza, en estas notas, RQ y se calcula restando la diferencia entre
el primero y el tercer cuartil, es decir:
RQ = Q3 - Q1
Este rango muestra la dispersión de la porción más central de los datos que abarca el 50% del total
EJEMPLO
Las distancias en kilómetros, recorrida en un día por dos muestras de vehículos se presentan en la siguiente
tabla
MUESTRA A MUESTRA B
Distancia No. De Distancia No. De
(Kilómetros) Vehículos (Kilómetros) Vehículos
25 35 3 25 35 3
35 45 7 35 45 7
45 55 12 45 55 11
55 65 15 55 65 19
65 75 10 65 75 7
75 85 6 75 85 6
53 53
R = Xmax - Xmin = 60 Kmts R = Xmax - Xmin = 60 Kmts
Como se ve, aunque las dos muestras tienen el mismo rango, R, el rango intercuartílico es diferente, lo que
indica que la muestra B es menos dispersa que la muestra A
LA DESVIACIÓN MEDIA
Es la diferencia promedio, en valor absoluto, de los datos de la muestra o población con respecto a su propia
media. La forma de la expresión de cálculo varía dependiendo de que se trate de datos no agrupados o
datos agrupados
El símbolo que se utiliza en estos apuntes para la desviación media son las iniciales DM
EJEMPLO
Una muestra, al azar, del tiempo, en minutos, que duran las llamadas que se hacen desde un teléfono, se
presenta en la siguiente tabla
3 14 24 9 7 12
Hallar la desviación media de esta muestra
𝑥̅ = 11,5
𝑥𝑖 𝑥𝑖 𝑥̅ |𝑥𝑖 𝑥̅ |
3 -8,5 8,5
14 2,5 2,5
24 12,5 12,5
9 -2,5 2,5
7 -4,5 4,5
12 0,5 0,5
31
31
DM = = 5,2 minutos
6
Interpretación: En promedio, la diferencia de cada llamada con respecto a la media es de 5,2 minutos
3836,48
𝑥̅ = $271,92 miles DM = = $30,7 miles
125
En promedio, los arriendos de la muestra, se diferencian de la media en $30,7 miles
La desviación media tiene en cuenta, para su cálculo, todos los datos de la muestra y es fácil de interpretar.
Pero, la operación del valor absoluto para soslayar la propiedad anteriormente mencionada de los de los
números, da una descripción incompleta de la situación. Obsérvese que no se sabe sí la diferencia de $30,7
miles, del ejemplo anterior, es por encima o por debajo de la media.
Parta evitar este inconveniente existe otra medida de dispersión que aprovecha otra propiedad de los
números que consiste en que todo número elevado al cuadrado tiene signo positivo. Esta medida de
dispersión es la varianza.
LA VARIANZA
La Varianza, al igual que la desviación media utiliza, para medir la dispersión, las desviaciones de los datos
con respecto a la media, pero, en este caso, estas desviaciones se elevan al cuadrado. Por lo tanto, se
puede decir que la varianza es el promedio de las desviaciones, de los datos, con respecto a la media
elevadas al cuadrado.
Para el cálculo de la varianza, lo mismo que para las medidas de dispersión estudiadas anteriormente, se
debe tener en cuenta sí los datos están o no agrupados, pero, adicionalmente, el cálculo de la varianza es
ligeramente diferente según se trate con poblaciones o muestras, por lo que se utilizan símbolos diferentes
para indicar cada una de estas dos situaciones
VARIANZA POBLACIONAL
Es la varianza que se calcula utilizando todos los datos de una población
Símbolo:𝜎2
Varianza poblacional para datos no agrupados
EJEMPLO
En un programa sobre riesgo cardiovascular, se registró el peso en kilogramos de todos los empleados de
una empresa
Datos Tabla de cálculo
Peso en No. de Peso en
Kilogramos 𝐹𝐴𝑖 𝑥𝑖 𝑥𝑖− (𝑥𝑖 )2 (𝑥𝑖 )2 𝐹𝐴𝑖
Kilogramos Empleados
39 49 5 44 -30,2 912,04 4560,20
39 49 5
49 59 11 54 -20,2 408,04 4488,44
49 59 11
59 69 50 64 -10,2 104,04 5202,00
59 69 50
69 79 31 74 -0,2 0,04 1,24
69 79 31
79 89 27 84 9,8 96,04 2593,08
79 89 27
89 99 18 94 19,8 392,04 7056,72
89 99 18
99 109 9 104 29,8 888,04 7992,36
99 109 9
151 31894,04
151 31894,04
µ = 74,2 kilogramos 𝜎 2= = 211,22 Kilogramos al cuadrado
151
Nótese que si la población es infinita no se puede calcular la varianza poblacional porque el valor de N sería
infinito.
VARIANZA MUESTRAL
Es la varianza que se calcula sobre los datos de una muestra. El cálculo con respecto a la varianza
poblacional difiere en que, el divisor de la expresión ya no es N, el tamaño de la población, ahora es (n – 1),
que es el tamaño de la muestra, n, menos una unidad.
Símbolo: 𝑠2
Varianza muestral para datos no agrupados
Dónde:
2
2 = ∑(𝑥𝑖 − 𝑥̅ ) 𝑥𝑖 : Es cada uno de los datos de la muestra
𝑠 𝑛− 1 𝑥̅ : Es la media de la muestra
n : Es el tamaño de la muestra
2
La razón por la cual se divide entre n - 1 es porque, de esta manera, s , es un “estimador insesgado” de la
varianza de la población de la cual se extrajo la muestra. El concepto de estimador insesgado se estudia en
el curso de Estadística Inferencial.
EJEMPLO
Los saldos de las cuentas de ahorro, de empleados, de una muestra de las cuentas de ahorro de una
cooperativa, escogidas al azar, se presentan en la siguiente tabla:
Tabla de cálculo
SALDOS DE LAS CUENTAS EN MILES DE
𝑥𝑖 𝑥𝑖 𝑥̅ (𝑥𝑖 𝑥̅ )2 143.435,5
PESOS 𝑠2=
157 62 234 532 200 90 157 -55,5 3080,25 (6 − 1)
62 -150,5 22650,25
EJEMPLO
Una muestra del tiempo, en horas, que demora el almacén de materiales de una fábrica en surtir los pedidos
que recibe:
943,40
𝑥̅ = 6,3 horas 𝑠2 = = 6,8 horas al cuadrado
(140 − 1)
Como se puede observar, en los ejemplos anteriores, todas las unidades de la desviación estándar están
elevadas al cuadrado por lo que es difícil interpretar el significado del valor de la varianza; esta en una de las
razones por las cuales, para medir la dispersión, se prefiere otra medida que es la Desviación Estándar
LA DESVIACIÓN ESTÁNDAR
Conocida también como Desviación Típica, la desviación estándar es la raíz cuadrada de la varianza. Los
símbolos que se utilizan son σ, para cálculo de la dispersión en poblaciones y s, para el cálculo de la
dispersión en muestras
Las tablas de cálculo para la desviación estándar son idénticas a las que se utilizan para la varianza, con un
cálculo adicional: extraer la raíz cuadrada de la varianza
EJEMPLO
En un ejemplo anterior se vio que los puntajes de los aspirantes a un cargo, en una empresa fueron:
EJEMPLO
En otro caso se estableció que el tiempo, en horas, que demora el almacén de materiales de una fábrica en
surtir los pedidos que recibe
Tiempo No. de
Y se calculó que:
(Horas) pedidos
𝑠2 = 6,8 horas al cuadrado
0 2 10
2 4 16 Por lo tanto:
4 6 33
6 8 45 s= √𝑠 2 = √6,8 = 2,6 horas
8 10 26
10 12 10
140
Aunque es indispensable que se conozca, a ciencia cierta, como se obtienen la cifras de los cálculos de la
media aritmética y la desviación estándar, en la práctica, la tecnología disponible permite que estas
operaciones se hagan de forma más rápida y segura utilizando las funciones estadísticas de las calculadoras
científicas o de las hojas electrónicas de los programas de computador, por lo que se debe consultar, por lo
menos, en los manuales de las calculadoras, los detalles de la forma como se ejecutan estas funciones.
EL COEFICIENTE DE VARIACIÓN
Para introducir el concepto del coeficiente de variación se analiza la siguiente situación:
En la sección de materiales livianos del almacén de materiales de una fábrica se tomó una muestra del peso
de elementos de esa sección escogidos al azar, lo mismo se hizo en la sección de materiales pesados, de la
misma bodega y para ambas muestras se calculó su peso promedio y la desviación estándar. Los resultados
son los que se presentan a continuación:
𝑥̅ = 4 Kilos 𝑥̅ = 50 Kilos
S = 2 Kilos S = 2 kilos
La primera impresión que se obtiene de una observación desprevenida de estos resultados es que las dos
muestras tienen la misma dispersión porque sus desviaciones estándar son iguales. Sin embargo, si se
examina con más atención, se puede ver que en el caso de la sección de materiales livianos, la desviación
estándar equivale a la mitad del peso promedio de los materiales de la muestra. En cambio, en la sección de
materiales pesados la desviación estándar equivale únicamente a 1/25 del peso promedio de los paquetes.
Por lo que comparadas las dos desviaciones estándar con la magnitud de su respectivo promedio, es mucho
más alta la dispersión de la sección de materiales livianos.
De este análisis se concluye que la desviación estándar en casos como el del ejemplo, no permite comparar
la dispersión de dos muestras y se puede agregar que esta dificultad se presenta cuando las medias de las
muestras que se están comparando son muy diferentes entre sí.
Para resolver este inconveniente, la estadística dispone de un indicador para medir la dispersión. Este
indicador es el Coeficiente de Variación y se calcula con la siguiente expresión:
SÍMBOLO : CV SÍMBOLO : CV
𝜎 𝑠
CV = CV =
µ 𝑥̅
El coeficiente de variación es un número sin dimensiones por lo que se puede expresar en fracciones
decimales o en porcentaje
EJEMPLO
Se tomaron muestras de las ventas diarias, en miles de pesos, de dos vendedores de una empresa. ¿Cuál
de las dos muestras es más dispersa?
CV = 0,22 CV = 0,70
Como se puede notar, la desviación estándar del vendedor A es mayor que la desviación estándar del
vendedor B; sin embargo, las ventas de la muestra del vendedor A son menos dispersas que las ventas de la
muestra del vendedor B, porque el coeficiente de variación de las ventas del vendedor A es menor que el
coeficiente de variación de las ventas del vendedor B
EJEMPLO
Una muestra de las ventas por día de un almacén de ropa de moda y un gran distribuidor textil se presentan
en la siguientes tablas. ¿Cuál de los dos promedios de ventas por día es más confiable?
DESIGUALDAD DE CHEBYSHEV
Es una regularidad que se presenta en todas las distribuciones de frecuencias y consiste en que, sin
importar la forma de la distribución de frecuencias, la porción mínima de datos que se encuentra en un
intervalo comprendido entre K desviaciones estándar por debajo y por encima de la media aritmética es:
1
1 -
𝐾2
Donde K es cualquier número mayor que 1
Los límites de este intervalo se encuentran, por lo tanto, por debajo y por encima de la media aritmética. Al
límite que está por debajo de la media se le llama límite inferior o LI y al límite que está por encima se le
llama límite superior o LS. Las expresiones para estos límites son:
LI =𝑥̅ -Ks
LS = 𝑥̅ + Ks
Donde s es la desviación estándar de la distribución de frecuencias
EJEMPLO
Una muestra del tiempo que tienen que esperar los afiliados a una EPS para que los atiendan en el servicio
de urgencias de una clínica dio una media aritmética de 32 minutos, con una desviación estándar de 8,3
minutos. ¿Entre qué intervalo de tiempo tuvieron que esperar como mínimo el 80% de los afiliados de la
muestra?
1
0,80 = 1 -
𝐾2
Despejando K de la anterior ecuación se encuentra que K = 2,24
Entonces, los límites del intervalo que se pregunta son:
LI =𝑥̅ -Ks = 32 - 2,24(8,3) = 13,4 minutos
LS = 𝑥̅ + Ks= 32 + 2,24(8,3) = 50,6 minutos
La respuesta es que, por lo menos, el 80% de los afiliados a la EPS, de la muestra, tuvieron que esperar
entre 13,4 minutos y 50,6 minutos para ser atendidos en el servicio de urgencias
Existe una técnica para establecer matemáticamente la relación que puede existir entre situaciones como
las señaladas anteriormente. Estas situaciones reciben el nombre de variables
2. CONCEPTO DE REGRESIÓN
Es un método de cálculo para establecer la relación matemática que existe entre dos o más situaciones o
variables, que la observación o el sentido común indican que tienen comportamientos que están
relacionados
3. IMPORTANCIA DE LA REGRESIÓN
Este método aplicado al análisis estadístico permite predecir matemáticamente el comportamiento de una
variable a partir del comportamiento conocido de otra u otras variables. Esta relación entre las variables se
establece a través de una ecuación que se llama Ecuación de Regresión
EJEMPLOS:
Tasa de desempleo y ventas del comercio: La variable independiente o variable x es la tasa de
desempleo y la variable dependiente o variable y es las ventas del comercio
Accidentes de tránsito y ventas de licor: La variable independiente es las ventas de licor y la variable
dependiente los accidentes de tránsito
El número de personas que se movilizan en bus puede depender de las ventas de motocicletas y del
estado del clima, por lo que el número de personas que utilizan el servicio de bus es la variable
dependiente y las otras dos son las variables independientes
5. GRÁFICO DE DISPERSIÓN
Es la representación gráfica, en el plano cartesiano, en forma simultánea, de los valores que toman la
variable independiente (x) y la variable dependiente (y)
EJEMPLO
Se tomaron datos sobre el kilometraje recorrido por un vehículo y el consumo de gasolina, en galones, como
se presenta en la siguiente tabla:
Kilómetros Galones
X Y
30 5,95
50 8,55
10 2,35
40 9,25
60 13,85
20 6,75
La representación gráfica de los valores de esta tabla en el plano cartesiano, recibe el nombre de Gráfico de
Dispersión como se muestra a continuación:
Gráfico de dispersión
16
Galones consumidos
14
12
10
8
6
4
2
0
0 10 20 30 40 50 60 70
Kilómetros recorridos
TIPOS DE REGRESIÓN
6.1 Regresión Univariada
Se presenta cuando sólo interviene una variable independiente
Tanto la regresión lineal como la curvilínea tienen dos formas de manifestarse: en forma directa o en forma
inversa
10
X Y 9
8 5 8
13 4 7
6 3
Variable Y
6
24 9 5
18 7 4
20 5 3
2
1
0
0 5 10 15 20 25 30
Variable X
10
9
8
7
6 La curva de regresión
variable Y
X Y 30
19 9
25
3 24
16 11 Variable Y
20
24 6 15
8 14
10
0
0 5 10 15 20 25 30
Variable X
La curva de regresión (una recta), que mejor describe la relación entre estas dos variables, se presenta
en la siguiente gráfica:
30
25
20
variable Y
15
10
0
0 5 10 15 20 25 30
Variable X
X Y 25
16 12 20
18 21
15
8 6
Variable Y
12 7 10
17 17 5
10 8
0
0 5 10 15 20
Variable X
La curva de regresión, que mejor describe la relación entre estas dos variables, se presenta en la siguiente
gráfica
25
20
Variable y
15
10
0
0 5 10 15 20
Variable X
X Y
14 2 20
18
5 9 16
10 7 14
2 18 12
Variable Y 10
20 2 8
6
4
2
0
0 5 10 15 20 25
Variable X
La curva de regresión, que mejor describe la relación entre estas dos variables, se presenta en la siguiente
gráfica:
20
18
16
14
Variable Y
12
10
8
6
4
2
0
0 5 10 15 20 25
Variable X
11.Ninguna relación
Ocurre cuando la relación entre la variable dependiente e independiente no se puede describir con ningún
tipo de curva
X Y
12
13 8
2 5 10
15 4
8
5 3 Variable Y
4 10 6
7 7
4
0
0 2 4 6 8 10 12 14 16
Variable X
Esta recta tiene por ecuación Y = A + B X, donde A es el punto donde la recta corta al eje Y, y B es la
pendiente de la recta. El proceso para determinar el valor de los parámetros A y B es complejo, pero, el
estudiante interesado lo puede consultar en cualquier texto de estadística. En el curso, se determinarán
utilizando las funciones de las calculadoras científicas.
13.EJEMPLO
Se comparó el tiempo total que realmente dura encendido, de forma intermitente, un celular, con la duración
de su batería, obteniendo los valores que se presentan en la siguiente tabla:
celular duración
encendido batería
(segundos) (horas)
360 3,2
270 3,5
480 1,9
120 3,9
440 2,3
230 3,2
160 5,0
Como el tiempo de duración de la batería depende del tiempo total, que de forma intermitente dura
encendido el celular, la variable dependiente es el tiempo de duración de la batería y la variable
independiente el tiempo en segundos que dura encendido el celular, como se presenta a continuación
X Y
celular duración
encendido batería
(segundos) (horas)
360 3,2
270 3,5
480 1,9
120 3,9
440 2,3
230 3,2
160 5,0
4,5
4,0
Dración de la batería en horas
3,5
3,0
2,5
2,0
1,5
1,0
0,5
0,0
0 100 200 300 400 500 600
Duración del celular encendido en segundos
Trazando una recta que pase lo más cerca posible de todos los puntos, el gráfico queda así:
4,5
4,0
Duración de la batería en
3,5
3,0
2,5
2,0
horas
1,5
1,0
0,5
0,0
0 100 200 300 400 500 600
Duración del celular encendido en segundos
Entre más tiempo dure el celular encendido menos tiempo durará la batería por lo que la relación entre las
dos variables en inversa y la pendiente de la recta es, por lo tanto negativa. Adicionalmente, se observa que
la relación entre las dos variables es de tipo lineal, donde los parámetros de la recta de regresión son:
A = 4,7764201
B = -0,0055024
Y = 4,7764201 - 0,0055024X
Para un tiempo de encendido total intermitente del celular de 500 segundos, la duración que se puede
esperar de la batería es:
Y = 4,7744201 - 0,0055024(500)
Y = 2 horas
LA CORRELACIÓN
El interés del analista no está solamente en establecer la forma como se relacionan dos variables, sino,
también, en medir que tan fuerte es el grado de esta relación.
La regresión univariada es un caso extraño, lo común es que en comportamiento total de una variable
dependiente sea el resultado de la interacción de varias variables dependientes, como se muestra en las
siguientes gráficas:
VOLUMEN DE TRÁFICO
CLIMA
COSTO DE
REPARACIÓN
DE VÍAS TOPOGRAFÍA DEL TERRENO
KILOMETRAJE RECORRIDO
MODELO
MARCA
CONSUMO DE
COMBUSTIBLE ESTADO MECÁNICO
DE UN
VEHÍCULO ESTILO DE CONDUCCIÓN
TOPOGRAFÍA DE LA VÍA
Como es lógico pensar, la influencia que tiene cada una de estas variables independientes en el
comportamiento total de la variable dependiente no es igual para todas las variables independientes. Habrá
algunas variables independientes que determinan, en buena medida, el comportamiento de la variable
independiente y, también, habrá algunas variables independientes cuya influencia en el costo de reparación
de vías o en el consumo de combustible, para estos ejemplos, es muy reducida.
Para cualquier observador que analice estas situaciones, es de capital importancia determinar cuáles son las
variables que ejercen un efecto notable en el comportamiento de otra, es decir, establecer la fuerza o
intensidad con la que una variable independiente y otra dependiente están relacionadas. A esta fuerza o
intensidad se le llama Correlación
1. EL COEFICIENTE DE CORRELACIÓN
Es una medida del grado en que una variable independiente influye en una variable dependiente
Este grado de la relación entre dos variables se mide con un indicador que recibe el nombre de coeficiente
de correlación.
El coeficiente de correlación es un número adimensional que se representa por la letra r y toma valores entre
-1 y +1. El significado de estos valores que toma r es el siguiente:
3. EJEMPLO
Para el mismo caso de la duración de la batería del celular, el valor del coeficiente de regresión es:
r = -94%
Que significa que la correlación entre las dos variables es inversa y óptima
4. EL COEFICIENTE DE DETERMINACIÓN
El coeficiente de determinación es el cuadrado del coeficiente de correlación y explica el porcentaje de
cambio de la variable dependiente que se puede explicar por el cambio de la variable independiente. Por
ejemplo, un coeficiente de determinación de 64% entre los litros de licor vendidos los fines de semana y el
número de accidentes de tránsito, en esos días, significa que el 64% de los accidentes de tránsito de los
fines de semana se pueden explicar por las ventas de licor
Para el mismo caso que estamos estudiando de la duración de la batería del celular, el coeficiente de
determinación es:
r2 = 88%
Que significa que el 88% de las variaciones en la duración de la batería del celular se deben a las
BIBLIOGRAFÍA
LEVIN y RUBIN Estadística para Administradores. Séptima edición. Editorial THOMSON
MARTÍNEZ B, Ciro. Estadística y Muestreo. Décimo segunda edición. Editorial ECOE
LIND, MARCHAL Y OTRO. Estadística Aplicada a los Negocios y la Economía Décimo Tercera Edición.
Editorial McGraw Hill
ANDERSON, SWEENEY Y OTRO. Estadística para Administración y Economía. Séptima edición.
Editorial THOMSON