Documentos de Académico
Documentos de Profesional
Documentos de Cultura
CONTENIDO
PRESENTACIÓN.................................................................................................................................... 7
PRESENTACIÓN
Dentro del ámbito de la Estadística como ciencia aplicada, un estudiante de Ingeniería debe adquirir
conocimientos que abarcan temas de análisis descriptivo de variables, problemas de probabilidad,
estimación de modelos probabilístico y simulación de distribuciones de probabilidad, además de la
inferencia estadística y el estudio de modelos estadísticos multivariados.
El propósito de este material de apoyo es proveer al estudiante de Ingeniería (y de otras carreras) los
conocimientos aplicados en software para desarrollar y comprender los contenidos del curso Estadística I
(Estadística Aplicada) impartido por el Departamento de Matemática y Física para la Facultad de Ingeniería y
Administración. El software a utilizar será Microsoft Excel. Se ha seleccionado Excel dado que es un
programa de uso masivo que cuenta con las herramientas básicas suficientes para realizar tablas, gráficos,
análisis de dados y que nuestro futuro profesional Ingeniero sin duda, podrá utilizar en el campo laboral.
La organización de este documento sigue el orden de un programa de Estadística Matemática habitual y que
es similar al orden de los contenidos que se tratan el curso de Estadística I (Estadística Aplicada). Incluye en
un principio los pasos para activar la herramienta “Análisis de datos” que dispone Excel para Estadística,
luego, se concentra el documento en el análisis descriptivos de datos y el análisis gráfico, luego, ejemplifica
el cálculo de probabilidad abarcando hasta el importante Teorema de Bayes, para luego, entrar en el análisis
de las variables aleatorias discretas y continuas haciendo énfasis en la capacidad de Excel para realizar
simulaciones de este tipo de variables. Finalmente se complementa con la construcción de tablas bivariadas
para datos continuos (y discretos) como extensión al caso de variables cualitativas.
Este material es de carácter inédito, pues corresponde a la recolección de cursos y experiencias de análisis
en el software Excel realizada por los autores en distintos cursos de estadística realizados en distintas casas
de estudio. Algunos de los problemas propuestos se recopilaron de textos de Estadística que son citados
habitualmente en la bibliografía de un curso formal de Estadística Matemática.
Para la activación de la herramienta análisis de datos de Excel, realice los siguientes pasos:
Se desplegará la siguiente ventana, de la cual debe seleccionar la opción “complementos”, luego haga “click”
en “herramientas para análisis” y finalmente “click” en “ir”.
Figura 3. Esquema de pasos para seleccionar la herramienta de análisis del menú complementos.
En la ventana siguiente debe hacer “click” en la opción “herramienta para análisis” y luego aceptar.
La herramienta de análisis de datos ha sido activada. Para visualizarla se debe ir a la opción “Datos” de la
barra superior de la hoja de Excel. En la parte final aparecerá activada la opción “Análisis de datos”.
1. Ir a la opción “Insertar”, en la parte superior de la planilla Excel que contiene los datos a trabajar.
1
Base de datos disponible en la página web del Departamento de Matemática y Física.
3. Ingresar los datos en la opción “Tabla o rango”. Cabe destacar que por defecto Excel usará el dato
ubicado en la primera fila como el título de la tabla dinámica.
4. Por defecto las opciones de la tabla dinámica aparecerán en la hoja de trabajo actual, pero es
posible indicar que aparezcan en una hoja nueva.
3. En el recuadro “Seleccionar campos para agregar al informe” desplazar el campo con el nombre de la
variable (N°caraDado) hasta el recuadro “Etiqueta de fila”.
4. Luego, en el recuadro “valores” hacer “click” sobre la opción por defecto “Suma de N°caraDado”, y
seleccionar la opción “configuración de campo de valor”.
Con esto se ha generado una tabla de frecuencias absolutas para la variable de estudio N°caraDado, la cual,
resume la cantidad de veces que se obtuvo cierta cara del dado.
Por ejemplo, la cara del dado con el valor 1, se obtuvo 22 veces de los 100 lanzamientos.
El objetivo de este video es mostrar el uso de la herramienta Análisis de Datos para la obtención de
estadísticas descriptivas y confección de un histograma de frecuencias.
Primero debemos seleccionar el menú de DATOS y hacer ““click”” en la herramienta “Análisis de Datos”
Cabe notar que cuando se utiliza un programa estadístico para los cálculos de estadísticos descriptivos, no es
necesario confeccionar tablas de frecuencias.
Las tablas de frecuencias serán de utilidad para la confección de gráficos y para presentar resumen de la
información en el informe final.
Para nuestro ejemplo utilizaremos la información que tenemos de las estaturas de 100 personas, disponibles
2
en el archivo “Ejemplo descriptivas.xlsx ”.
2
Base de datos disponible en la página web del Departamento de Matemática y Física.
Con esta base de datos mostraremos lo que entrega la herramienta “Análisis de Datos” en su opción,
“Estadísticas Descriptivas”.
Vamos al menú DATOS, hacemos ““click”” en “Análisis de Datos”, posteriormente hacemos ““click”” en la
opción Estadísticas Descriptivas y finalmente ““click”” en aceptar.
En esta ventana debemos ingresar el rango de datos que analizaremos, en este caso serán la columna donde
se encuentran las estaturas de las 100 personas, si se incluye en el rango de entrada el nombre de la
variable, entonces se debe marcar la opción “Rótulos en la primera fila”.
Para las opciones de salida, marcaremos la opción Rango de Salida, y le indicamos una celda contigua a la
columna de datos, por ejemplo la D1, entonces los resultados que nos entregue Excel quedarán a partir de
esta celda.
También si se estima por orden, podemos optar por dejar los resultados en una nueva hoja.
Las estaturas están medidas con dos decimales que indican los centímetros, podemos entonces dejar las
estadísticas descriptivas que obtuvimos también con dos decimales, esto facilitará la interpretación.
Seleccionamos el rango de los valores de las medidas y con el botón derecho seleccionamos “Formato de
celdas”.
Media:
- La media o promedio de las estaturas de las 100 personas es 1,60 metros, un metro y sesenta centímetros.
Mediana:
- El 50% de las personas con menores estaturas miden a lo más 1,61 metros , un metro y 61 centímetros,
también podemos decir que el 50% de las personas más altas miden más de 1,61 metros.
Moda:
- Lo más frecuente en estas 100 personas es que midan aproximadamente 1,49 metros.
Por otra parte la Desviación Estándar, que es la raíz cuadrada de la varianza, nos da una aproximación del
promedio de las desviaciones de los datos respecto de su media.
En nuestro ejemplo la desviación estándar es de 0,15 metros, es decir 15 cm, por lo que podemos decir que
los datos tienen una desviación promedio aproximada respecto de los datos de 15 cm. Si tuviésemos las
edades de otro grupo de personas, entonces podríamos comparar homogeneidad entre ellos, a menor
desviación estándar entonces los datos son más homogéneos (datos más cercanos a promedio, menor
dispersión de los datos)
4. Construcción de un Histograma.
Veamos ahora la construcción del histograma de frecuencia para los datos disponibles en la planilla
“Ejemplo descriptivas”.
Vamos al menú DATOS, hacemos ““click”” en “Análisis de Datos”, posteriormente hacemos ““click”” en la
opción Histograma y finalmente ““click”” en aceptar.
Aquí en el “rango de entrada” seleccionamos los datos que tenemos de las estaturas, en la opción “Rango
de clase” no ingresaremos información, ya que queremos que el programa determine el número de clases
de nuestro Histograma, marcamos “rótulo”, seleccionamos un “rango de salida”, finalmente marcamos las
opciones “Porcentaje acumulado” , “Crear gráfico” y aceptamos.
Excel nos entrega una tabla de frecuencias con los porcentajes acumulados de dichas frecuencias, asociados
a una clase que Excel determina, aquí el programa para las 100 estaturas determinó un resumen
construyendo 11 intervalos.
El histograma de frecuencias, además, muestra el gráfico de líneas con los porcentajes acumulados.
Para visualizar mejor, agrandamos el gráfico y nos posesionamos sobre las barras para cambiar el ancho de
estas, recordemos que la variable estaturas es continua y las barras se deben visualizar juntas formando un
polígono de frecuencias.
Hacemos “click” con el botón derecho del mouse sobre una de las barras, seleccionamos dar formato a
serie de datos
Con esta misma opción, seleccionamos ahora el ícono del balde que es para relleno y líneas, y hacemos
“click”.
Luego elegimos un color negro para las líneas de las barras, cerramos la ventana.
Lo único que falta es escribir un título adecuado y dar nombre al eje de las clases.
Hacemos “click” sobre el título y lo modificamos, escribiremos “Histograma de frecuencia de las Edades”, de
igual forma hacemos “click” sobre clase en el eje de las abscisas y lo modificamos, escribiremos allí “clase de
las edades”.
Una sociedad de Ingenieros consultores, decidió adquirir un nuevo Odómetro para tomar mediciones de
larga distancia, la decisión de hacer esta inversión fue necesaria dado que el que tienen actualmente ya
tiene 6 años de antigüedad y las últimas muestras de medición a un cierto punto que se han hecho con tal
instrumento, han tenido diferencias notorias.
La medición que la empresa entrega entre dos puntos es el promedio de las mediciones hechas en tres
días distintos y a distintas horas del día, esto para no tener sesgo por factores como clima, luminosidad o
interrupciones externas.
El nuevo instrumento es tecnológicamente más avanzado y de mayor precisión (menor margen de error,+/-
0,5% ), según lo que asegura la compañía que lo vendió.
La empresa además de empezar a utilizar el nuevo odómetro, sigue utilizando el antiguo, dado la gran
demanda de proyectos en los cuales sus servicios de medición han sido contratados.
Los ingenieros está consciente de la necesita contar con dos de estos instrumentos pero quieren tener
alguna evidencia de que las mediciones tomadas por el antiguo odómetro son realmente más inexactas
con respecto a su media, que las mediciones tomadas por el nuevo.
Para esto los ingenieros deciden, ya conociendo una distancia entre dos puntos de 61,5 metros, tomar dos
muestras donde se harán 10 mediciones de esta distancia conocida, (10 días distintos), cada una con los dos
odómetros respectivamente (en metros), con las que calcularan medidas descriptivas, principalmente para
comparar medidas de tendencia central y de dispersión.
Los resultados de estos cálculos ayudaran a tomar la decisión de desechar o seguir utilizando el antiguo
odómetro
3
Las medidas obtenidas se encuentran en el archivo “medidas_odometro.xlsx ” , abriendo el archivo ,
tenemos:
3
Base de datos disponible en la página web del Departamento de Matemática y Física.
Para los cálculos de las medidas de tendencia central, utilizaremos la herramienta de análisis de datos
“Estadísticas descriptivas.
En el menú principal, elegimos la opción “datos”, luego “Análisis de datos”, y “Estadística descriptiva
Calculamos primero las estadísticas descriptivas de las mediciones hechas con el odómetro antiguo, en el
rango de entrada marcamos el rango donde están las medidas que se tomaron con el odómetro antiguo, de
la B2 a la B11, y en el rango de salida la celda F1, desde esa celda se desplegarán, los resultados y ACEPTAR
Hacemos doble “click” entre las columna F y G, para ajustar el tamaño de la columna F al contenido.
Tenemos entonces:
El mismo procedimiento hacemos ahora para obtener las estadísticas descriptivas de las medidas tomadas
con el odómetro Nuevo, los ubicamos a partir de la celda I1 para poder tener una mirada conjunta de los
cálculos obtenidos, tenemos entonces:
Observado los resultados obtenidos, marcaremos con un color de relleno gris, las estadísticas relevantes
Con respecto a las medias obtenidas, tenemos entre ellas una diferencia de 0,425 metros, es decir 42, 5 cm,
puede ser bastante dependiendo del contexto de la medición, y lo más importante que en relación al valor
exacto, el odómetro nuevo, entrega una media más cercana a la medida real que es 61,5.
Con respecto a la desviación estándar obtenida, claramente las medidas tomadas por el odómetro antiguo,
presentan una mayor dispersión entre ellas, esto puede generar una mayor diferencia entre los promedios
finales cuando se tomen sólo tres medidas.
Otro dato importante acá es el Rango, indicador también de dispersión de los datos, el rango que se dan en
las medidas tomadas por el odómetro antiguo es un metro superior con respecto a lo que presentan las
medidas tomadas por el odómetro nuevo.
Si observamos también el coeficiente de asimetría, nos podemos dar cuenta de que las mediciones tomadas
con el odómetro nuevo presentan una marcada asimetría negativa, esto quiere decir que los tatos en su
mayoría, se presentan superiores al promedio
Ahora obtendremos los histogramas de frecuencias para visualizar mejor el comportamiento de los datos.
Para las medidas tomadas con el odómetro antiguo, el rango de entrada es desde la celda B2 a la B11, y el
rango de salida desde la celda F17, ACEPTAR
Excel para confeccionar el histograma de frecuencias, genera intervalos para agrupar las frecuencias, en este
caso generó cuatro intervalos, donde las marcas de clases se muestran a partir de la celda que indicamos
para la salida.
Como las variables son continuas, corresponde ajustar el histograma con intervalos continuos, nos
posesionamos sobre las barras y haciendo clic con el botón derecho elegimos la opción “Dar formato a la
serie de datos”.
Con la misma opción “Formato serie de datos”, ahora elegimos “Relleno y Líneas”, marcamos “línea sólida”,
color negro, para visualizar mejor las barras en el histograma
Ahora repetimos los pasos anteriores para obtener el histograma de frecuencias para las medidas tomadas
con el odómetro nuevo
Nos queda:
La gráfica aquí se visualiza más simétrica con respecto al su promedio, y se corrobora con el coeficiente de
asimetría obtenido que es de 0,3266, que en este caso sería una leve asimetría positiva.
Con la información obtenida se puede concluir que de acuerdo a la diferencia que se presenta en el
promedio calculado por el odómetro antiguo respecto de la verdadera distancia y además respecto del
promedio más preciso entregado por el odómetro nuevo, más la mayor dispersión indicada tanto por la
desviación estándar, como por el rango de los datos de las mediciones obtenidas también por el odómetro
antiguo y la marcada asimetría negativa que se genera en la distribución de estos, se debería dar de baja el
odómetro antiguo y comprar otro nuevo.
4
1. Considere la base de datos “Examenes.xlsx” la cual contiene información sobre el número de
preguntas que se realizaron en 17 exámenes de distintas disciplinas y la cantidad de alumnos que
rindieron el respectivo examen en cierta universidad.
Confecciones una tabla de frecuencias para la variable Exámenes . Ingrese el archivo Excel generado
en el buzón habilitado en la plataforma del laboratorio.
Realice un resumen de descriptivos para la variable Exámenes. Ingrese el archivo Excel generado en
el buzón habilitado en la plataforma del laboratorio.
Preguntas independientes:
Realice un histograma para la variable Exámenes. Ingrese el archivo Excel generado en el buzón
habilitado en la plataforma del laboratorio.
Confecciones una tabla de frecuencias para la variable alumnos. Ingrese el archivo Excel generado
en el buzón habilitado en la plataforma del laboratorio.
4
Base de datos disponible en la página web del Departamento de Matemática y Física.
5
5. Considere la base de datos “Examenes.xlsx ” la cual contiene información sobre el número de
preguntas que se realizaron en 17 exámenes de distintas disciplinas y la cantidad de alumnos que
rindieron el respectivo examen en cierta universidad.
Realice un resumen de descriptivos para la variable alumnos. Ingrese el archivo Excel generado en
el buzón habilitado en la plataforma del laboratorio.
Preguntas independientes:
Realice un histograma para la variable alumnos. Ingrese el archivo Excel generado en el buzón
habilitado en la plataforma del laboratorio.
5
Base de datos disponible en la página web del Departamento de Matemática y Física.
5. Tablas de contingencia
El objetivo de este video es mostrar la forma de construir una tabla de contingencia a partir de una tabla
bivariada para dos variables cualitativas y que posteriormente servirá de base para la construcción de una
tabla de contingencia.
Recordemos que una tabla bivariada es aquella que resume las frecuencias absolutas conjuntas y
marginales, a partir de ellas se pueden obtener medidas de estadísticos marginales y condicionales, además
la tabla de contingencia resume la misma información pero en términos de probabilidades.
Abriremos el archivo “Ejemplo tabla contingencia”, que contiene la base de datos que utilizaremos, esta
base contiene dos variables que son: el “sexo” y el “nivel de estudios” de 20 personas.
Lo primero que haremos es construir la tabla bivariada, para estos utilizaremos una Tabla dinámica.
Tomando posición en cualquiera de las celdas donde se encuentran los datos, seleccionamos del menú la
opción insertar y posteriormente la opción Tablas dinámicas, (primera opción que aparece en el menú).
6
Base de datos disponible en la página web del Departamento de Matemática y Física.
Al habernos posicionado en una celda de los datos Excel toma por defecto los datos adyacentes que no
tienen celdas vacías y es lo que muestra marcado con las líneas punteadas y que además aparece como
rango de entrada en el recuadro. Cuando se trabaja con este tipo de tablas la base de datos no puede tener
celdas vacías.
En este recuadro también se solicita que se elija dónde queremos que esté la tabla, aquí seleccionaremos
una celda adyacente a los datos, a veces por orden los más conveniente será una nueva hoja.
Excel muestra a la derecha las opciones de la tabla dinámica, agrega automáticamente los campos que
identificó de la base de datos, que son justamente los nombres de los rótulos de cada variables.
La tabla dinámica espera que le indiquemos cuales de estos campos incluiremos en ella. Como queremos
construir una tabla bivariada debemos incluir las dos variables, dejando una de ellas asociada a área de las
filas y la otra al área de las columnas.
Seleccionamos entonces ambas variables, por defecto la tabla dinámica las deja automáticamente
asociadas a las columnas, pero sólo dejamos ahí la variable “Nivel de Estudios” y arrastramos la variable
“Sexo”, hacia el área de las filas.
Para que aparezcan el conteo de los datos debemos arrastrar nuevamente cualquiera de los dos campos a la
casilla “Valores”, para este ejemplo arrastraremos el campo Sexo.
En esta tabla de doble entrada podemos observar las frecuencias conjuntas absolutas y marginales.
Por ejemplo tenemos que 6 mujeres tienen un nivel de estudios Medio, también del total de las personas 10
son hombres y 10 son mujeres.
Posicionándonos sobre la tabla dinámica construida, hacemos “click” sobre el botón derecho y elegimos la
opción, “Mostrar valores como” y luego % del total general.
Finalmente posicionados nuevamente sobre la tabla, hacemos “click” con el botón derecho del Mouse y
elegimos la opción “Formato del número” y luego “número” y dos decimales.
Ahora esta tabla de contingencia contiene las probabilidades conjuntas y marginales calculadas a partir de
las frecuencias conjuntas y marginales que teníamos en la tabla bivariada.
El objetivo de este video es mostrar la forma de construir una tabla de contingencia con la función
Tabla dinámica
Abriremos el archivo “Ejemplo tabla contingencia”, que contiene la base de datos que utilizaremos.
Esta base contiene dos variables que son: “género” y “nivel de estudios” de 20 personas.
1. Ir a la opción “Insertar”, en la parte superior de la planilla Excel que contiene los datos a
trabajar.
2. Seleccionar la opción “Tabla dinámica”.
3. Ingresar los datos en la opción “Tabla o rango”.
4. Por defecto las opciones de la tabla dinámica aparecerán en la hoja de trabajo actual, pero es
posible indicar que aparezcan en una hoja nueva.
5. Hacer “click” en “Aceptar”
El objetivo de este video es estudiar la obtención de probabilidades condicionales y a través del el teorema
de Bayes.
Ya en el video 3, se estudió el cálculo de probabilidades simples, obtenidas las frecuencias marginales de una
tabla de contingencia. Recordemos también que la tabla de contingencia fue construida con una tabla
dinámica.
Las variables asociadas son “sexo” y “nivel de estudios” de 20 personas, construiremos el diagrama de árbol
para mostrar las probabilidades conjuntas y condicionales.
Lo primero que haremos es escribir las probabilidades conjuntas como la probabilidad de la intersección de
los eventos
Ahora utilizando la herramienta para escribir formulas, escribiremos las probabilidades conjuntas en
términos de la intersección de los eventos.
Entonces:
La probabilidad de que la persona tenga educación básica y sea de género femenino es igual a 0,1
La probabilidad de que la persona tenga educación media sea de género femenino es igual a 0,3
La probabilidad de que la persona tenga educación superior y sea de género femenino es igual a 0,1
De igual forma:
La probabilidad de que la persona tenga educación básica y sea de género masculino es igual a 0,1
La probabilidad de que la persona tenga educación media y sea de género masculino es igual a 0,15
La probabilidad de que la persona tenga educación superior y sea de género masculino es igual a 0,25
Comenzamos ahora a confeccionar el diagrama de árbol para representar las probabilidades condicionales.
Escribimos en una misma columna pero con separación de seis celdas, el recorrido de la variable sexo, es
decir Femenino y Masculino, y en la celda de abajo colocamos las probabilidades totales correspondientes, y
centramos el contenido de las celdas.
En la siguiente columna y celda por medio, colocamos los tipos de educación definidos en los eventos, estos
son EB, EM, ES, y los alineamos estos a la derecha.
Para dibujar las flechas del diagrama de árbol, usando del menú principal la opción “Insertar “y luego
elegimos la opción “formas”, y el icono de la flecha
Una vez dibujadas las flechas, colocaremos en la columna siguiente, las probabilidades condicionales
asociada a cada evento, debemos recordar que cuando dos eventos son independientes se cumple que la
probabilidad de la intersección de ellos es igual a la multiplicación de las probabilidades de cada evento.
Dejando una columna de separación y nuevamente haciendo uso de la herramienta para escribir
ecuaciones, expresamos y obtenemos las probabilidades condicionales que corresponden a cada rama del
diagrama de árbol según la propiedad vista en clases.
Hacemos “click” en Insertar y luego ecuación, arrastramos el cuadro hasta la celda contigua a la primera
rama del árbol, y escribimos
“La probabilidad de que la persona tenga educación básica dado que es de género femenino es igual a la
probabilidad de que tenga educación básica y sea de género femenino dividido por la probabilidad de que la
persona sea de género femenino, esto es 0,1 dividido por 0,5, igual a 0,2”.
Conviene copiar las fórmulas y solo cambiar los eventos correspondientes. Con el botón derecho hacemos
“click” en copiar y luego pegamos frente a la segunda rama del árbol y así sucesivamente.
La probabilidad de que la persona tenga educación media dado que es de género femenino es igual a la
probabilidad de que tenga educación media y sea de género femenino dividido por la probabilidad de que la
persona sea de género femenino, esto es 0,3 dividido por 0,5, igual a 0,6
La probabilidad de que la persona tenga educación superior dado que es de género femenino es igual a la
probabilidad de que tenga educación superior y sea de género femenino dividido por la probabilidad de que
la persona sea de género femenino, esto es 0,1 dividido por 0,5, igual a 0,2
La probabilidad de que la persona tenga educación básica dado que es de género masculino es igual a la
probabilidad de que tenga educación básica y sea de género masculino dividido por la probabilidad de que la
persona sea de género masculino, esto es 0,1 dividido por 0,5, igual a 0,2
La probabilidad de que la persona tenga educación media dado que es de género masculino es igual a la
probabilidad de que tenga educación media y sea de género masculino dividido por la probabilidad de que la
persona sea de género masculino, esto es 0,15 dividido por 0,5, igual a 0,3
La probabilidad de que la persona tenga educación superior dado que es de género masculino es igual a la
probabilidad de que tenga educación superior y sea de género masculino dividido por la probabilidad de que
la persona sea de género masculino, esto es 0,25 dividido por 0,5, igual a 0,5
Observemos acá que la suma de las probabilidades condicionales de los niveles de educación dado los
géneros Femenino y Masculino indistintamente, también suman uno.
La probabilidad de que una persona tenga un nivel de educación medio, dado que es de sexo femenino es
de un 60%
La probabilidad de que una persona tenga nivel de educación superior dado que es de sexo masculino es de
un 50%.
¿Cuál es la probabilidad de que una persona sea mujer sabiendo que su nivel de educación es Básico?
Para poder calcular esta probabilidad necesitamos conocer la probabilidad total de tener Educación básica, y
esta es :
Una vez más utilizando la herramienta para escribir ecuaciones, escribiremos la probabilidad que deseamos
obtener
Escribimos, probabilidad de que una persona sea de género femenino, sabiendo que tiene educación básica
es igual, seleccionamos en el menú superior herramientas de ecuaciones y luego fracción, en el numerador
colocamos la probabilidad conjunta “P de F inter EB, educación básica y en el denominador “P de ED,
educación básica”, que es la probabilidad de lo que está dado o conocido.
Y es igual a la probabilidad de que la persona sea de género femenino por la probabilidad de que tenga
estudios básicos sabiendo que es de género femenino, dividido por la probabilidad total de tener estudios
básicos.
Primero, adaptaremos la tabla de contingencia a una tabla de probabilidades, para esto marcamos el
recuadro de la tabla dinámica y hacemos “click” con el botón derecho. De la lista de opciones
seleccionamos “Mostrar valores como” y elegimos “% del total general”, luego seleccionamos solo el
área de la tabla dinámica donde hay porcentajes y hacemos “click” con el botón derecho,
seleccionamos la opción “Formato de número” y luego elegimos “número” con esto logramos que
nuestra tabla de contingencia ahora sea una tabla de probabilidades.
2. ¿Cuál es la probabilidad de que al seleccionar un individuo al azar este sea hombre y tenga
nivel de estudio Superior?
3. Si se sabe que un individuo seleccionado al azar es mujer. ¿Cuál es la probabilidad de que tenga
un nivel de estudio Medio?
Esta pregunta está condicionada, se sabe que el individuo es mujer y lo que se pregunta es por la
probabilidad que tenga nivel de estudio Medio. Para resolverlo dividimos la probabilidad conjunta
de Mujer y nivel de estudio Medio, entre la probabilidad de que el individuo sea mujer.
Esta pregunta puede ser resuelta igual que la pregunta anterior, pero utilizaremos el
teorema de Bayes tal como pide la indicación. Por lo que, multiplicaremos la
probabilidad obtenida en la pregunta anterior por la probabilidad de que el individuo sea
mujer, esto nos da la probabilidad conjunta de Mujer y nivel de estudio medio, luego, lo
dividimos por la probabilidad de que el individuo tenga un nivel de estudio Medio
7
1. Considere la base de datos Favoritos.xlsx la cual contiene información sobre 23 personas a las
cuales se les consultó respecto a color y mascota favoritos. Con los datos confecciones una tabla de
contingencia utilizando la función Tabla dinámica, luego ingrese el documento en el buzón
habilitado en la plataforma de laboratorio.
2. Considere la base de datos Favoritos.xlsx la cual contiene información sobre 23 personas a las
cuales se les consultó respecto a color y mascota favoritos. Con los datos confeccione una tabla de
probabilidades, luego ingrese el documento en el buzón habilitado en la plataforma de laboratorio.
3. ¿Cuál es la probabilidad que un individuo seleccionado al azar le guste el color rojo y su mascota
preferida sea un perro?
6. ¿Cuál es la probabilidad que un individuo seleccionado al azar su mascota preferida sea un conejo?
7. Si se sabe que a una persona seleccionada al azar le gusta el color amarillo. ¿Cuál es la probabilidad
de que su mascota favorita sea un hámster?
8. Si se sabe que a una persona seleccionada al azar le gusta el color azul. ¿Cuál es la probabilidad de
que su mascota favorita sea un gato?
9. Si se sabe que una persona seleccionada al azar su animal favorito es un conejo . ¿Cuál es la
probabilidad de que su color favorito sea negro?
7
Base de datos disponible en la página web del Departamento de Matemática y Física.
El caso es el siguiente:
Una Empresa minera adquirió instaló hace una un año una estación de monitoreo para medir la
concentración de material particulado en el aire, esta estación está programada para tomar mediciones
cada 8 hora y en caso de que la medición detecte que los niveles de polución superan los 150 µg/m³
(PM10), la alarma se activará automáticamente.
De sonar la alarma, la empresa debe parar la faena hasta lograr bajar los niveles de polución bajo el nivel
máximo permitido, de lo contrario se venir una inspección en ese momento, la empresa será multada.
Por lo anterior la empresa pide al departamento de prevención de riesgos que de acuerdo a los registros de
las mediciones tomadas por dicha estación en relación al funcionamiento de la alarma en los últimos 6
meses, determine por una parte
2. ¿Cuál es la probabilidad de la empresa detenga sus faenas sin haber sido necesario?
3. ¿Cuál es la probabilidad de que los trabajadores estén respirando aire con mucha polución sin tener
alerta ninguna?
4. ¿Cuál es la probabilidad de que la medida de parar las faenas esté bien aplicada, después de que se
activa la alarma?
La información antes pedida servirá como evidencia para tomar la decisión de quedarse con esta estación de
monitoreo o adquirir otra.
Para dar respuesta a los requerimientos de la gerencia se pueden obtener por una parte, preguntas 1 y 2,
calculando una probabilidad condicional y por otra parte, preguntas 3 y 4, utilizando el teorema de Bayes.
Veamos como:
8
Abrimos el archivo que contiene la base de datos Monitoreo_polucion.xlsx
Observamos que tenemos cuatro campos de información, que son, la Fecha, la hora, el nivel de polución y el
registro de si activó o no la alarma.
Para generar la tabla de contingencia no es adecuado usar la variable cuantitativa Nivel de polución dado
que se hará el conteo según categorías y estas no existen, por lo que será conveniente antes categorizarlas.
Recordemos que la empresa tiene establecido como norma, que los niveles de polución P10, no pueden
sobrepasar los 150 µg/m³, entonces de acuerdo a esto categorizaremos.
8
Base de datos disponible en la página web del Departamento de Matemática y Física.
Para esto utilizaremos la función SI, insertamos una nueva columna adyacente a la que tiene los registros
del Nivel de Polución
La nueva variable la llamaremos “Condición del Nivel de Polución”, que tendrá como recorrido
P: si el nivel de polución cumple con la norma establecida, <=150 µg/m³
Posicionados en la celda B2, insertamos la función lógica SI, esta función permitirá categorizar la variable
numérica, asociando la categoría P o NP, según corresponda
La función SI, requiere de ingresar la prueba lógica, y la asignación que se hará en caso de que la evaluación
sea verdadera o falsa
En nuestro ejemplo la prueba lógica es evaluar si cada dato de la variable nivel de polución cumple con la
norma establecida por la empresa, luego escribiremos
Hacemos clic en aceptar y nos queda para la primera celda asociado “P”, permitido cuando la medición fue
127.
Posicionados en la esquina inferior derecha de la celda evaluada, arrastramos el mouse para copiar en el
resto de las celdas
Ya estamos listos para crear la tabla de contingencia que finalmente nos permitirá obtener las
probabilidades condicionales.
Posicionados en la primera celda de nuestra base de datos, insertamos la tabla dinámica, recordemos que
este procedimiento ya fue estudiado en el video 3 , de construcción de tablas de contingencia.
Quedó seleccionado el rango que contempla nuestra base de datos, y le indicamos que la tabla dinámica
quede en la misma hoja donde están los datos, dando como referencia la celda G2
Arrastramos el campo activación de la alarma hacia las columnas y luego para completar la tabla con los
valores resumidos, debemos arrastrar cualquiera de los campos incluidos en la tabla hacia el recuadro
Valores.
Aparece ahora completa la tabla bivariada con las frecuencias conjuntas, marginales y totales.
Posicionados sobre alguna frecuencia conjunta de la tabla bivariada, hacemos “click” con el botón derecho y
elegimos la opción “mostrar valores como” y luego “porcentaje del total general”
La tabla se muestra ahora con porcentajes del total, nuevamente hacemos “click” con el boton derecho para
elegir la opción formato número
Lo primero que haremos es escribir las probabilidades conjuntas como la probabilidad de la intersección de
los eventos y las probabilidades totales
NO : No se activa la alarma
SI : Se activa la alarma
Antes de calcular las probabilidades pedidas, contruiremos el arbol de las probabilidades condicionales que
nos permitirán aplicar el teorema de bayes.
Partiremos el árbol con la variable “Nivel de Polución”, dado que es natural entender que la alarma sonará
dependiendo del nivel de polución que haya en la faena.
Para responder a las pregunta de la gerencia, antes debemos plantear las probabilidades que darán las
respuesta.
Debemos entender que la empresa será multada sólo si los trabajadores siguen trabajando con niveles de
polución no permitidos, y esto ocurrirá si en ese momento no suena la alarma.
Entonces debemos calcular la probabilidad condicional de que no suene la alarma, sabiendo que hay niveles
de polución no permitido.
( )
( )
( )
2. ¿cuál es la probabilidad de la empresa detenga sus faenas sin haber sido necesario?
Para responder a esta pregunta debemos entender que debemos calcular la probabilidad de suene la alarma
sabiendo que los niveles de polución están dentro de las normas permitidas.
( )
( )
( )
( )
La probabilidad de que la empresa detenga sus faenas sin haber sido necesario es de un 10%
Para completar el árbol con las otras probabilidades condicionales, las calcularemos
( )
( )
( )
( )
( )
( )
3.- ¿Cual es la probabilidad de que los trabajadores estén respirando aire con mucha polución sin tener
alerta ninguna?
( )
Al plantear la probabilidad nos damos cuenta que es a priori, es decir según lo planteado en el diagrama de
árbol, necesitamos saber cuál es la probabilidad de que suene la alarma sabiendo que no ha sonado la
alarma.
( ) ( )
( )
( ) ( ) ( ) ( )
La probabilidad de que los trabajadores estén respirando un aire con nivel de polución no permitida, sin
que haya sonado la alarma es de un 8%
El mismo cálculo nos resulta, aplicando las probabilidad conjunta y marginal, de acuerdo a la información
que tenemos en la tabla de contingencia
( )
( )
( )
La probabilidad de que los trabajadores estén respirando niveles de polución no permitidos, sabiendo que la
alarma no se ha activado es de un 8%
4.-¿Cuál es la probabilidad de que la medida de parar las faenas esté bien aplicada, después de que se
activa la alarma?
Aquí debemos calcular la probabilidad de que realmente los niveles de polución son altos cuando sabemos
que ha sonado la alarma, es decir
( )
Esta probabilidad según nuestro diagrama de árbol, también es a priori, por lo que debemos aplicar el
teorema de Bayes
( ) ( )
( )
( ) ( ) ( ) ( )
El mismo cálculo nos resulta, aplicando las probabilidad conjunta y marginal, de acuerdo a la información
que tenemos en la tabla de contingencia
( )
( )
( )
La probabilidad de que los niveles de polución realmente no estén dentro de la norma permitida, sabiendo
que la alarma se ha activado es de un 25%
Conclusión:
De acuerdo a las probabilidades obtenidas, por una parte en relación a la empresa, la alta probabilidad de
ser multados 70%, aun cuando el riesgo tener pérdidas al detener las faenas no siendo necesario sea de un
10%, conjuntamente con un 25% de probabilidad de que los niveles de polución realmente no estén dentro
de la norma permitida, sabiendo que la alarma se ha activado , y , en relación a la seguridad de los
trabajadores, baja probabilidad, un 8% , de tener niveles de polución no permitidos cuando la alarma no se
ha activado, se puede concluir que la sugerencia, para evitar multas y perdidas, considerando que ya
existiendo aunque sea un 1% de riesgo para los trabajadores, la empresa debe tomar la decisión de invertir
en un nuevo instrumento que alerte con precisión sobre los niveles de polución no permitidos.
1: número de variables: Corresponde a la cantidad de columnas de datos que queremos generar. En este
caso, ingresaremos el valor 1 para así generar una sola columna con datos simulados.
2: cantidad de números aleatorios: indica la cantidad de datos por columna que serán simulados. En este
caso ingresaremos 100, es decir, por cada columna de datos ingresada en la parte anterior, aparecerán 100
datos asociados.
4: Parámetros: Esta opción depende de la distribución seleccionada. Como hemos seleccionado la opción
“Normal” dejaremos los valores por defecto de la opción, es decir, el valor 0 para la media y 1 para la
desviación estándar.
5: Iniciar con: Corresponde al valor semilla con el cual se genera la secuencia de números aleatorios, si se
ingresa un valor, entonces Excel guardará la misma secuencia de números cada vez que en este campo se
ingrese tal número. En este caso, lo dejaremos en blanco.
6: Opciones de salida:
Rango de salida: se debe ingresar una celda donde se desea que se inicie la presentación de los
resultados del análisis. Es una opción útil si se quiere visualizar el resultado de la generación de números
aleatorios en la misma hoja donde se está trabajando.
En una hoja nueva: Corresponde a la opción por defecto, el resultado aparecerá en una hoja nueva
dentro de la misma planilla de Excel.
En un libro nuevo: Los resultado de la simulación de datos aparecerán en un libro nuevo de Excel.
En este caso seleccionaremos la opción “Rango de Salida”, luego, seleccionaremos la celda A1.
Revisaremos en esta sección las distintas opciones para generar números aleatorios disponibles en la opción
“Análisis de datos”.
La opción “Generación de números aleatorios” permite simular números aleatorios para ocho distribuciones
que se describen a continuación:
Se generan números aleatorios para un conjunto de valores enteros a los cuales se asocia a priori una
probabilidad de aparición del valor de la variable.
Para utilizar esta opción, se debe tener una tabla de probabilidades “a priori” para una variable aleatoria
discreta.
A modo de ejemplo simularemos el lanzamiento en 100 oportunidades de un dado de seis caras equilibrado.
A esta variable se le asocia en la literatura la distribución Uniforme Discreta.
X P(X=x)
1 0,16666667
2 0,16666667
3 0,16666667
4 0,16666667
5 0,16666667
6 0,16666667
Tabla 1. Tabla de probabilidad para la aparición de una cara en un dado de 6 caras
Genera números con igual probabilidad en un intervalo de valores predeterminado. Por defecto los
valores aparecen entre 0 y 1, lo cual, es equivalente a la función “=ALEATORIO()”.
Simula números aleatorios de una distribución Normal con media y desviación estándar definidas por el
usuario. Por defecto el programa proporciona una media 0 y desviación estándar 1, la cual, corresponde a
los valores de la distribución Normal Estándar.
A modo de ejemplo se simularán 100 valores correspondientes al lanzamiento de una moneda honesta, es
decir con Probabilidad = 0,5 donde la variable recibe el valor 0 si se obtiene un “sello” y un 1 si se obtiene
“cara”. Es decir, la variable de estudio sería: X: número de veces que se obtiene una cara al lanzar una
moneda 1 vez.
Ingresar en la opción “probabilidad” el valor 0,5. El cuál indica la probabilidad de obtener una cara al lanzar
una moneda honesta.
Genera números aleatorios correspondientes a una distribución Binomial. Es decir, para N experimentos
de Bernoulli independientes, con probabilidad de éxito “p”.
A modo de ejemplo se simularán 100 valores correspondientes al lanzamiento de una moneda honesta, es
decir probabilidad=0,5 en 5 ocasiones, donde los valores representan el número de caras obtenidas en los 5
lanzamientos.
Ingresar en la opción “probabilidad” el valor 0,5. El cuál indica la probabilidad de obtener una cara al lanzar
una moneda honesta.
En la opción “Número de muestras” ingresar el valor 5, el cual indica la cantidad de veces que se lanza la
moneda, es decir, el número de experimentos de Bernoulli independientes.
A modo de ejemplo, se simularan 100 valores correspondientes a una distribución de Poisson con valor
esperado de la variable igual a 2. Esta simulación podría representar, por ejemplo, a una variable aleatoria X:
número de hermanos que tiene un alumno del curso de Estadística.
En la opción “Lambda” ingresar el valor 2, el cual indica el valor esperado de hermanos que tiene un alumno
del curso de Estadística.
A modo de ejemplo, se simulará una serie de valores entre 1 y 4, con incrementos de 1 unidad donde el
número será repetido dos veces y la secuencia en 3 ocasiones.
Repitiendo la secuencia: indica la cantidad de veces que se repite la secuencia de valores, es decir, números
de 1 a 4, con incremento 1, repetidos 2 veces. En este caso ingresamos el valor 3.
Observación: En este ejemplo se han simulado tres secuencias de números del 1 al 4 con incremento 1 y
repetición 2 veces para cada número. Con un cálculo simple notamos que la cantidad de números a
generar serán 24, por lo que no coincidirá con los 100 valores ingresados en la opción “cantidad de
números aleatorios”, o sea, si los parámetros ingresados generan una secuencia superior a la “cantidad de
números aleatorios” predefinida, la secuencia finalizará en este valor.
En esta sección analizaremos algunas opciones disponibles para el cálculo de probabilidad en variables
aleatorias discretas.
A las funciones asociadas a estos cálculos se puede acceder haciendo ““click”” en el ícono .
Luego , en la opción “O seleccionar una categoría” elegir “Estadísticas”. En este menú se encuentran
disponibles las funciones asociadas al tema a tratar.
Realizaremos ahora una serie de problemas que involucra el cálculo de probabilidad discreta.
Si usted desea replicar estos cálculos, descargue la planilla “Video 6-Ejercicios de variable discreta”.
Ejemplos:
3. En 7 lanzamientos, ¿Cuál es el número más grande de caras que se puede esperar, con una
probabilidad de 0.98?
4. Genera 100 observaciones provenientes de una distribución binomial con probabilidad de éxito 0.4
y n=7.
5. Si X es binomial con probabilidad de éxito 0.4 y n=7. ¿Cuál es la probabilidad de que X sea a lo más
4. Es decir P(X ≤ 4)?
6. Si X es binomial con probabilidad de éxito 0.9 y n=6. ¿Cuál es la probabilidad de que X sea 4. Es
decir P(X = 4) ?
7. ¿Qué valor tiene una distribución de Poisson con varianza 6, cuya probabilidad acumulada es 0.92?
9. Calcule la probabilidad de que una variable que tiene distribución Hipergeométrica de parámetros
N=9 r=4 y n=3 sea igual a 2.
10. Genere 100 observaciones provenientes de una distribución Poisson con probabilidad de éxito 0.9.
11. Si X es Poisson con media 6. ¿Cuál es la probabilidad de que X sea a lo más 4. Es decir P(X ≤ 4)?
En esta sección analizaremos algunas opciones disponibles para el cálculo de probabilidad para variables
aleatorias continuas.
A las funciones asociadas a estos cálculos se puede acceder haciendo ““click”” en el ícono .
Luego , en la opción “O seleccionar una categoría” elegir “Estadísticas”. En este menú se encuentran
disponibles las funciones asociadas al tema a tratar.
Realizaremos ahora una serie de problemas que involucra el cálculo de probabilidad continua.
Si usted desea replicar estos cálculos, descargue la planilla “Video 7-Ejercicios de variable continua”.
Nota: Si se ingresa la opción “FALSO” solo entregará la imagen del valor de la variable en la función de
densidad exponencial, esto, no es una probabilidad.
3. Sea X una variable aleatoria con distribución Normal de media 100 y desviación estándar 50. Simule
1000 observaciones aleatorias desde X, calcula su promedio y varianza. Compara con los resultados
teóricos.
4. Si X es una variable aleatoria con distribución Uniforme, donde 0<x<2. Determine la probabilidad de
que tal variable tome valores entre 1 y 1,5.
5. Sea X una distribución Uniforme entre 0 y 1. Simule 1000 observaciones aleatorias desde X, calcula
su promedio y varianza. Compara con los resultados teóricos.
6. Sea X una distribución Uniforme entre 0 y 1. Determine la probabilidad de que tal variable tome
valores entre 0,2 y 0,3.
7. Sea X una variable aleatoria con distribución Exponencial con valor esperado igual a 0,2. Simule 10
observaciones aleatorias desde X, calcula su promedio y varianza. Compara con los resultados
teóricos. Luego repita lo mismo para 100 y 1000 simulaciones.
8. Sea X una variable aleatoria con distribución Exponencial con valor esperado igual a 1. Determine la
probabilidad de que la variable aleatoria tome valores de al menos 0,5.
9. Sea X una variable aleatoria con distribución Exponencial con valor Varianza igual a 1/25.
Determine la probabilidad de que la variable aleatoria tome valores de al menos 5.
El objetivo de este video es mostrar la construcción de tablas bivariadas utilizando la herramienta de Excel,
tablas dinámicas.
En nuestro ejemplo tenemos la fluctuación del dólar y el euro en un mismo mes, las variables con las que
trabajaremos son continuas y el interés será poder ver las frecuencias conjuntas en intervalos del mes.
Construiremos una tabla bivariada con 4 intervalos, entonces las frecuencias conjuntas resumidas en la
tabla mostrará la cantidad de días en que las monedas en conjunto tienen según su valor.
Lo primero que haremos es abrir el archivo “datos tabla bivariada”, hacemos ““click”” en “abrir”, archivo
Ahora que tenemos los datos, observamos que son 20 datos correspondientes a las variaciones de dólar y
euro en 20 días del mes de diciembre de 2014.
Posesionándonos en la primera celda de los datos hacemos ““click”” en insertar, tabla dinámica, tal como lo
hemos hecho en el video 3 referido a tablas bivariadas para variables cualitativas.
La primera columna corresponde al día del mes en que ocurrió la variación, este dato no es variable en
estudio, por lo que modificaremos el rango de entrada, incluyendo solo las columnas donde están los
valores del dólar y el euro.
La tabla la dejaremos en la misma hoja donde están los datos, para esto indicaremos en el rango de salida la
celda F1, y aceptamos.
Tenemos ahora la tabla dinámica, debemos indicarle los campos o variables que se incluirán, para este
ejemplo serán ambas variables.
Arrastramos el campo dólar hacia la casilla de las filas y el campo euros hacia la casilla de las columnas.
Observamos que la presentación de la tabla no es adecuada, dado que por ser variables continuas los datos
en su mayoría son distintos.
Lo que haremos será construir intervalos para ambos recorridos a modo de poder tener una mejor
presentación y resumen de las frecuencias conjuntas y marginales.
El número de intervalos se puede determinar por una formula conocida o bien según el objetivo del estudio.
En este caso será de interés visualizar el comportamiento de la variación de las monedas en cuatro niveles
de sus valores, entonces tendremos las frecuencias conjuntas resumidas en cuatro intervalos para ambas
variables.
Necesitaremos obtener los valores extremos y el rango, antes de construir los intervalos.
Para esto nos ubicaremos en las celdas por debajo de los datos, usted puede colocarlas donde desee o sea
más conveniente.
Colocaremos las fórmulas que permiten obtener el máximo, mínimo, rango y amplitud de lo s intervalos.
En la celda B23, escribimos la fórmula igual MAX, paréntesis y marcamos el rango de los datos, en este caso
de la “variación del dólar”, ENTER
En celda B24, escribimos la formula igual MIN, paréntesis el rango de los datos, cierre de paréntesis
En celda B25, escribimos la fórmula para obtener el Rango, igual B23 menos B24, ENTER
Finalmente escribimos la fórmula para obtener la amplitud de los intervalos, es igual B25 dividido por 4,
ENTER
Ahora copiamos estas mismas fórmulas para obtener máximo, mínimo, rango y amplitud de los intervalos,
para la variable “variación del euro”. Marcamos las celdas B23 a B26 y ubicando la cruz negra en la esquina
inferior derecha, arrastramos hacia las celdas C23 a C26, ENTER
Ahora que ya conocemos la amplitud de los intervalos de ambas variables, volveremos a la tabla dinámica
para generar los intervalos que resumirán las frecuencias conjuntas.
Primero nos posesionamos sobre cualquier valor de variación del dólar, con el botón derecho elegimos
agrupar
Luego aparece un recuadro que muestra el máximo, el mínimo y pide que ingresemos la amplitud de los
intervalos, fijarse que son los mismos valores de máximo y mínimo que ya habíamos obtenido, en “POR”,
colocaremos la amplitud 3,99, y ACEPTAR
Para finalizar solo basta arrastrar cualquiera de los campos a la casilla valores, esto hará que la tabla
entregue las frecuencias conjuntas que deseamos tener
En cuatro de los 20 días del mes en que hubo variación de ambas monedas, estas estuvieron ambas en su
valor más bajo.
De igual forma, en tres de los 20 días del mes en que hubo variación de ambas monedas, estas estuvieron
ambas en su valor más alto.
Analizaremos la construcción de una tabla bivariada para el caso donde las variables de origen
son de naturaleza continua. Si una variable de estudio es continua, esta debe ser segmentada en
intervalos.
Previo a la construcción de la tabla como tal, se debe realizar el cálculo de la amplitud de los
intervalos que se utilizarán para la representación de la tabla bivariada. Debemos recordar que la
amplitud de un intervalo se determina dividiendo el rango de la variable por la cantidad de
intervalos que deseamos. Para nuestro ejemplo calcularemos 4 intervalos para cada variable.
Ahora, realizamos los mismos pasos que para una tabla bivariada discreta, es decir:
Como se observa la tabla hasta ahora construida no es muy estética, para mejorarla se hará el
ingreso de los intervalos para las variables continuas.
9
1. Utilice la base de datos “PruebaEst.xls ” para confeccionar una tabla de frecuencias bivariada. Esta
base de datos contiene tres variables: Sexo (H: hombre, M: mujer), Edad (en años) y Prueba
(Puntaje obtenido) de un grupo de personas que rindieron una prueba de conocimientos básicos de
estadística. Se pide ingresar en el buzón de la plataforma de laboratorio la tabla bivariada para las
variables Edad y Prueba. Nota: usted debe determinar la cantidad de cortes sobre las variables
continuas.
2. Utilice la base de datos “PruebaEst.xls” para confeccionar una tabla de frecuencias bivariada. Esta
base de datos contiene tres variables: Sexo (H: hombre, M: mujer), Edad (en años) y Prueba
(Puntaje obtenido) de un grupo de personas que rindieron una prueba de conocimientos básicos de
estadística. Se pide ingresar en el buzón de la plataforma de laboratorio la tabla bivariada para las
variables Sexo y Prueba. Nota: usted debe determinar la cantidad de cortes sobre las variables
continuas.
10
3. Utilice la base de datos “Examenes.xlsx ” la cual contiene información sobre el número de
preguntas que se realizaron en 17 exámenes de distintas disciplinas y la cantidad de alumnos que
rindieron el respectivo examen en cierta universidad. Se pide ingresar en el buzón de la plataforma
de laboratorio la tabla bivariada para tales variables. Nota: usted debe determinar la cantidad de
cortes sobre las variables continuas.
11
4. Utilice la base de datos “SalarioUSA.xls ” la cual contiene las siguientes variables: SEXO (0: hombre,
1:mujer), SALARIO HORA (dólares por hora de trabajo), EDAD (en años) e HIJOS (número de hijos
del encuestado). Confecciones una tabla bivariada para las variables SALARIO HORA y EDAD. Esta
tabla debe ser ingresada en el buzón habilitado en la plataforma de laboratorio. Nota: usted debe
determinar la cantidad de cortes sobre las variables continuas.
5. Utilice la base de datos “SalarioUSA.xls” la cual contiene las siguientes variables: SEXO (0: hombre,
1:mujer), SALARIO HORA (dólares por hora de trabajo), EDAD (en años) e HIJOS (número de hijos
del encuestado). Confecciones una tabla bivariada para las variables SEXO y SALARIO HORA. Esta
tabla debe ser ingresada en el buzón habilitado en la plataforma de laboratorio. Nota: usted debe
determinar la cantidad de cortes sobre las variables continuas.
9
Base de datos “PruebaEst.xls” disponible en la página web del Departamento de Matemática y Física.
10
Base de datos “Examenes.xlsx” disponible en la página web del Departamento de Matemática y Física.
11
Base de datos “SalarioUSA.xls” disponible en la página web del Departamento de Matemática y Física.
CONCLUSIÓN
El análisis de datos es una habilidad fundamental que cualquier ingeniero debe dominar. La herramienta
análisis de datos presenta una solución eficaz y de fácil manejo para tratar un conjunto de datos dado. La
tabulación de datos (tema 2 del apunte) es el punto inicial en la presentación de un informe pues resume en
forma estética los datos, el resumen descriptivo (tal como se trato en el tema 3) es de gran relevancia pues
permite dar una primera mirada al comportamiento de los datos, cabe notar que Excel en esta opción
(Estadística Descriptiva) no proporciona medidas de posición por lo que, el alumno debe internalizar en la
obtención de tales medidas. El análisis gráfico aquí presentado en la forma del Histograma es uno de los
tantos tipos de presentación gráfica que se pueden realizar. Se recomienda al alumno internalizar en la
opciones de gráfico en Excel disponible en el menú superior, específicamente en la opción “Insertar”). El
cruce de variables también es un complemento importante en una investigación, buscar relaciones entre
variable de naturaleza cualitativa y/o cuantitativa podría denotar comportamientos no observados a simple
vista en los resúmenes individuales de información, por ello se presentó en el tema 5 (caso cualitativo) y
tema 10 (caso cuantitativo) la función “Tabla dinámica”. Se recomienda al alumno internalizar en el uso de
tablas bivariadas, por ejemplo, para un alumno de Ingeniería comercial podría interesarle la aplicación en
Carteras de Inversión y a un alumno de otras ingenierías los test Estadísticos asociados a la independencia de
variables u homogeneidad de ésta (Test Chi-cuadrado).
Los temas relacionados a variables discretas y continua, además de los métodos de simulación son el punto
inicial de las teorías que se desarrollan es cursos de Investigación de Mercados, Econometría y Simulación. El
alumno debe interiorizar el uso de distribuciones de probabilidad discreta y continua, ya que, muchos
fenómenos están relacionados con estos en otras ciencias. En este Apunte sólo se muestran las
distribuciones que son de uso habitual en cursos de Estadística, por lo que, se recomienda investigar sobre
otras distribuciones de probabilidad (ejemplo: Distribución Geométrica, Binomial Negativa, Gamma, Beta,
Triangular, ente otras) y la relación con las tratadas en este apunte que son las que dispone Excel en la
opción “Generación de números aleatorios”.
Finalmente se espera que este apunte sea el pie para el desarrollo de habilidades computacionales y
estadísticas en los futuros ingenieros de la Universidad Bernardo O’Higgins. También, que desarrolle interés
por temas de estadística avanzada y sea motivación para internalizar temas de inferencia estadística los
cuales se tratan en el curso de Estadística II.
BIBLIOGRAFÍA
Jay L. Devore. (2001). Probabilidad y Estadística para Ingeniería y Ciencias. México: Thomson Learning.
Richard I. Levine y David S. Rubin. (2010). Estadística para la Administración. México: Pearson.
Robert Johnson y Patricia Kuby. (2004). Estadística elemental, Lo esencial. México: Thomson.
Ronald E. Walpole, et al. (2007). Probabilidad y Estadística para ingeniería y ciencias. México: Pearson
Prentice Hall.
Paul Newbold, Williams L. Carlson y Betty Thorne. (2008). Estadística para administración y economía.
España: Pearson Prentice Hall.