Está en la página 1de 34

ADMINISTRACIÓN

Y NEGOCIOS

Estadística trabajo colaborativo

NOMBRE: Sebastián Segovia Sobarzo


Daniela Valdez Bustamante
Karen Acosta Cornejo
CARRERA: Administración de empresas
ASIGNATURA: Análisis estadístico de datos
PROFESOR: Víctor Conte
FECHA: 15/07/2018
ADMINISTRACIÓN
Y NEGOCIOS

1 Introducción: ........................................................................................................................................... 3
2 Contenido del Descriptor: ....................................................................................................................... 3
3 Unidad 1 .................................................................................................................................................. 3
3.1 Variables Cualitativas: ..................................................................................................................... 3
3.2 Variables Cuantitativas: ................................................................................................................... 3
3.3 Tabla de distribución de frecuencia: ............................................................................................... 3
3.4 Grafica para datos cuantitativos: .................................................................................................... 4
3.5 Tipo de distribuciones: .................................................................................................................... 5
3.6 Histograma de frecuencia relativa: ................................................................................................. 5
3.7 Descripción de datos con medidas numéricas: ............................................................................... 6
3.8 Medidas de variabilidad: ................................................................................................................. 6
3.9 Teorema de Chebyshev: .................................................................................................................. 6
3.10 Regla empírica: ................................................................................................................................ 7
3.11 Estimación de S a partir de R ........................................................................................................... 7
3.12 Coeficiente de variación: ................................................................................................................. 7
3.13 Mediciones de posición relativa: ..................................................................................................... 8
3.14 EVALUACIÓN SUMATIVA 1: Análisis de Datos Univariados (30%) .................................................. 9
4 Unidad 2 ................................................................................................................................................ 21
4.1 Tabla de distribución de frecuencia de doble entrada: ................................................................ 21
4.2 Grafica de dispersión y coeficiente de correlación ....................................................................... 21
4.3 Coeficiente de correlación ............................................................................................................ 23
4.4 Regresión lineal ............................................................................................................................. 23
4.5 Calculo de residuales y error estándar de una regresión lineal: ................................................... 25
4.6 Causalidad: .................................................................................................................................... 25
4.7 Predicción y residuos..................................................................................................................... 25
4.8 Distribución condicional ................................................................................................................ 26
4.9 Distribución Marginal .................................................................................................................... 26
4.10 EVALUACIÓN SUMATIVA 2: Análisis Bi-Variados (20%) ................................................................................ 27
5 Conclusiones.......................................................................................................................................................... 34
6 Bibliografía ............................................................................................................................................................ 34
Introducción:
A continuación, daremos a conocer un informe detallado de distintos conceptos básicos de nuestro
descriptor de asignatura, tales como; variable cuantitativa, variable cualitativa, histograma de frecuencia
relativa, tabla de distribución de frecuencia, teorema de Chebyshev entre otros, con la finalidad de dar a
conocer en profundidad su desarrollo mediante la definición, gráficos y sus respectivos procesos,
recopilando información ilustrativa que permita una lectura didáctica y completa del informe. El
aprendizaje esperado se basa en el saber desarrollar distintas capacidades de recoger, organizar, describir
y presentar conjuntos de datos estadísticos además de saber interpretar cada resultado obtenido de dichos
procedimientos.

1 Contenido del Descriptor:


2 Unidad 1

2.1 Variables Cualitativas:


“las variables cualitativas producen datos que se pueden clasificar de acuerdo a similitudes o
diferencias en clase; por lo tanto, con frecuencia se denominan datos categóricos” (Mendenhall,
Beaver y Beaver, 2006, p. 10)

2.2 Variables Cuantitativas:


“Miden una cantidad numérica en cada unidad experimental” (Mendenhall, Beaver y Beaver, 2006,
p. 10), estas producen datos numéricos que se dividen en dos:

• Discreta: toma solo valores finitos y contables de valores.


• Continua: puede tomar infinitamente muchos valores correspondientes a los puntos en un
intervalo de recta.

2.3 Tabla de distribución de frecuencia:


Corresponde a una tabla en la que se recogen los resultados
de una medición de una variable cualitativa.

- Frecuencia: número de mediciones en cada categoría.

- Frecuencia relativa: proporción de mediciones en


cada categoría.

- Porcentaje: de mediciones en cada categoría.

Para este tipo de distribución se utiliza grafica de barra o de


pastel.
2.4 Grafica para datos cuantitativos:
Este utiliza, gráfico de barra el cual muestra la forma en la que están distribuidas las medidas entre las
categorías. También se utiliza gráfica de barras, con la altura de la barra midiendo la frecuencia con la que
se observa una categoría en particular.

- Gráficos de líneas: se utiliza en variaciones temporales, este se realiza en un plano cartesiano, la


idea de este es distinguir una tendencia.

- Gráfico de puntos: corresponde solamente a ubicar sobre una recta numérica puntos
correspondientes a las mediciones de las variables cuantitativas.

- Gráfico de tallo y hojas: corresponde a separar datos en tallos y hojas, en el sentido que los tallos
corresponden típicamente a docena, mientras que las unidades serán las hojas, existirán tantas hojas
iguales como veces se repita un dato. (Mendenhall, Beaver y Beaver, 2006).
2.5 Tipo de distribuciones:

• Distribución simétrica: hay la misma cantidad de datos en ambos lados. Proporciones


similares de datos como a izquierda a derecha.
• Sesgado a la derecha: proporción de datos cargadas a la izquierda (valor máximo)
• Sesgado a la Izquierda: Proporción de datos cargados a la derecha (valor máximo)

2.6 Histograma de frecuencia relativa:


Para un conjunto de datos cuantitativo es una gráfica de barras en la que la altura de la barra muestra “con
qué frecuencia” mediciones caen en una clase o sub-intervalo particular. Las clases o sub-intervalos se
grafican a lo largo del eje horizontal (Mendenhall, Beaver y Beaver, 2006) Para construir un histograma
de frecuencia relativa necesitamos:

• Rango: Es la diferencia entre el valor máximo y el valor mínimo.


X máximo – X mínimo.

• Clase: se finen como la cantidad de tramos de igual longitud y las que se divide una variable
cuantitativa.

Se recomienda utilizar esta tabla cuando no se indica nada de la clase que se va utilizar.
Tamaño de muestra 25 30 100 300 500

Numero de clases 6 7 8 9 10

• Ancho mínimo de clase: se define como el cociente o división entre el rango y la cantidad de clases
L min: Rango / Cantidad de clases.

• Ancho practico: es un valor levemente superior el ancho mínimo de clase, pero siempre menor que
el rango.
2.7 Descripción de datos con medidas numéricas:

Medidas de tendencia Central


• Media aritmética o promedio: es la primera medida de centro, se calcula sumando todos los datos
dividiendo por el total de datos. Se distinguen dos opciones importantes, uno la media de una
muestra y otra la media de una población.
Se distinguen casos con dos símbolos distintos
Muestra  x
Población  u
• Mediana: se define como el dato central luego de ordenar los datos de menor a mayor, en caso de
ser un número par de datos, se promedian los dos centrales.

• Moda: es el dato que más se repite.

2.8 Medidas de variabilidad:

Como complemento a las medidas de tendencia central y para justificar la toma de decisiones.

• Rango: Diferencia entre valor máximo – valor mínimo.


• Varianza: se define como la desviación cuadrática media respecto al promedio.
• Desviación Estándar: Se define como la raíz cuadrada de la varianza

2.9 Teorema de Chebyshev:


Se aplica en cualquier tipo de distribución, es una forma de aplicar el concepto de desviación
estándar y establece un límite inferior para la cantidad de datos que en proporción caen en un
intervalo que se forma considerando la media y la desviación estándar.

Utiliza como referencia un valor denominado k > 1

La proporción (1 – 1/ k^2) de las mediciones, se encuentran a k desviaciones de la media.


K (1-1/k^2) Enunciado

1 1-1=0 A lo menos ninguno de los datos

2 1-1/4= 4-1/4= ¾ A lo menos ¾ = 0.75 = 75% de los datos pertenecen al intervalo.

3 1-1/9 = 9-1/9 = 8/9 A lo menos 8/9 de los datos pertenecen al intervalo

=0.88= 88.89%
2.10 Regla empírica:

Se aplica siempre y cuando la distribución de los datos sea simétrica o sin sesgos, o sea con forma
de un montículo. A esta forma de distribución también se denomina distribución normal o
campana de Gauss.

I1: (u+- O)  68% de los datos

I2: (u +- 2º)  95% de los datos

I3: (u +- 3O)  99,7% de los datos

2.11 Estimación de S a partir de R


Estimación de S a partir de R

Una aproximación gruesa sería:


R = 4S  S= r/4

2.12 Coeficiente de variación:

Se utiliza para comparar dos conjuntos de datos y para tomar decisiones, utilizando como base de
decisión el grado de variabilidad se define de la siguiente forma: Cv: r/x * 100
2.13 Mediciones de posición relativa:

Puntaje Z: sirve para determinar datos atípicos, estos corresponden a un puntaje Z mayor que 3 en valor
absoluto. x-x´/s

Percentiles: corresponde a dividir los datos en base porcentual, luego de que se ordenan de menor a mayor.

La mediana corresponde al percentil 50 y recordemos.

M= P50  0.5 (n+1)

P25  0.25 (n+1)

P75  0.75 (n+1)

Cuartiles-Quintiles: los cuartiles corresponden a dividir los datos en 4 partes iguales.

Así el cuartil inferior (Q1) corresponde al percentil 25, mientras que el cuartil superior corresponde (Q3) al
percentil 75.

Los quintiles corresponden a dividir los datos en cinco parte iguales, correspondiente a 20 percentil.

Resumen de los 5 números:

{x min, Q1, M, Q3, X max}

Grafica de caja o box-plot: para su construcción se necesita Q1, M, Q3.

Además de:

IQR: rango intercuantil

Q3-Q1

Limite inferior: L inf: Q1 -1.5

(IQR) Limite superior:

L sup: Q3 + 1.5 (IQR)


2.14 EVALUACIÓN SUMATIVA 1: Análisis de Datos Univariados (30%)

ÁREA
ACADÉMICA
ADMINISTRACIÓN CARRERA ING. ADM. EMPRESAS
CÓDIGO DE LA
ASIGNATURA ANÁLISIS ESTADÍSTICO DE DATOS ASIGNATURA
FGAU_01
DOCENTE
SEDE CURICO RESPONSABLE
VÍCTOR CONTE POZO
Unidad de
I Criterios a Evaluar 1.1.1; 1.1.2; 1.1.3
Aprendizaje
FECHA
DURACIÓN 90 minutos APLICACIÓN
MARTES 17, ABRIL, 2018

NOMBRE DEL
ESTUDIANTE

RUN -

100
PUNTAJE MÁXIMO
ptos. NOTA:
PUNTAJE OBTENIDO Firma conforme

Motivo:
Solicita re-corrección Sí No

INSTRUCCIONES GENERALES:
 La nota 4.0 se obtiene logrando un 60% del puntaje total.
 Utilice lápiz pasta en sus respuestas.
 Preocúpese de la redacción, ortografía y legibilidad de sus respuestas.
 Está prohibido el préstamo (o solicitud) de materiales durante la evaluación.
 Se prohíbe el uso de celulares, mp3, mp4, iPhone, iPod o similares durante la evaluación. (Según
corresponda indicar: Se prohíbe el uso de calculadoras).
 OTROS:
1.- En una encuesta respecto a la educación pública, a 400 administradores de escuelas se les
pidió calificaran la calidad de la educación en Estados Unidos. Sus respuestas están resumidas
en la tabla siguiente. Construya una gráfica de pastel y una de barras a partir de este conjunto de
datos (20 pts).

Calificaciones

A
B
C
D
Calificaciones
300

250

200

150
Calificaciones

100

50

0
A B C D
2.- Un fabricante de jeans (pantalones vaqueros) tiene plantas en California (CA), Arizona (AZ) y
Texas (TX). Un grupo de 25 pares de jeans se selecciona al azar de entre la base de datos
computarizada, registrándose el estado en el que se produce (10 pts en total):

a. ¿Cuál es la unidad experimental? (3 pts)


La unidad experimental es los jeans producidos por un fabricante.
b. ¿Cuál es la variable que se mide? ¿Es cualitativa o cuantitativa? (3 pts)
La variable que se mide es cualitativa ya que son los tipos de jeans fabricados en diferentes
plantas.
c. ¿Qué proporción de los jeans se hace en Texas? (3 pts)
TX: 8/25= 0.32
0.32*100= 32%
32% fueron producidos en Texas.
d. ¿Cuál estado produjo más jeans del grupo? (1 pt)
TX: 8/25= 0.32 0.32*100= 32%
CA: 9/25= 0.36 0.36*100= 36%
AZ: 8/25= 0.32 0.32*100= 32%
= 100%
El estado que produjo más jeans del grupo es California con un 36%
3. Las cuatro ramas de las fuerzas armadas en Estados Unidos son muy diferentes en su formación
con respecto a las distribuciones de género, raza y edad. La tabla siguiente muestra el desglose
racial de los miembros del Ejército y la Fuerza Aérea de Estados Unidos (20 pts en total).

a. Defina la variable que se ha medido en esta tabla. (5 pts).


La variable que se mide es sobre la raza étnica del ejército y fuerza aérea de Estados Unidos.

b. ¿La variable es cuantitativa o cualitativa? (10 pts).


Cualitativa

c. ¿Qué representan los números? (5 pts).


Son los porcentajes de raza que hay en el ejército y fuerza aérea.
4. Una variable discreta puede tomar sólo los valores de 0, 1 o 2. Un conjunto de 20 mediciones
en esta variable se muestra (20 pts en total):

a. Construya un histograma de frecuencia relativa para los datos. (5 pts).


Tabla de frecuencia.

Clase Frecuencia Absoluta Frecuencia Relativa

0 5 0.25

1 9 0.45

2 6 0.3

Total 20 1

histograma de frecuencia relativa.


0,5
0,45
0,4
0,35
0,3
0,25
Serie 1
0,2
0,15
0,1
0,05
0
0 1 2

b. ¿Qué proporción de las mediciones es mayor a 1? (5 pts).


Es 2, el cual corresponde a un 0,3, es decir a un 30%
c. ¿Qué proporción de las mediciones es menor a 2? (5 pts).
Menor que 2, son entre 0 y 1.

0 0.25

1 0.45

Total 0.70

La proporción es 0,7. Corresponde a un


70%

d. Describa la forma de la distribución. ¿Ve algunos resultados atípicos? (5 pts).

Es una distribución central, lo cual no se observan datos atípicos, es de forma de campana.

5.- Identifique cada variable como continua o discreta (10 pts en total):

a. Peso de dos docenas de camarones. (2 pts).


Continua

b. Temperatura corporal de una persona. (2 pts).


Continua

c. Número de personas en espera de tratamiento en la sala de emergencia de un hospital.


(2 pts).
Discreta

d. Número de propiedades a la venta de una agencia de bienes raíces. (2 pts).


Discreta

e. Número de reclamos recibidos por una compañía de seguros en un día. (2 pts).


Discreta
6. El número de pasas en cada una de 14 minicajas (tamaño de 1/2 onza) se contó para una marca
genérica y pasas de la marca Sunmaid. Aquí vemos los dos conjuntos de datos (10 pts en total,
5 de bonus):

a. ¿Cuáles son la media y desviación estándar para la marca genérica? Puede realizar sus
cálculos con la calculadora, sin mostrar la tabla de datos. (5 pts).
Media= 26,2142
Desviación Estándar; 1,2514
b. ¿Cuáles son la media y desviación estándar para la marca Sunmaid? Puede realizar sus
cálculos con la calculadora, sin mostrar la tabla de datos. (5 pts).
Media= 26,1428
Desviación Estándar= 2,4133
c. Compare los centros y variabilidades de las dos marcas usando los resultados de los
incisos a) y b) utilizando el coeficiente de variación de cada conjunto de datos. (5 pts).

Marca Genérica
(1,2514/26,2142)*100 = 4,77 %
Marca Sunmaid:
(2,4133/26,1428)*100= 9,23%
Se debe utilizar la marca genérica.
7. La contaminación causada por petróleo en mares y océanos estimula el crecimiento de algunos
tipos de bacterias. Una cantidad de microorganismos que se originan en el petróleo (bacterias por
100 mililitros) en 10 partes de agua de mar dieron estas lecturas: 49, 70, 54, 67, 59, 40, 61,
69, 71, 52. (10 pts en total, 5 de bonus)

a. Calcule el valor de s usando la aproximación de rango. (5 pts).


71-40= 31
Estimación de rango: 31/3= 10,33

b. Calcule la media y la desviación estandar y compare con la aproximación de rango de el


inciso a). (5 pts).
Id Xi X^2

1 49 2401

2 70 4900

3 54 2916

4 67 4489

5 59 3481

6 40 1600

7 61 3721

8 69 4761

9 71 5041

10 52 2704

Total 592 36014

𝟐 (∑ 𝒙𝒊 )𝟐 𝟓𝟗𝟐𝟐
√∑ 𝒙𝒊 − 𝒏 √𝟑𝟔𝟎𝟏𝟒 − 𝟏𝟎
𝑺= =
𝒏−𝟏 𝟗
Media= 59,2
Varianza= 107,511
Desviación estándar= 10,36875649
c. Construya una gráfica de caja para los datos y úsela para describir la distribución de
datos. (5 pts).

8. BONUS Considere una población formada por el número de profesores por colegio en pequeños
colegios de dos años. Suponga que el número de profesores por colegio tiene un promedio media
175 y una desviación estándar de 15.

a. Use el teorema de Chebyshev para hacer un enunciado acerca del porcentaje de


colegios que tienen entre 145 y 205 profesores. (5 pts).

Dada la media 175 y la desviación estándar 15, El teorema de Chebyshev establece que la
𝟏
fracción (𝟏 − 𝐤 𝟐) donde k representa las desviaciones estándar desde la media.

En el intervalo 145 a 205 se puede escribir que:


𝟏𝟒𝟓 = 𝟏𝟕𝟓 − 𝐤𝟏𝟓, 𝐝𝐞 𝐝𝐨𝐧𝐝𝐞 𝐬𝐞 𝐬𝐢𝐠𝐮𝐞 𝐪𝐮𝐞
𝟏𝟕𝟓 − 𝟏𝟒𝟓 𝟑𝟎
𝐤= = =𝟐
𝟏𝟓 𝟏𝟓
Luego un enunciado sería que a lo menos la fracción siguiente de los datos pertenece al
intervalo (145 - 205)
𝟏 𝟏 𝟒−𝟏 𝟑
(𝟏 − ) = 𝟏 − = = = 𝟎, 𝟕𝟓
𝟐𝟐 𝟒 𝟒 𝟒

Que en otras palabras corresponde al 75%.


A lo menos el 75% de los datos poblacionales se encuentran en el intervalo (145 - 205)

b. Suponga que la población está normalmente distribuida. ¿Qué fracción de colegios tiene
más de 190 profesores? (5 pts).

De ser una población normalmente distribuida implica que se puede aplicar la regla
empírica, luego 190 profesores se encuentran a UNA desviación estándar de la media,
entonces la fracción de colegios que tiene más de 190 profesores sería 2,1% aprox.

(ver figura a continuación).


9.- BONUS: Dado el siguiente conjunto de datos: 8, 7, 1, 4, 6, 6, 4, 5, 7, 6, 3, 0.

0, 1, 3, 4, 4, 5, 6, 6, 6, 7, 7, 8.

a. Encuentre el resumen de cinco números y el IQR (rango intercuartil). (10 pts).


Q1= 0,25 * (12+1) = 0,25*13 = 3,25
3 + 0,25 (4-3) = 3,25
M= 0,5*13 = 6,5
5+0,5(6-5)= 5,5
Q3= 0,75*13= 9,75
6+0,75 (7-6) = 6,75
IQR= 6,75-3,25
=3,5

b. Calcule la media y la desviación estándar con la ayuda de una calculadora científica, o


con el método que prefiera (5 pts).

Media= 4,75
Desviación Estándar= 2,4541
3 Unidad 2
3.1 Tabla de distribución de frecuencia de doble entrada:

Para capturar datos de variables cualitativa que se relacionan a través de un dato numérico, se define
la tabla de doble entrada, la cual se realiza los siguientes gráficos.
 Barra de lado a lado
 Gráfico de torta comparativa.
 Barra apilada
 Barras apiladas porcentuales.

Tabla de doble entrada donde 356 personas fueron encuestadas si lograron dejar su hábito de
fumar y su estatus socioeconómico

Este ejemplo fue creado a partir de un ejercicio del libro Moore and McCabe’s introduction to the
practice of statisitics

3.2 Grafica de dispersión y coeficiente de correlación

“Cuando las dos variables que hayan de presentarse en una gráfica son cuantitativas, una de ellas
se gráfica a lo largo del eje horizontal y la otra a lo largo del eje vertical”, la primera variable se denominará
x y, la otra, y. “Se puede describir la relación entre dos variables, X y Y, usando los patrones que se muestran
en la gráfica de dispersión” (Mendenhall, Beaver y Beaver, 2006, p.102)
De la gráfica de dispersión se puede distinguir:
 Patrones o tendencias.
 Utiliza modelos.
 Identifica datos atípicos.
Dr. Carlos Téllez Martínez; Febrero 2015; DIAGRAMA DE
DISPERSIÓN Y CORRELACION EN R
3.3 Coeficiente de correlación

Se utiliza para identificar si los datos siguen una tendencia positiva, negativa o nula. “Se puede
demostrar que el valor de R siempre está entre -1 y 1. Cuando r es positiva, X aumenta cuando y aumenta,
y viceversa. Cuando r es negativa, x disminuye cuando y aumenta, o x aumenta cuando y disminuye.
Cuando r toma el valor de 1 o -1, todos los puntos están exactamente una recta. Si r o, entonces no hay
relación lineal aparente entre las dos variables. Cuanto más cercano sea el valor de r a 1 o a -1, será más
fuerte la relación lineal entre las dos variables” (Mendenhall, Beaver y Beaver, 2006, p.107)
Se define como:
𝑆𝑥𝑦
𝑅=
𝑆𝑥𝑆𝑦

Sx, sy: son desviaciones estándar de los datos.


Sxy: covarianza, la cual se calcula
(∑ 𝑥2)(∑ 𝑦2)
∑ 𝑥1𝑦1 −
𝑆𝑥𝑦 = 𝑛
𝑛−1

donde Σxy representa la suma de productos x1, y1 por cada uno donde n pares de mediciones.

3.4 Regresión lineal

“Si una de las dos variables se puede clasificar como la variable dependiente Y, la otra como X, y si
los datos exhiben un modelo de línea recta, es posible describir la relación que vincula y a x usando una
línea recta dada por la ecuación de y= a+bx” (Mendenhall, Beaver y Beaver, 2006, p.108).
El objetivo de obtener la ecuación a la recta es poder predecir o estimar valores de la variable dependiente
y para algunos de la variable independiente x.
“Recta de regresión, se encuentra al reducir el mínimo la suma de las diferencias cuadradas entre los puntos
de datos y la recta misma” (Mendenhall, Beaver y Beaver, 2006).
Las fórmulas para calcular B y A, se muestran a continuación:

B=
𝑆𝑦
𝐵 = 𝑟( )
𝑆𝑥
A=
𝐴 = 𝑌̅ − 𝐵𝑋̅
Y la regresión es Y=a+bx
Donde:
 Y: variable dependiente
 X: variable independiente.
 A: coeficiente de posición a corte de eje Y.
 B: pendiente.
3.5 Calculo de residuales y error estándar de una regresión lineal:

Pendiente de la base que ya se encuentra con una regresión lineal. Los cálculos residuales
corresponden a la diferencia entre el valor observado con el valor estimado, obtendremos el error estándar
como:

∑ 𝑒2

𝑛−2

3.6 Causalidad:

Se dice que dos variables son causalidades cuando una variable es la causa y la otra el efecto, la
correlación no implica causalidad.

3.7 Predicción y residuos

Para realizar una predicción, se reemplaza el valor X (variable independiente) en la ecuación de


regresión líneal. La predicción sería:
Y(x)=a+bx.
El residuo corresponde a la diferencia entre el valor observado y estimado.
3.8 Distribución condicional

Se obtiene luego de dividir la tabla de doble entrada, por el total de datos muestrales.

3.9 Distribución Marginal

Consiste en considerar una fila o columna completa sin considerar el total.


3.10 EVALUACIÓN SUMATIVA 2: Análisis Bi-Variados (20%)

ÁREA
ACADÉMICA
ADMINISTRACIÓN CARRERA ING. ADM. EMPRESAS
CÓDIGO DE LA
ASIGNATURA ANÁLISIS ESTADÍSTICO DE DATOS ASIGNATURA
ETAD01
DOCENTE
SEDE CURICO RESPONSABLE
VÍCTOR CONTE POZO
Unidad de
2 Criterios a Evaluar 2.1.1; 2.1.2; 2.1.3
Aprendizaje
FECHA
DURACIÓN 90 minutos APLICACIÓN

NOMBRE DEL
ESTUDIANTE

RUN -

100
PUNTAJE MÁXIMO
ptos. NOTA:
PUNTAJE OBTENIDO Firma conforme

Motivo:
Solicita re-corrección Sí No

INSTRUCCIONES GENERALES:
 La nota 4.0 se obtiene logrando un 60% del puntaje total.
 Utilice lápiz pasta en sus respuestas.
 Preocúpese de la redacción, ortografía y legibilidad de sus respuestas.
 Está prohibido el préstamo (o solicitud) de materiales durante la evaluación.
 Se prohíbe el uso de celulares, mp3, mp4, iPhone, iPod o similares durante la evaluación. (Según
corresponda indicar: Se prohíbe el uso de calculadoras).
 Se prohibe el uso de formularios.
1) Considere la siguiente tabla de doble entrada o tabla de contingencia.

Género

Tiempo de espera (min) Femenino Masculino TOTAL

[0-10[ 7 9 16

[10-20[ 31 21 52

[20-30[ 45 38 83

Más de 30 min 37 37 74

TOTAL 120 105 225

a) Obtener la tabla de contingencia (5 pts.):


Tiempo de espera (min) Femenino Masculino TOTAL

[0-10[

[10-20[

[20-30[

Más de 30 min

TOTAL

Tiempo de espera (min) Femenino Masculino TOTAL

[0-10[ 0,03111111 0,04 0,07111111


[10-20[ 0,13777778 0,09333333 0,23111111
[20-30[ 0,2 0,16888889 0,36888889

Más de 30 min 0,16444444 0,16444444 0,32888889

TOTAL 0,53333333 0,46666667 1

b) ¿En qué proporción, una persona de género femenino? Expresar porcentualmente (5 pts)
120/225= 0,5333

=53,00%
c) ¿Cuál es el tamaño de la muestra? (5 pts)
El tamaño de la muestra es 225.

d) ¿Dado que espera entre 10 y 20 minutos, con que probabilidad para esta muestra se trata de una
persona de género masculino? (5 pts)
21/225= 0,093 = 9.3%

e) Realizar una gráfica de lado a lado para las variables cuántitaivas (10 pts).

50
45
40
35
30
25 Series1

20 Series2

15
10
5
0
[0-10[ [10-20[ [20-30[ Más de 30 min

Serie 1: Femenino

Serie 2: Masculino.

f) ¿Cuál es la clase modal? Indicar la clase y su frecuencia. (5 pts)


La moda es Femenino, 120/225= 0,5333. = 53,33%

g) Obtener la distribución marginal para el género masculino (10 pts).


Distribución marginal: 9,21,38,37
2.-Considerar los siguientes datos para dos variables cuantitativas x e y.

Completar la Tabla 1 con los valores que corresponda. Utilizar las expresiones de ayuda.

𝑦 = 𝑎̂ + 𝑏̂𝑥
𝑆𝑦
𝑏̂ = 𝑟 , 𝑎̂ = 𝑦̅ − 𝑏̂𝑥̅
𝑆𝑥

(∑ 𝑥)(∑ 𝑦) 2 2
∑ 𝑥𝑦 − ∑ 𝑥 2 − (∑ 𝑥) ∑ 𝑦 2 − (∑ 𝑦)
𝑆𝑥𝑦 𝑛 √ 𝑛 √ 𝑛
𝑟= , 𝑆𝑥𝑦 = , 𝑆𝑥 = , 𝑆𝑦 =
𝑆𝑥 𝑆𝑦 𝑛−1 𝑛−1 𝑛−1

𝑖𝑑 𝑥𝑖 𝑦𝑖 𝑥𝑖2 𝑦𝑖2 𝑥𝑖 𝑦𝑖 𝑦̂𝑖 (𝑥𝑖 ) 𝑒̂𝑖 = 𝑦𝑖 − 𝑦̂𝑖 (𝑒̂𝑖 )2


1 5 93
2 2 29
3 2 33
4 3 55
5 3 66
6 1 10
7 4 87
8 4 78
9 5 110
Total

Tabla 1: Valores a obtener durante el ejercicio.

1 5 93 25 8649 465 102,779 -9,779 95,62884


2 2 29 4 841 58 34,5272 -5,5272 30,549939
3 2 33 4 1089 66 34,5272 -1,5272 2,3323398
4 3 55 9 3025 165 57,2778 -2,2778 5,1883728
5 3 66 9 4356 198 57,2778 8,7222 76,076772
6 1 10 1 100 10 11,7766 -1,7766 3,1563075
7 4 87 16 7569 348 80,0284 6,9716 48,603206
8 4 78 16 6084 312 80,0284 -2,0284 4,1144065
9 5 110 25 12100 550 102,779 7,221 52,14284
Total 29 561 109 43813 2172 561,0014 -0,0014 317,79302
3,22222222 62,3333333
a) Obtener la covarianza (5 pts).
(29) ∗ (561)
2172 − 9 = 45,5
9−1

b) Obtener el coeficiente de correlación r. Interpretar los resultados. (5 pts)

(29)2
109−
SX=√ 9−1 9 = 1.4142

(561)2
43813−
SY=√ 9−1
9
= 33,2535

45,5
R= (1.4142∗33,2535) = 0,9674

c) Obtener el intercepto de la ecuación de regresión (5 pts)


33,2535
B=0,9674* = 22,7507
1,4142

A=62,3333-22.7507*3,2222=-10,9740

d) Escribir la ecuación de regresión lineal. (10 pts)

Y=-10.9740-22,7507X

e) A partir de la tabla, calcular el residual o estimación del error de la regresión lineal. (10 pts)

317.7909
Err= √ 9−2
= 6.7378

El error estándar es 6,7378

f) Cuál es el valor estimado para y, cuando x=5. (10 pts)

-10,9740+22,7506*5=102,7795

El valor estimado para Y es= 102,7795


g) Cuál es el valor estimado para x, cuando y=45 (10 pts)

45=-10,9740+22,7506*X

45-10,9740=22,7506X

34,026/22,7506=X

1.49560891=X

Es la estimación de X

h) Comentar que variables podrían ser x e y. (10 pts)

Las variables pueden ser personas que viven en una casa y sus ingresos totales o también puede ser los
ingresos gastados en alimentación en un hogar.

i) Realizar una gráfica de dispersión. (10 pts)

120

100

80

60
Series1

40

20

0
0 1 2 3 4 5 6
j) Bonus 1: Dibujar la recta de regresión en la misma gráfica de dispersión. (20 pts)

k) Bonus 2: Que función de R se utiliza para realizar la regresión lineal, de ser posible escriba los
comandos correspondientes, citando un ejemplo. (10 pts)

3.- Mencionar 2 ejemplos de variables que deberían tener una correlación positiva y 2 con correlación
negativa, realizar un diagrama explicativo para cada caso, indicando la variable dependiente e
independiente. (Bonus 4: 20 pts)

estatura
Ejemplo 1:

Estatura (x)

Peso (Y)
Peso

Ejemplo 2:
Asistencia
Porcentaje Asistencia (x)

Nota (y)

Nota

Estás son variables positivas.

Ejemplo 1:

Dólar (x)

Cobre (y)
Cobre

Ejemplo 2:
Nivel de vida
Nivel de vida población (X)

Consumo de productos de primera necesitad (y)

Consumo de productos

4.- Explicar el concepto de causalidad y dar dos ejemplos. (Bonus 5: 20 pts)

Se define como Causa Efecto, siempre tiene motivo y un efecto.

Ejemplos: porcentaje de asistencia-nota; cantidad de comida-nutrición.


4 Conclusiones

Podemos determinar la importancia de aplicar estos procedimientos estadísticos en el cálculo de


probabilidades en situaciones reales, cada uno de los conceptos trabajados y desarrollados nos permite
dilucidar correctamente las alternativas más productivas y viables en el ámbito empresarial, como también
una fuente indispensable de información estadística para el mundo laboral al que nos hemos orientado.

5 Bibliografía

• Mendenhall, W., Beaver, R., Beaver, B. (2006). Introducción a la probabilidad estadística. México.
CENGAGE Learning.
• Francisco J. Romero Campero. Técnicas inteligentes en bioinformática (capítulo 5). Universidad de
Sevilla
• Dr. Carlos Téllez Martínez; Febrero 2015; DIAGRAMA DE DISPERSIÓN Y CORRELACION EN R
• How To: Install R and the psych package William Revelle Department of Psychology Northwestern
University July 3, 2018

También podría gustarte