Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Y NEGOCIOS
1 Introducción: ........................................................................................................................................... 3
2 Contenido del Descriptor: ....................................................................................................................... 3
3 Unidad 1 .................................................................................................................................................. 3
3.1 Variables Cualitativas: ..................................................................................................................... 3
3.2 Variables Cuantitativas: ................................................................................................................... 3
3.3 Tabla de distribución de frecuencia: ............................................................................................... 3
3.4 Grafica para datos cuantitativos: .................................................................................................... 4
3.5 Tipo de distribuciones: .................................................................................................................... 5
3.6 Histograma de frecuencia relativa: ................................................................................................. 5
3.7 Descripción de datos con medidas numéricas: ............................................................................... 6
3.8 Medidas de variabilidad: ................................................................................................................. 6
3.9 Teorema de Chebyshev: .................................................................................................................. 6
3.10 Regla empírica: ................................................................................................................................ 7
3.11 Estimación de S a partir de R ........................................................................................................... 7
3.12 Coeficiente de variación: ................................................................................................................. 7
3.13 Mediciones de posición relativa: ..................................................................................................... 8
3.14 EVALUACIÓN SUMATIVA 1: Análisis de Datos Univariados (30%) .................................................. 9
4 Unidad 2 ................................................................................................................................................ 21
4.1 Tabla de distribución de frecuencia de doble entrada: ................................................................ 21
4.2 Grafica de dispersión y coeficiente de correlación ....................................................................... 21
4.3 Coeficiente de correlación ............................................................................................................ 23
4.4 Regresión lineal ............................................................................................................................. 23
4.5 Calculo de residuales y error estándar de una regresión lineal: ................................................... 25
4.6 Causalidad: .................................................................................................................................... 25
4.7 Predicción y residuos..................................................................................................................... 25
4.8 Distribución condicional ................................................................................................................ 26
4.9 Distribución Marginal .................................................................................................................... 26
4.10 EVALUACIÓN SUMATIVA 2: Análisis Bi-Variados (20%) ................................................................................ 27
5 Conclusiones.......................................................................................................................................................... 34
6 Bibliografía ............................................................................................................................................................ 34
Introducción:
A continuación, daremos a conocer un informe detallado de distintos conceptos básicos de nuestro
descriptor de asignatura, tales como; variable cuantitativa, variable cualitativa, histograma de frecuencia
relativa, tabla de distribución de frecuencia, teorema de Chebyshev entre otros, con la finalidad de dar a
conocer en profundidad su desarrollo mediante la definición, gráficos y sus respectivos procesos,
recopilando información ilustrativa que permita una lectura didáctica y completa del informe. El
aprendizaje esperado se basa en el saber desarrollar distintas capacidades de recoger, organizar, describir
y presentar conjuntos de datos estadísticos además de saber interpretar cada resultado obtenido de dichos
procedimientos.
- Gráfico de puntos: corresponde solamente a ubicar sobre una recta numérica puntos
correspondientes a las mediciones de las variables cuantitativas.
- Gráfico de tallo y hojas: corresponde a separar datos en tallos y hojas, en el sentido que los tallos
corresponden típicamente a docena, mientras que las unidades serán las hojas, existirán tantas hojas
iguales como veces se repita un dato. (Mendenhall, Beaver y Beaver, 2006).
2.5 Tipo de distribuciones:
• Clase: se finen como la cantidad de tramos de igual longitud y las que se divide una variable
cuantitativa.
Se recomienda utilizar esta tabla cuando no se indica nada de la clase que se va utilizar.
Tamaño de muestra 25 30 100 300 500
Numero de clases 6 7 8 9 10
• Ancho mínimo de clase: se define como el cociente o división entre el rango y la cantidad de clases
L min: Rango / Cantidad de clases.
• Ancho practico: es un valor levemente superior el ancho mínimo de clase, pero siempre menor que
el rango.
2.7 Descripción de datos con medidas numéricas:
Como complemento a las medidas de tendencia central y para justificar la toma de decisiones.
=0.88= 88.89%
2.10 Regla empírica:
Se aplica siempre y cuando la distribución de los datos sea simétrica o sin sesgos, o sea con forma
de un montículo. A esta forma de distribución también se denomina distribución normal o
campana de Gauss.
Se utiliza para comparar dos conjuntos de datos y para tomar decisiones, utilizando como base de
decisión el grado de variabilidad se define de la siguiente forma: Cv: r/x * 100
2.13 Mediciones de posición relativa:
Puntaje Z: sirve para determinar datos atípicos, estos corresponden a un puntaje Z mayor que 3 en valor
absoluto. x-x´/s
Percentiles: corresponde a dividir los datos en base porcentual, luego de que se ordenan de menor a mayor.
Así el cuartil inferior (Q1) corresponde al percentil 25, mientras que el cuartil superior corresponde (Q3) al
percentil 75.
Los quintiles corresponden a dividir los datos en cinco parte iguales, correspondiente a 20 percentil.
Además de:
Q3-Q1
ÁREA
ACADÉMICA
ADMINISTRACIÓN CARRERA ING. ADM. EMPRESAS
CÓDIGO DE LA
ASIGNATURA ANÁLISIS ESTADÍSTICO DE DATOS ASIGNATURA
FGAU_01
DOCENTE
SEDE CURICO RESPONSABLE
VÍCTOR CONTE POZO
Unidad de
I Criterios a Evaluar 1.1.1; 1.1.2; 1.1.3
Aprendizaje
FECHA
DURACIÓN 90 minutos APLICACIÓN
MARTES 17, ABRIL, 2018
NOMBRE DEL
ESTUDIANTE
RUN -
100
PUNTAJE MÁXIMO
ptos. NOTA:
PUNTAJE OBTENIDO Firma conforme
Motivo:
Solicita re-corrección Sí No
INSTRUCCIONES GENERALES:
La nota 4.0 se obtiene logrando un 60% del puntaje total.
Utilice lápiz pasta en sus respuestas.
Preocúpese de la redacción, ortografía y legibilidad de sus respuestas.
Está prohibido el préstamo (o solicitud) de materiales durante la evaluación.
Se prohíbe el uso de celulares, mp3, mp4, iPhone, iPod o similares durante la evaluación. (Según
corresponda indicar: Se prohíbe el uso de calculadoras).
OTROS:
1.- En una encuesta respecto a la educación pública, a 400 administradores de escuelas se les
pidió calificaran la calidad de la educación en Estados Unidos. Sus respuestas están resumidas
en la tabla siguiente. Construya una gráfica de pastel y una de barras a partir de este conjunto de
datos (20 pts).
Calificaciones
A
B
C
D
Calificaciones
300
250
200
150
Calificaciones
100
50
0
A B C D
2.- Un fabricante de jeans (pantalones vaqueros) tiene plantas en California (CA), Arizona (AZ) y
Texas (TX). Un grupo de 25 pares de jeans se selecciona al azar de entre la base de datos
computarizada, registrándose el estado en el que se produce (10 pts en total):
0 5 0.25
1 9 0.45
2 6 0.3
Total 20 1
0 0.25
1 0.45
Total 0.70
5.- Identifique cada variable como continua o discreta (10 pts en total):
a. ¿Cuáles son la media y desviación estándar para la marca genérica? Puede realizar sus
cálculos con la calculadora, sin mostrar la tabla de datos. (5 pts).
Media= 26,2142
Desviación Estándar; 1,2514
b. ¿Cuáles son la media y desviación estándar para la marca Sunmaid? Puede realizar sus
cálculos con la calculadora, sin mostrar la tabla de datos. (5 pts).
Media= 26,1428
Desviación Estándar= 2,4133
c. Compare los centros y variabilidades de las dos marcas usando los resultados de los
incisos a) y b) utilizando el coeficiente de variación de cada conjunto de datos. (5 pts).
Marca Genérica
(1,2514/26,2142)*100 = 4,77 %
Marca Sunmaid:
(2,4133/26,1428)*100= 9,23%
Se debe utilizar la marca genérica.
7. La contaminación causada por petróleo en mares y océanos estimula el crecimiento de algunos
tipos de bacterias. Una cantidad de microorganismos que se originan en el petróleo (bacterias por
100 mililitros) en 10 partes de agua de mar dieron estas lecturas: 49, 70, 54, 67, 59, 40, 61,
69, 71, 52. (10 pts en total, 5 de bonus)
1 49 2401
2 70 4900
3 54 2916
4 67 4489
5 59 3481
6 40 1600
7 61 3721
8 69 4761
9 71 5041
10 52 2704
𝟐 (∑ 𝒙𝒊 )𝟐 𝟓𝟗𝟐𝟐
√∑ 𝒙𝒊 − 𝒏 √𝟑𝟔𝟎𝟏𝟒 − 𝟏𝟎
𝑺= =
𝒏−𝟏 𝟗
Media= 59,2
Varianza= 107,511
Desviación estándar= 10,36875649
c. Construya una gráfica de caja para los datos y úsela para describir la distribución de
datos. (5 pts).
8. BONUS Considere una población formada por el número de profesores por colegio en pequeños
colegios de dos años. Suponga que el número de profesores por colegio tiene un promedio media
175 y una desviación estándar de 15.
Dada la media 175 y la desviación estándar 15, El teorema de Chebyshev establece que la
𝟏
fracción (𝟏 − 𝐤 𝟐) donde k representa las desviaciones estándar desde la media.
b. Suponga que la población está normalmente distribuida. ¿Qué fracción de colegios tiene
más de 190 profesores? (5 pts).
De ser una población normalmente distribuida implica que se puede aplicar la regla
empírica, luego 190 profesores se encuentran a UNA desviación estándar de la media,
entonces la fracción de colegios que tiene más de 190 profesores sería 2,1% aprox.
0, 1, 3, 4, 4, 5, 6, 6, 6, 7, 7, 8.
Media= 4,75
Desviación Estándar= 2,4541
3 Unidad 2
3.1 Tabla de distribución de frecuencia de doble entrada:
Para capturar datos de variables cualitativa que se relacionan a través de un dato numérico, se define
la tabla de doble entrada, la cual se realiza los siguientes gráficos.
Barra de lado a lado
Gráfico de torta comparativa.
Barra apilada
Barras apiladas porcentuales.
Tabla de doble entrada donde 356 personas fueron encuestadas si lograron dejar su hábito de
fumar y su estatus socioeconómico
Este ejemplo fue creado a partir de un ejercicio del libro Moore and McCabe’s introduction to the
practice of statisitics
“Cuando las dos variables que hayan de presentarse en una gráfica son cuantitativas, una de ellas
se gráfica a lo largo del eje horizontal y la otra a lo largo del eje vertical”, la primera variable se denominará
x y, la otra, y. “Se puede describir la relación entre dos variables, X y Y, usando los patrones que se muestran
en la gráfica de dispersión” (Mendenhall, Beaver y Beaver, 2006, p.102)
De la gráfica de dispersión se puede distinguir:
Patrones o tendencias.
Utiliza modelos.
Identifica datos atípicos.
Dr. Carlos Téllez Martínez; Febrero 2015; DIAGRAMA DE
DISPERSIÓN Y CORRELACION EN R
3.3 Coeficiente de correlación
Se utiliza para identificar si los datos siguen una tendencia positiva, negativa o nula. “Se puede
demostrar que el valor de R siempre está entre -1 y 1. Cuando r es positiva, X aumenta cuando y aumenta,
y viceversa. Cuando r es negativa, x disminuye cuando y aumenta, o x aumenta cuando y disminuye.
Cuando r toma el valor de 1 o -1, todos los puntos están exactamente una recta. Si r o, entonces no hay
relación lineal aparente entre las dos variables. Cuanto más cercano sea el valor de r a 1 o a -1, será más
fuerte la relación lineal entre las dos variables” (Mendenhall, Beaver y Beaver, 2006, p.107)
Se define como:
𝑆𝑥𝑦
𝑅=
𝑆𝑥𝑆𝑦
donde Σxy representa la suma de productos x1, y1 por cada uno donde n pares de mediciones.
“Si una de las dos variables se puede clasificar como la variable dependiente Y, la otra como X, y si
los datos exhiben un modelo de línea recta, es posible describir la relación que vincula y a x usando una
línea recta dada por la ecuación de y= a+bx” (Mendenhall, Beaver y Beaver, 2006, p.108).
El objetivo de obtener la ecuación a la recta es poder predecir o estimar valores de la variable dependiente
y para algunos de la variable independiente x.
“Recta de regresión, se encuentra al reducir el mínimo la suma de las diferencias cuadradas entre los puntos
de datos y la recta misma” (Mendenhall, Beaver y Beaver, 2006).
Las fórmulas para calcular B y A, se muestran a continuación:
B=
𝑆𝑦
𝐵 = 𝑟( )
𝑆𝑥
A=
𝐴 = 𝑌̅ − 𝐵𝑋̅
Y la regresión es Y=a+bx
Donde:
Y: variable dependiente
X: variable independiente.
A: coeficiente de posición a corte de eje Y.
B: pendiente.
3.5 Calculo de residuales y error estándar de una regresión lineal:
Pendiente de la base que ya se encuentra con una regresión lineal. Los cálculos residuales
corresponden a la diferencia entre el valor observado con el valor estimado, obtendremos el error estándar
como:
∑ 𝑒2
√
𝑛−2
3.6 Causalidad:
Se dice que dos variables son causalidades cuando una variable es la causa y la otra el efecto, la
correlación no implica causalidad.
Se obtiene luego de dividir la tabla de doble entrada, por el total de datos muestrales.
ÁREA
ACADÉMICA
ADMINISTRACIÓN CARRERA ING. ADM. EMPRESAS
CÓDIGO DE LA
ASIGNATURA ANÁLISIS ESTADÍSTICO DE DATOS ASIGNATURA
ETAD01
DOCENTE
SEDE CURICO RESPONSABLE
VÍCTOR CONTE POZO
Unidad de
2 Criterios a Evaluar 2.1.1; 2.1.2; 2.1.3
Aprendizaje
FECHA
DURACIÓN 90 minutos APLICACIÓN
NOMBRE DEL
ESTUDIANTE
RUN -
100
PUNTAJE MÁXIMO
ptos. NOTA:
PUNTAJE OBTENIDO Firma conforme
Motivo:
Solicita re-corrección Sí No
INSTRUCCIONES GENERALES:
La nota 4.0 se obtiene logrando un 60% del puntaje total.
Utilice lápiz pasta en sus respuestas.
Preocúpese de la redacción, ortografía y legibilidad de sus respuestas.
Está prohibido el préstamo (o solicitud) de materiales durante la evaluación.
Se prohíbe el uso de celulares, mp3, mp4, iPhone, iPod o similares durante la evaluación. (Según
corresponda indicar: Se prohíbe el uso de calculadoras).
Se prohibe el uso de formularios.
1) Considere la siguiente tabla de doble entrada o tabla de contingencia.
Género
[0-10[ 7 9 16
[10-20[ 31 21 52
[20-30[ 45 38 83
Más de 30 min 37 37 74
[0-10[
[10-20[
[20-30[
Más de 30 min
TOTAL
b) ¿En qué proporción, una persona de género femenino? Expresar porcentualmente (5 pts)
120/225= 0,5333
=53,00%
c) ¿Cuál es el tamaño de la muestra? (5 pts)
El tamaño de la muestra es 225.
d) ¿Dado que espera entre 10 y 20 minutos, con que probabilidad para esta muestra se trata de una
persona de género masculino? (5 pts)
21/225= 0,093 = 9.3%
e) Realizar una gráfica de lado a lado para las variables cuántitaivas (10 pts).
50
45
40
35
30
25 Series1
20 Series2
15
10
5
0
[0-10[ [10-20[ [20-30[ Más de 30 min
Serie 1: Femenino
Serie 2: Masculino.
Completar la Tabla 1 con los valores que corresponda. Utilizar las expresiones de ayuda.
𝑦 = 𝑎̂ + 𝑏̂𝑥
𝑆𝑦
𝑏̂ = 𝑟 , 𝑎̂ = 𝑦̅ − 𝑏̂𝑥̅
𝑆𝑥
(∑ 𝑥)(∑ 𝑦) 2 2
∑ 𝑥𝑦 − ∑ 𝑥 2 − (∑ 𝑥) ∑ 𝑦 2 − (∑ 𝑦)
𝑆𝑥𝑦 𝑛 √ 𝑛 √ 𝑛
𝑟= , 𝑆𝑥𝑦 = , 𝑆𝑥 = , 𝑆𝑦 =
𝑆𝑥 𝑆𝑦 𝑛−1 𝑛−1 𝑛−1
(29)2
109−
SX=√ 9−1 9 = 1.4142
(561)2
43813−
SY=√ 9−1
9
= 33,2535
45,5
R= (1.4142∗33,2535) = 0,9674
A=62,3333-22.7507*3,2222=-10,9740
Y=-10.9740-22,7507X
e) A partir de la tabla, calcular el residual o estimación del error de la regresión lineal. (10 pts)
317.7909
Err= √ 9−2
= 6.7378
-10,9740+22,7506*5=102,7795
45=-10,9740+22,7506*X
45-10,9740=22,7506X
34,026/22,7506=X
1.49560891=X
Es la estimación de X
Las variables pueden ser personas que viven en una casa y sus ingresos totales o también puede ser los
ingresos gastados en alimentación en un hogar.
120
100
80
60
Series1
40
20
0
0 1 2 3 4 5 6
j) Bonus 1: Dibujar la recta de regresión en la misma gráfica de dispersión. (20 pts)
k) Bonus 2: Que función de R se utiliza para realizar la regresión lineal, de ser posible escriba los
comandos correspondientes, citando un ejemplo. (10 pts)
3.- Mencionar 2 ejemplos de variables que deberían tener una correlación positiva y 2 con correlación
negativa, realizar un diagrama explicativo para cada caso, indicando la variable dependiente e
independiente. (Bonus 4: 20 pts)
estatura
Ejemplo 1:
Estatura (x)
Peso (Y)
Peso
Ejemplo 2:
Asistencia
Porcentaje Asistencia (x)
Nota (y)
Nota
Ejemplo 1:
Dólar (x)
Cobre (y)
Cobre
Ejemplo 2:
Nivel de vida
Nivel de vida población (X)
Consumo de productos
5 Bibliografía
• Mendenhall, W., Beaver, R., Beaver, B. (2006). Introducción a la probabilidad estadística. México.
CENGAGE Learning.
• Francisco J. Romero Campero. Técnicas inteligentes en bioinformática (capítulo 5). Universidad de
Sevilla
• Dr. Carlos Téllez Martínez; Febrero 2015; DIAGRAMA DE DISPERSIÓN Y CORRELACION EN R
• How To: Install R and the psych package William Revelle Department of Psychology Northwestern
University July 3, 2018