Resumen Estadistica

Recolección de Datos: La necesidad de datos para:
• Proporcionar la introducción imprescindible para un estudio de investigación.

• Medir el desempeño en un servicio o proceso de producción en curso.
• Ayudar en la formulación de cursos alternativos de acción en un proceso de toma de decisiones. •
Satisfacer nuestra curiosidad.
DATOS: Son hechos/informaciones y cifras que se recogen analizan y resumen para su representación e
interpretación. A todos los datos reunidos para un estudio se denomina conjunto de datos. Un conjunto de datos que
contiene tal número de elementos es siempre igual al número de observaciones
• Elementos: son las entidades de las que se obtienen los datos (son los que aparecen en la primera columna) •
Variable: características de los elementos que es de interés (son todos los títulos de las columnas)
• Observación: es el conjunto de mediciones obtenidas (todo lo que aparece en la fila de un determinado
elemento)
Variables Cualitativas (datos categóricos): comprenden etiquetas o nombres que se usan para identificar un atributo
de c/ elemento. Pueden ser numéricos o no
• Escala Nominal: cuando los datos observados simplemente se clasifican en diversas categorías distintas que no
implican ningún orden. Es la forma más débil de medición, porque no se puede hacer ningún intento para
explicar las diferencias dentro de una categoría particular, o de especificar cualquier orden/dirección entre las
diversas categorías. Ej.: sexo (femenino - masculino).
• Escala Ordinal: cuando los datos observados se clasifican en distintas categorías que implican algún orden. Es una
forma de medición más fuerte que la anterior, porque se dice que un valor observado clasificado en una
categoría posee mas de una propiedad de clasificación, que un valor observado en otra categoría. Aún así, sigue
siendo una forma débil de medición, porque no pueden hacerse afirmaciones numéricas significativas respecto a
las diferencias entre las categorías. Ej: nivel educativo.
Variables cuantitativas: requieren valores numéricos que indique cuanto o cuantos. Son discretos o continuos •
Escala de Intervalo: es una escala ordenada en la cual, la diferencia de las mediciones es una cantidad significativa.
Existen distancias estables entre los valores y relación de orden. Puedo cuantificarlas y operar con ellas (sumar y
restar) Ej: temperatura, notas, IQ,
• Escala de razón: existen diferencias entre los valores, que son iguales en todos los puntos de la escala. Además,
existe un punto cero absoluto (el cual hace que los datos sean relevantes, signficativos). No existe valores
negativos. Puedo cuantificar las variables y operar con ellas (sumar, restar, multiplicar o dividir). Ej: distancia,
altura, peso, tiempo, salario, interés, venta, créditos, edad, ingreso, longitud, q hijos, velocidad, energía
Muestras (lote de datos):

• Transversal: se toman en un periodo de tiempo corto y dado
• Longitudinal (series de tiempo): se toman a lo largo del tiempo
1
Este archivo fue descargado de https://filadd.com
FUENTE DE DATOS
Fuentes existentes: podemos buscar datos ya publicados por fuentes gubernamentales, industriales o individuales.
Sin importar la fuente utilizada, se hace una distinción entre el recolector original de los datos (fuente primaria), y la
organización o individuos que compilan éstos en tablas y diagramas (fuente secundaria). Estudios estadísticos:
• Experimentales: primero se identifica la variable de interés y luego se ubica otra/s variable/s que son
controladas para logar datos de cómo ésta influye sobre la variable de interés
• Observacionales (no experimentales): Podemos hacer observaciones del comportamiento, actitudes u opiniones
de los individuos en los que estamos interesados. El investigador observa el comportamiento de interés
directamente, por lo común en su entorno natural. También podemos realizar una encuesta a través de un
cuestionario que nos permita recoger info significativa que nos ayude en el proceso de toma de decisiones.
F
ILADD.COM
Errores en la adquisición de datos: el valor del dato obtenido no es igual al verdadero valor o al valor real que se
hubiera obtenido con un procedimiento correcto. Los errores suelen presentarse durante la adquisición de datos
La importancia de obtener buenos datos (GIGO): No importa el método utilizado para obtener los datos. Si un estudio
ha de ser útil, o si el desempeño debe controlarse apropiadamente, o si el proceso de la toma de decisiones debe
ampliarse; los datos recabados deben ser válidos: es decir, las respuestas correctas deben valorarse de manera que
se obtengan mediciones significativas.
ESTADISTICA DESCRIPTIVA: resúmenes de datos tabulares, gráficos o numéricos (el más común es la media)
INFERENCIA ESTADISTICA: Es el proceso de emplear los datos obtenidos de una muestra para hacer estimaciones o
probar hipótesis acerca de las características de la población.
• Población (teoría de probabilidades): conjunto de todos los datos existentes correspondientes a una medida u
observación de una variable estadística. Distribución de frecuencias teóricas o a priori (porque la población es
desconocida)
• Muestra (estadística descriptiva y AED): subconjunto de la población. Muestras al azar • Censo: un estudio
para recolectar los datos de toda la población. Desventajas: lleva demasiado tiempo y es costoso.
RESUMEN DE DATOS CAULITATIVOS (DATOS SIN AGRUPAR)

Distribución de frecuencia: resumen tabular de datos que muestra el n° de elementos en c/u de las diferentes clases
disyuntas. El resumen aporta más claridad que los datos originales de la tabla
• Frecuencia relativa (hi): parte o proporción de los elementos que pertenece a c/clase (frecuencia/n)
• Frecuencia porcentual: de los datos de c/clase (frecuencia relativa x 100)
RESUMEN DE DATOS CUANTITATIVOS (DATOS AGRUPADOS)

Distribución de frecuencia: (=) hay que tener cuidado al definir las clases disyuntas que se van a utilizar
• Frecuencia relativa: (=)
• Frecuencia porcentual: (=)
Numero de clase disyuntas: cuando tengo un lote de datos y necesito determinar los intervalos, debo utilizar la
fórmula de sturges: K=[1 + 3,32 x log n] (se redondea al MENOR)
Ancho/amplitud/longitud aproximado (~) de clase: debe ser el mismo para todas las clases. Entre mayor sea el n° de
clases, menor es el ancho y viceversa. Calculamos el rango (Rn): Xmax – Xmin y luego dividir por K (se redondea al
MAYOR)

Límites de clase: deben elegirse de manera que c/dato pertenezca a una y solo una de las clases. El límite inferior
indica el menor valor de los datos a que pertenece esa clase, y viceversa (si no me dan n° divisibles; sumar todos (n) y
fijarme como me conviene combinarlos a partir del n° y ancho de clases)
Punto medio de clase: es el valor que queda a la mitad entre el límite inferior y superior de la clase. (sumo los
intervalos y los divido por 2)
Distribuciones acumuladas: usa la cantidad, amplitudes y límites de clase de la DdF. Muestra la cantidad de datos que
tienen un valor menor o igual al límite superior de c/clase
DATOS CUANTITATIVOS
DATOS CUALITATIVOS
M
X FA (ni o fi) FR (hi) FP F media x ud FAA FPA
FRA
FA/n FR x 100 FP/A FA + FA FR + FR FP + FP
O
n 1,00 100% 0,n n 1,00 100%
F
ILADD.C
VARIABLES CUALITATIVAS: X = xxx - donde - cuando
• Clasificación (escala medición): cualit (nominal - ordinal); cuant (de intervalo o de razón) •
Muestra: QUE es lo que queremos saber/estudiar (corto y conciso)
• Población: … de TODAS las… xxx - donde – cuando
• Titulo para el grafico: distribución de (X)
MEDIDAS DE LOCALIZACION O POSICION

Percentiles (Pi): son 99 valores posibles de la variable bajo estudio que dividen a la DdF en 100 partes. C/u de ellas
contiene aprox 1% de la freq.
• Datos sin agrupar: i x [(n+1) / 100]. Si la posición no coincide, se aplica formula
• Datos agrupados: i x [n/100]. Interpolar
Deciles (Di): son 9 valores posibles de la variable bajo estudio que dividen a la DdF en 10 partes. C/u de ellas contiene
aprox 10% de la freq
• Datos sin agrupar: i x [(n+1) / 10]
• Datos agrupados: i x [n/10]
Cuartiles (Qi): son 3 valores ====== 4 partes ===== 25%
• Datos sin agrupar: i x [(n+1) / 4]
• Datos agrupados: i x (n/4)

Quintiles: son 4 valores ======== 5 partes ======20%
MEDIDAS DE TENDENCIA CENTRAL:

Media aritmética (valor promedio): proporciona una medida de localización central de los datos. Se usa al
tener datos cuantitativos. Permite comparar 2 DdF que tengan el mismo comportamiento.
Desventajas: Al haber algún valor atípico, la media se desplaza hacia ellos rápidamente, por lo tanto es preferible
usarlas en distribuciones simétricas o moderadamente asimétricas.
• Datos sin agrupar: n/Qfa
-C: modo set up – stat – var – cargar c/FA en X; shif 1 – var – 2
• Datos agrupados (~): 1) calcular Mi; 2) multiplicar c/Mi con c/Fi 4) Al resultado dividir por n 3

-C: (=)…cargar c/ Mi en X y c/ FA en Freq – (=)
Mezcla de poblaciones: al tener dos variables (x,y): media (con dos rayas): [(n1 x ) + (n2 x ӯ)] / (n1 +
n2) Propiedades:
• Del equilibrio: la suma de las desviaciones de todas las puntuaciones de una distribución respecto a la media de la
misma = cero: ∑ (xi - )=0
• La de los cuadrados de las desviaciones de los valores de la variable respecto a un nro cualquiera, se hace
MINIMA cuando dicho nro coincide con la
• Si todos los valores de la variable se multiplican o se suman por un mismo nro (constante), la queda multiplicada
o aumentada por el mismo nro
F
ILADD.COM
Moda: es el valor que se presenta con mayor frecuencia. Se obtiene fácilmente de una clasificación ordenada. No se
ve afectada por la ocurrencia de cualquier valor extremo. Es representativo solo si la frecuencia es decisiva.
Aclaración: que la moda sea “cero” no significa que no exista moda. Se utiliza para cualitativas nominal Unimodal:
una campana / bimodal: dos campanas / multimodal: varias campanas
Ej: 2 3 3 4 4 4 5 5, el Mo = 4
Ej: 1 1 1 4 4 5 5 5 7 8 9 9 9, el Mo = 1, 5, 9
Ej: 2 2 3 3 6 6 9 9, Mo= no existe
Ej: 0 1 3 3 5 5 7 8, Mo = (3+5) / 2 = 4
Mediana: valor de en medio de los datos ordenados de menor a mayor (en forma ascendente). Si hay bastantes
datos, utilizar el modo
• Datos sin agrupar: (qFA+1) /2 del resultado, contar los lugares
• Datos agrupados: qFA/2. Luego interpolar
-Si el n° de observaciones es impar, la Me es el valor de en medio
-Si el n° de observaciones es par, la Me es el valor promedio de las dos observaciones de en medio Rango medio:
(Xmax – Xmin) / 2. Es el promedio de las observaciones menores y mayores de una serie de datos. Hay que utilizarlo
con precaución porque sólo se involucran las observaciones menores y mayores de una serie de datos.
ANALISIS EXPLORATORIO DE DATOS: es un conjunto de técnicas estadísticas cuya finalidad es organizar los datos
numéricos (sin agrupar), detectar posibles fallas en la recolección de los mismos, identificar valores atípicos, observar
formas y simetrías del lote, etc
Resumen de 5 n°: Xmin – Q1 – Me – Q3 – Xmax. Esta técnica se utiliza ordenando el lote de datos de forma
ascendente y calculando las medidas de localización. Entre las diferencias de los valores adyacentes ej (Q1 – Xmin)
podremos observar si se encuentran dispersos o no en comparación de los otros. NO detecta valores atípicos, solo
podemos plantear hipótesis acerca de ello
Diagrama de caja (Box plot): permite detectar de manera analítica la presencia o ausencia de valores atípicos
(permite detectar de manera más precisa los valores atípicos que el diagrama de tallo y hoja). También ofrece la
posibilidad de comparar la dispersión que se presenta c/u de ellas, la asimetría, y la forma de su distribución
Zona de valores Atípicos: [(-∞; Q1 – 1,5 (Q3 – Q1)] U [Q3 + 1,5 (Q3 – Q1); ∞)]
• Zona de valores muy alejados a la izquierda (-∞; Q1 – 3 (Q3 – Q1))
• Zona de valores alejados a la izquierda [Q1 – 3 (Q3 – Q1); Q1 – 1,5 (Q3 – Q1)]
• Zona de valores alejados a la derecha [Q3 + 1,5 (Q3 – Q1); Q3 + 3 (Q3 – Q1)
• Zona de valores muy alejados a la derecha (Q3 + 3 (Q3 – Q1); ∞)

1)Calcular el resumen de 5 n°; 2) Ubicarlos y graficar el diagrama de caja; 3) marcar con un símbolo los valores
atípicos y agregar referencias de que significan
Interpretación entre 2 diagramas:
• Si me preguntan el recorrido: se mira la cola y se tiene en cuenta los valores atípicos
• Si me preguntan la variabilidad: se mira que tan grande es la caja (+ dispesion + variabilidad) • Si me
preguntan el promedio: NO se sabe aunque se puede comparar con la media y la asimetria • Para saber cuál de
las dos tiene x más elevadas: se mira la ubicación de la caja (debe estar en la derecha) Una caja con mucha cola
y poca caja es acampanada
Una caja con poca cala y mucha caja NO es acampanada
Si me preguntan el 50% de los datos, calcular RIQ
F
ILADD.COM
Una ventaja del diagrama de caja sobre el resumen de 5 números es que en el primero se pueden apreciar
gráficamente las distancias entre las medidas, distancia que en el resumen de 5 números deberíamos calcular.
Diagrama de tallo y hojas: nos permite visualizar el comportamiento del lote presentado en el de manera peculiar,
todos los valores de los datos que lo conforman. Con este diagrama también se puede hacer un análisis sobre el
recorrido, la simetría, la concentración de datos y presencia o ausencia de valores atípicos. 1)Tamaño muestra (20
<= n <= 300)
2) Para saber el límite de filas utilizar la formula Dixon y Kronmal: L = [10 log n]
3) Cantidad de líneas a utilizar: Xmax – Xmin + 1
4) Puede haber 1 o más tallos y solo un digito en la hoja (ya que es el digito menos informativo del dato);
5) Tallo y hojas ordenados de forma creciente y equidistantes
6) Colocar título (xxx – año xx – lugar yy) y fuente
Si hay un dato alejado o atípico se debe averiguar la causa en su fuente. Puede ocurrir que:
• Que ese valor no haya ocurrido:
-Error en el registro (en vez de ser 17 es 177). En este caso se corrige y el lote sigue teniendo n datos (se hace el
diagrama normal)
-Corresponde a otra población estadística: se elimina el dato y el lote tendrá un tamaño de n-1 datos (se hace
normal suprimiendo el dato que falte
• Que ese valor haya ocurrido: se considerará valor atípico (se hace normal y abajo se agrega el valor atípico) Si la
cantidad de líneas a utilizar supera al total de la fórmula de Dixon y Kronmal; truncar los datos uno por uno hasta que
la q de líneas a utilizar no supere dicha fórmula. Observación: si en el truncamiento se perdieran cifras significativas,
se deberá utilizar otra técnica más adecuada para el análisis del lote o realizar un cambio de escala Al construir este
diagrama, se puede observar c/dato perteneciente al lote bajo análisis y esta situación permite reconstruir
nuevamente el lote de datos. Pero no sucede lo mismo si truncamos lo datos. Para solucionar esto se
informa en el diagrama la magnitud de los datos mediante la unidad (potencia de 10 por la cual hay que multiplicar al
nro del tallo y hoja para obtener como resultado el dato original del lote) aunque no coincidirá con el dato original,
pero tiene una magnitud equivalente a él. Por lo tanto, el lote reconstruido coincidirá con el original si no hubo
truncamiento de datos. Ecuación: x.10^x = x (despejar la potencia)
Profundidad: se registran en c/ línea del diagrama y expresan el nro de hojas que hay desde el extremo más próximo
a ella hasta la mayor hoja contenida en esa línea.
1)Identificar en que línea cae la Me y en el tallo que caiga colocar entre paréntesis la q de hojas que contiene ese
tallo. Esta será la profundidad de la línea que contiene la Me (si estuviera en 2 tallos, se pone paréntesis en los 2)
2) Ir acumulando de arriba para abajo la profundidad hasta llegar un tallo antes que la Me. Y de abajo para arriba
también ir acumulando hasta llegar a la Me (TENER EN CUENTA VALORES ATIPICOS)

Cuando se realizan dos líneas por tallo, el tallo inferior se la simboliza con (*) y a la superior con un (°). Si hay más de
2 tallos, los nros de enmedios simbolizar con letras (t,f,s)
MEDIDAS DE VARIABILIDAD O DISPERSION

Rango: Mide la propagación total en la serie de datos (dispersión absoluta). Su debilidad es que no logra tomar en
cuenta la forma en que los datos se distribuyen realmente entre el mayor y el menor valor. Por lo tanto, NO se utiliza
cuando hay valores extremos o atípicos. Rn = Xmax – Xmin
Rango intercuartílico: Considera la propagación media del 50% central del lote y por lo tanto no se ve influenciado
por valores extremos. RIC = Q3 – Q1
F
IL ADD
.COM
Varianza(s^2): Utiliza todos los datos. Es el promedio de las diferencias cuadradas entre c/u de las observaciones de
una serie de datos y la media.
No puede ser un valor negativo. La única vez que podría ser cero, sería cuando no hubo variación alguna en los datos,
cuando cada observación de la muestra fuera exactamente igual.
-Interpretación: se utiliza para comparar 2 o más variables. La que tiene la varianza mayor, muestra más variabilidad
• Datos sin agrupar: 1) calcular la media; 2) desviación respecto media (xi - ) = cero;
3) cuadrado de desviación (xi – ) ^2; 4) s^2 = sumatoria de [(xi – ) ^2]/(n-1)
• Datos agrupados: 1) calcular la media; 2) desviación (Mi – ); 3) cuadrado de desviación (Mi – ) ^2; 3) fi
x (Mi – ) ^2; 4) s^2 = sumatoria de [fi x (Mi – ) ^2] / (n-1)
Desviación estándar (S): Es simplemente la raíz cuadrada de la varianza. Se mide en las mismas unidades que los
datos originales (la varianza no), por lo tanto, es más fácil comparar la desviación estándar con la media. A partir de
esta medida, podemos mirar cómo las observaciones mayores fluctúan por encima de la media y cómo las
observaciones menores se distribuyen por debajo de ésta.
No puede ser un valor negativo. La única vez que podría ser cero, sería cuando no hubo variación alguna en los datos,
cuando cada observación de la muestra fuera exactamente igual.
• C en datos sin agrupar: modo set up – stat – var – cargar c/FA en X; shif 1 – var – 4
• C en datos agrupados: (=)…cargar c/ Mi en X y c/ FA en Freq – (=)
Coeficiente de variación (CV): indica cuán grande es la desviación estándar respecto de la media. Es útil para: •
Comparar la variabilidad de dos o más series de datos que se expresan en distintas uds de medición. • Comparar
dos o más conjuntos de datos que son medidos en las mismas uds, pero difieren hasta tal punto que
una comparación directa de las respectivas desviaciones estándar no resulta muy
ventajoso. Interpretación del CV:
• Cuanto mayor es el CV, más heterogéneo es el lote (Los valores se alejan de la media). •
Cuanto menor es el CV, más homogéneo es el lote (Los valores se acercan a la media). Si
tengo un solo lote y el CV es menor a un 40%, lo considero homogéneo.
CV: (s/ ) x 100. C: Shift 1 – var – 4 / - shift 1 – var – 2 = x100
MEDIDAS DE FORMA
Punto z (valor estandarizado): es el nro de desviaciones estándar a las que xi se encuentra de la media. Si es (+)
corresponden a observaciones cuyo valor es mayor a la media y viceversa. Si el punto z es cero significa que es = a la
media. Zi = (xi – )/s

Teorema de Chebyshev (para cualquier tipo de forma): permite decir que proporción de los valores que se tienen en
los datos debe estar dentro de un determinado nro z de desviaciones estándar de la media donde z>1. 1) Calcular
los puntos z = cuantas S se encuentran alejados de la media; 2) calcular el teorema 1 – 1 / z^2 = porcentaje buscado:
• Z=2 S de la media: se encuentran aprox el 75% de los datos
Detección observaciones atípicas: cuando el punto z es menor a -3 o mayor a 3
Regla empírica (para distribuciones simétricas): determina el porcentaje de los valores de los datos
que deben encontrarse dentro de un nro determinado de S de la media. ( -S) y ( +S)
F
ILADD.COM
• Cerca del 68% de los datos se encontrarán a no más de 1 desviación estándar de la media •
Cerca del 95% de los datos (=) 2
• Casi todos los valores de los datos (=) 3
ASIMETRIA: comparar la con la Me:

Sesgo: [n/(n-1) x (n-2)] x ∑ (punto z)^3
• Distribución simétrica: Me = . El sesgo = 0
• Sesgado a la derecha: > Me. El sesgo = (+)
• Sesgado a la izquierda: < Me. El sesgo = (-)
Coef de Bowley (Ab): nos indica la asimetría del 50% central del lote, entre Q1 y Q3.
• = 0 si la distribución es simétrica: Me – Q1 = Q3 – Me
• = 1 si la distribución es asimétrica hacia derecha xq Me ~ Q1
• = -1 si la distribución es asimétrica hacia izquierda xq Q3 ~ Me
Coef de Paerson (Ap): (para distribuciones simétricas, campanadas, uniforme): indica la asimetría de todo el lote
• Si es > a cero, la distribución es sesgada a la derecha
• Si es = cero, la distribución es simétrica
• Si es < a cero, la distribución es sesgada a la izquierda
REGRESION LINEAL SIMPLE: participan x e y. En la relación de estas variables se aproxima mediante línea recta
Modelo de regresión: (y = B0 + B1x + E) describe como están relacionados (y;x) más un término de error • E
(termino de error): variable aleatoria
• BO y B1: son los parámetros desconocidos del modelo poblacional

Ecuación de regresión: (E(y)= B0 + B1x) describe como está relacionada la media o valor esperado de y con x
• E(y): es la media o valor esperado de y para un valor dado de x
• B0: es la intersección de la recta de regresión con el eje y
• B1: es la pendiente
Ecuación de regresión estimada: ŷ = b0 + b1xi
• Ŷ es el valor estimado de E(y)
• b0 y b1 (estadísticos muestrales) son las estimaciones de los parámetros B0 y B1
• xi: tamaño de b1 del b0 i

Método de mínimos cuadrados: (min ∑ (yi – ŷi)^2 ) se usan los datos muestrales para hallar la ecuación de regresión
estimada para obtener los valores de b0 y b1 que minimicen la suma de los cuadrados de las desviaciones entre los
valores observados de yi y los valores estimados de xi
Ecuación:
Interpretación b1 (beta): cuando la variable x (especificarla) sea = cero, se espera en promedio que la cantidad de la
variable y (especificar), aumente o disminuya b1 aprox. El resultado es absurdo si b1 = negativo Interpretación b0
(alfa): cuando la variable x aumenta/disminuye en 1 punto, se espera en promedio que la variable y incremente o
disminuya en B0 aprox.
F
ILADD.COM
COEFICIENTE DE DETERMINACIÓN: medida de la bondad de ajuste de la ecuación de regresión estimada (lo bien que
se ajusta la ecuación a los datos) (r^2 = SCR / STC) (0 <= r^2 <= 1) (r = coeficiente de determinación lineal) •
Interpretación: r^2 = v%: en un v% se ajusta al modelo lineal de ecuación de regresión estimada y el 100% - v%
restante es explicado por otro modelo
Residual: (yi – ŷi) representa el error que existe al usar ŷi para estimar yi
SCE (suma de cuadrados debida al error): (∑ (yi – ŷ)^2) es una medida del error al utilizar la ecuación de regresión
estimada para estimar los valores de la VD en los elementos de la muestra.
Es una medida de qué tanto se agrupan las observaciones en torno de la receta ŷ
STC (suma total de cuadrados): (∑ (yi – ӯ)^2) es una medida de qué tanto se agrupan las observaciones en torno de la
receta ӯ
SCR (suma de cuadrados debido a la regresión): (∑ (ŷi – ӯ)^2) mide qué tanto se desvían los valores ŷ de ӯ
STC = SCR (la parte explicada de STC) + SCE (la parte no explicada de STC)
• Ajuste perfecto: SCR = STC y (SCR/STC) = 1 y SCE = 0
• Ajuste malo: cuando hay valores altos de SCE
• Peor ajuste: SCR = O y SCE = STC
COVARIANZA MUESTRAL: sxy = Interpretación: ∑ (xi - )(yi - ӯ) n – 1
• Si es positiva, indica asociación lineal positiva y los puntos que más influyen sobre sxy deberán encontrarse en
los cuadrantes I y III. A medida que los valores de x aumentan, los valores de y aumentan • Si es negativa, indican
asociación lineal negativa. Los puntos que más influyen sobre sxy deberán encontrarse
en los cuadrantes II y IV. A medida que los valores de x aumentan, los valores de y disminuyen • Si los
puntos tienen una distribución uniforme en los 4 cuadrantes, sxy tendrá un valor cercano a cero lo que indica
que no hay asociación lineal entre x e y
COEFICIENTE DE CORRELACION: rxy = sxy / sx.sy (-1<= r <= 1) o (signo de b1) x √(r^2)
(sxy: covarianza – sx: desviación estándar de x - sy: desviación estándar de y)
• Los valores cercanos a -1 o 1 corresponden a una relación lineal fuerte entre las variables (especificar) •
Los valores cercanos a 0 corresponde a una relación lineal débil entre las variables
• Si r=0 no existe relación lineal entre x e y
Suposiciones del modelo de regresión y = B0 + B1 + E

• Normalidad: el termino error es una variable aleatoria distribuida normalmente. Requiere que los valores de Y
estén distribuidos normalmente en cada valor de X. Linealidad: la relación entre las variables es lineal. •
Homocedasticidad: requiere que la variación error sea constante para todos los valores de X. Esto significa que Y
varía la misma cantidad cuando X tiene un valor bajo que cuando posee uno alto.
El termino error es una variable aleatoria cuyo valor esperado es cero. Esto implica que Bo y B1 son constantes
-Como la nube de puntos es al azar, se cumple el supuesto de homocedasticidad, por lo tanto, la variabilidad de
los residuos con respecto a la variable es constante
• Independencia de error: requiere que el error sea independiente de cada valor de X. Esta suposición a menudo se
refiere a datos que son recolectados en un cierto período. Cuando los datos son obtenidos de esta forma, los
residuos corresponden a un período particular.
-Si la nube de puntos es al azar si se cumple, hay correlación de errores
F
ILADD.COM
Análisis residual: es una herramienta principal para determinar si parecen ser válidas las suposiciones hechas acerca
del modelo de regresión. También se usa para identificar observaciones atípicas e influyentes Residual i: (yi – ŷ).
Proporcionan la mejor info acerca de E
Grafica de residuales contra X (ei vs xi):
• Forma adecuada: La varianza de E es la misma para todos los valores de x, y si el modelo de regresión empleado
presenta adecuadamente la relación entre las variables (banda horizontal de puntos)
• Varianza no constante: Si la variabilidad respecto de la línea de regresión es mayor para los valores de x mayores
(puntos dispersos)
• Forma no adecuada: el modelo de regresión empleado no representa adecuadamente la relación entre x e y
(puntos en forma de U)
Grafica residuales contra ŷ (ei vs ŷ): en la regresión lineal simple, la gráfica de residuales contra x y contra ŷ tienen la
misma forma.
Grafica de Residuales estandarizados: se usa para determinar si parecen ser válidas las suposiciones hechas acerca
del modelo de regresión. Aprox el 95% de los residuales estandarizados se encuentran entre -2 y 2 en la grafica
Grafica de probabilidad normal: los residuales estandarizados se grafican contra los puntos normales
COEFICIENTE DE SPERMAN (-1<= p <= 1)

• -1: discordancia total entre ambas ordenaciones
• Valores entre -1 a -0,8: hay un alto grado de discordancia entre ambas ordenaciones (ESPECIFICAR LAS
VARIABLES)
• Valores entre -0,8 a 0: existe una cierta discordancia entre ambas ordenaciones
• 1: máxima concordancia entre ambas ordenaciones. Asociación positiva perfecta
• Valores entre 0,8 a 1: hay un alto grado positivo de concordancia entre ambas ordenaciones
• Valores entre 0 a 0,8: existe una cierta (baja) concordancia entre ambas ordenaciones •
0: implica la ausencia de relación entre los rangos de los atributos
Pasos: 1) ordenar ambos rangos según orden natural e inducido. 2) restar R1 – r2 3) a esos resultados elevarlos al
cuadrado. 4)hacer el coeficiente
COEFICIENTE DE KENDALL (-1<= r <= 1): las mismas características que el coeficiente de sperman
1 significa que mantiene el orden natural y -1 que se ha alterado el orden
Si todas las casillas de la tabla fueran i=1, habría una concordancia total extrema ya que la ordenación inducida
coincide con el orden natural
Si todas las casillas de la tabla fueran j=-1 habría una absoluta discordancia
Si la ∑ c(i,j) es grande, la concordancia entre ambas ordenaciones será fuerte y si es pequeño, abra gran discordancia

Pasos: 1) ordeno unos de los rangos (orden natural) con su respectivo nro de la variable bajo estudio. 2) ordeno el
rango restante según dicha variable (orden inducido). 3) Si los nros de la fila es mayor que el de la columna se pone
+1 y viceversa. Si son iguales, se anula la columna (no fila). 4) Sumo todo los 1 que están en fila. 5) Hago el coeficiente
COEFICIENTE DE CONTINGENCIA PEARSON

Pasos: tengo la freq observada y quiero determinar la freq esperada: 1) multiplicar c/fila x 1° columna y así
sucesivamente… dividir c/u por el total de la ∑ de los totales. 2) aplicar formula x^2 y sumar todos C=0 no
hay asociación
C=1 hay asociación fuerte
X^2: Mide la distancia entre la frecuencia observada y la esperada
F
ILADD.COM
• X^2 ~ O = las variables son independientes
• X^2 > 0 = no hay independencia entre las variables
SERIES TEMPORALES: COMPONENTES/MOVIMIENTOS
Tendencia: Largo plazo. Se produce por las fuerzas propias del fenómeno económico que se estudia. Los datos
muestran un desplazamiento o movimiento gradual hacia los valores relativamente altos o bajos, observable a través
de varios periodos
Cíclico: largo plazo. Es producto de fuerzas económicas. Es toda sucesión recurrente de puntos que caiga abajo y
arriba de la línea de tendencia. Son movimientos que pasan por 4 fases: desde un pico (cúspide), contracción
(depresión), valle (sima) y expansión (recuperación/crecimiento). Muestra un comportamiento que consiste en
tendencias periódicas de aumento y disminución.
Estacional: corto plazo. Es producto de una fuerza exterior del fenómeno mismo pero que lo influye directamente
afectando su valor en periodos interanuales irregularmente todos los años. Muestra que en ella existe un patrón
periódico que dura un año o menos
Irregular: corto plazo. Se produce por causas externas y accidentales (son impredecibles). Es el factor residual que da
cuenta da cuenta de las desviaciones de las variaciones reales que de los valores esperados, es decir, son variaciones
aleatorias que NO son explicadas por los demás componentes. (Los esperados SI)
MODELO MULTIPLICATIVO
• Serie anual: T x C x I
• Series a menos de un año: T x C x I x E
SERIES TEMPORALES ANUALES: Introducción
El primer paso de una serie de tiempo consiste en graficar los datos y observar su tendencia a través del tiempo:
debemos determinar si parece haber un movimiento a largo plazo hacia arriba o hacia abajo en la serie. Si la serie
parece oscilar alrededor de una línea horizontal a través del tiempo, debe emplearse el método de promedios
móviles, para suavizar la serie y proporcionarnos una impresión global a largo plazo.
Suavizado de las Series Temporales Anuales: La impresión visual de las tendencias globales a largo plazo o
movimientos de tendencias en la serie se ve oscurecida por la cantidad de variación existente de un año a otro. Se
hace difícil juzgar si realmente existe en la serie algún efecto de tendencia hacia arriba o hacia abajo a largo plazo.
Promedios Móviles: este método es altamente subjetivo y dependiente de la longitud del período elegido para la
construcción de los promedios.
10

• Los promedios móviles para un período elegido de longitud L, consisten en una serie de medias aritméticas
calculadas en el tiempo de tal modo que cada media se calcula para una secuencia de valores observados que
tienen esa longitud particular, L.
• La selección de promedios móviles con períodos de longitud mayores a siete años es, por lo general no deseable,
puesto que habrá demasiados puntos de datos que faltan al inicio y al final de la serie, haciendo que sea más
difícil de obtener una impresión global de la serie completa.
Análisis de Series Temporales Anuales: El factor componente de una serie de tiempo que se estudia más a menudo
es la tendencia. Se la estudia principalmente:
• Con fines de predicción a mediano o largo plazo.
• Con el objeto de aislarla y luego eliminar sus efectos sobre el modelo de serie de tiempo, como una guía hacia la
F
ILADD.CO M
predicción a corto plazo
Para obtener una impresión de los movimientos generales a largo plazo en una serie de tiempo, construimos un
diagrama en el cual los datos observados son graficados en el eje vertical y los períodos en el eje horizontal. Si parece
que se puede ajustar una recta a los datos, entonces los dos métodos más utilizados de ajuste de tendencia son el
método de mínimos cuadrados y el método de suavizado exponencial.
El Método de Mínimos Cuadrados para ajustar a Tendencias Lineales (Modelo Lineal)

• El Método de Mínimos Cuadrados nos permite ajustar una línea recta de la forma
• Los valores que calculamos para los dos coeficientes, la intersección b0 y la pendiente b1, tienen como resultado la
minimización de la suma de las diferencias al cuadrado entre cada valor observado y cada valor predicho a lo
largo de la línea de tendencia.
SERIES TEMPORALES MENSUALES: Pronóstico de Series Temporales de datos mensuales: Para el estudio de las
series temporales mensuales es importante aislar y estudiar los movimientos estacionales por dos razones: • Porque al
conocer el valor del componente estacional para cualquier mes en particular, podemos fácilmente ajustar mejorar las
proyecciones de tendencia con propósitos de predicción.
• Porque al conocer el valor del componente estacional, podemos descomponer la serie de tiempo mediante la
eliminación de sus influencias junto con aquellas pertenecientes a los otros componentes.
Cálculo de Índices Estacionales

• Cálculo de los promedios móviles.
• Cálculo de los promedios móviles centrados, que son los componentes de tendencia y cíclico de las series.
• Cálculo de los cocientes de promedios móviles, que representan las fluctuaciones estacional e irregular de la serie,
puesto que la división de los datos observados y los promedios móviles centrados elimina efectivamente las
influencias cíclicas y de tendencia.
SERIE ANUAL: 1) Se calcula la tendencia bruta (ŷ): sabremos si la serie está afectada o no por T y de qué manera
2) Y/ŷ = CI sabremos si la serie está afectada por C e I y de qué manera
ŷ: se calcula a través método promedio móvil. Si veo que la pendiente es significativamente grande, hay tendencia
Y/ŷ : se saca la T, por lo tanto informa sobre los componentes C e I.
• Si = o ~ 1, significa que todo lo que se observa en el grafico es = T, no hay C ni I
11

• Hay C e I si <-1 o >1
SERIES ANUALES Codificación Tendencia Sacar T Residuo cíclico Residuo como %
AÑO Y X ŷ (Y/ŷ) (Y/ŷ) -1 [(Y/ŷ) -1]*100
SERI MENSUAL: 1) Promedio móvil: se calcula los índices estacionales, así sabremos si la serie está afectada o no por
el componente E y de qué manera.
• Si es prom móvil centrado = 1 NO HAY E
• Si el prom móvil centrado ǂ 1 HAY E
M
Interpretación del Índice E:
• 0,x = en ese trimestre, hay una disminución de x% del
promedio anual • 1,x = en ese trimestre, hay un aumento
del x% del promedio anual
Codif Año Trimestre yi Prom móvil (Prom móvil centrado) = T y C yi / T = E
O
C
.
Años T1 T2 T4
T3
D
y1 x3 x2
y2 x3 x1 x2 x1
y3 x1 x2 x1 x3
y4 x2 x3
INDICE Me = x2 Me = x2 Me = x2 Me = x2
Coef de
ajuste
AD trimestre (4) / ∑ Me
INDICE EST Indice* Coef Indice * Coef Indice * Coef Indice * Coef
F
IL
2) Desestacionalizar los datos (yi / índice E): con ello calculamos la tendencia neta (ŷ) y sabremos si la serie está
afectada o no por la tendencia = Y / S = T x C x I
3) A la serie desE le quito la T: con ello sabremos si la serie está afectada o no por C e I
Índice E Índice desE (yi / índice E) T neta (ŷ) Residuo cíclico (índice desE / ŷ) - 1
Residuo cíclico irregular: [(yi - ŷi) / ŷ] Mejor pronóstico: T neta * índice estacional
Proporción de T: yi / ŷ
GRAFICOS
GRAFICO DE BARRA VS TORTA: El gráfico de barras es más adecuado porque permite apreciar las pequeñas
diferencias entre los porcentajes de trabajadores de cada tipo de relación laboral. Las diferencias en altura se
distinguen más fácilmente que las que hay entre dos ángulos.
No tendría sentido realizar tres gráficos de barras uno con cada tipo de frecuencia sin acumular, pues los tres gráficos
(de frecuencias absolutas, de frecuencias relativas y de frecuencias relativas porcentuales), mostrarían la misma
relación que existe entre las cantidades de trabajadores según el tipo de relación laboral. Los tres gráficos se
12

construyen teniendo en cuenta que la altura de la barra debe ser proporcional a la frecuencia, por lo tanto,lo único
que cambiaría sería la designación en la unidad de medida del eje vertical
Gráfico para variables/datos numéricos cuantitativas continuas:

Histogramas: son diagramas de barras verticales en los que se construyen barras rectangulares en los límites de cada
clase. Se usan para describir datos numéricos que han sido agrupados en distribuciones de frecuencia fi, fr y fr%.
• La variable aleatoria o fenómeno de interés se despliega a lo largo del eje horizontal. El eje vertical representa el
número, proporción o porcentaje de observaciones por intervalo de clase, dependiendo de si el histograma
particular es: un histograma de frecuencia, un histograma de frecuencia relativa o histograma de porcentaje.
F
• Al comparar dos o más series de datos, ni los diagramas de tallo y hoja ni los histogramas pueden construirse en
ILADD.COM
la misma gráfica. Al contrario, si pueden construirse polígonos e histogramas conjuntamente.
Polígonos: al graficar polígonos, el fenómeno de interés se despliega a lo largo del eje horizontal, y el eje vertical
representa el número, proporción o porcentaje de observaciones por intervalo de clase. Se usan para describir datos
numéricos que han sido agrupados en distribuciones de frecuencia fi, fr y fr%.
• El polígono se forma permitiendo que el punto medio de cada clase represente los datos de esa clase y luego
conectando la sucesión de puntos medios con sus respectivos porcentajes de clase.
• El área bajo la distribución de porcentaje debe ser el 100%, es necesario conectar el 1° y el último punto con el eje
horizontal para rodear el área de la distribución observada. Esto se hace conectando el 1° punto medio con 0%
observaciones y conectando el último punto medio con 0% observaciones.
Ojiva: para construirla, el fenómeno se grafica en el eje horizontal, mientras que los porcentajes acumulativos se
grafican en el eje vertical. En cada límite inferior, graficamos el valor acumulado correspondiente del listado de la
distribución acumulativo (Fi, Fr y Fr%). Entonces conectamos estos puntos con una serie de segmentos de líneas
rectas. Se parte de y = 0.
Gráfica de Puntos: Cada categoría se describe mediante una delgada línea punteada que termina en un punto
grande. La longitud de la línea representa la frecuencia o porcentaje de observaciones que cae en una categoría.
→ Las líneas punteadas deben construirse horizontalmente.
→ El espacio entre las líneas punteadas debe ser iguales.
→ En la parte inferior debe incluir una escala horizontal que muestre los porcentajes.
→ Los ejes deben etiquetarse claramente
→ Las notas de pie de página pueden ir después del título o debajo del gráfico.
Elección del grafico apropiado.
➢ La grafica de puntos describe mejor la información y la gráfica de torta expone la representación menos clara.
➢ La grafica de puntos se prefiere a la gráfica de barras, debido a que la simplicidad da como resultado una
mayor claridad. Estos dos gráficos se prefieren al grafico de torta, porque se observó que el ojo humano
puede juzgar con más precisión comparaciones de longitud que medidas angulares.
➢ La gráfica de pastel tiene dos ventajas claras: una es que es estéticamente agradable y dos que el total para
todas las categorías o rebanadas de la torta suman 100%.
5.1.1 Diagrama de Pareto

➢ Es un tipo especial de gráfico de barras verticales en el cual las respuestas categorizadas se grafican en el
orden de rango descendiente de sus frecuencias y se combinan con un polígono acumulativo en la misma
escala.
13

➢ El principio básico detrás de este dispositivo gráfico es su capacidad de distinguir los "pocos vitales" de los
"muchos triviales".
➢ El diagrama logra su mayor utilidad cuando la variable categórica de interés contiene muchas categorías.
F
ILADD.COM
14

Resumen Estadistica

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Resumen Estadistica

Cargado por

Copyright:

Formatos disponibles

Recolección de Datos: La necesidad de datos para:

• Proporcionar la introducción imprescindible para un estudio de investigación.

Muestras (lote de datos):

• Longitudinal (series de tiempo): se toman a lo largo del tiempo

RESUMEN DE DATOS CAULITATIVOS (DATOS SIN AGRUPAR)

RESUMEN DE DATOS CUANTITATIVOS (DATOS AGRUPADOS)

Este archivo fue descargado de https://filadd.com

FA/n FR x 100 FP/A FA + FA FR + FR FP + FP

MEDIDAS DE LOCALIZACION O POSICION

• Datos agrupados: i x (n/4)

MEDIDAS DE TENDENCIA CENTRAL:

Este archivo fue descargado de https://filadd.com

Este archivo fue descargado de https://filadd.com

Este archivo fue descargado de https://filadd.com

MEDIDAS DE VARIABILIDAD O DISPERSION

Este archivo fue descargado de https://filadd.com

ASIMETRIA: comparar la con la Me:

• BO y B1: son los parámetros desconocidos del modelo poblacional

Este archivo fue descargado de https://filadd.com

COVARIANZA MUESTRAL: sxy = Interpretación: ∑ (xi - )(yi - ӯ) n – 1

Suposiciones del modelo de regresión y = B0 + B1 + E

Este archivo fue descargado de https://filadd.com

COEFICIENTE DE SPERMAN (-1<= p <= 1)

Este archivo fue descargado de https://filadd.com

COEFICIENTE DE CONTINGENCIA PEARSON

X^2: Mide la distancia entre la frecuencia observada y la esperada

SERIES TEMPORALES ANUALES: Introducción

Este archivo fue descargado de https://filadd.com

predicción a corto plazo

El Método de Mínimos Cuadrados para ajustar a Tendencias Lineales (Modelo Lineal)

Cálculo de Índices Estacionales

Este archivo fue descargado de https://filadd.com

AÑO Y X ŷ (Y/ŷ) (Y/ŷ) -1 [(Y/ŷ) -1]*100

Codif Año Trimestre yi Prom móvil (Prom móvil centrado) = T y C yi / T = E

Este archivo fue descargado de https://filadd.com

Gráfico para variables/datos numéricos cuantitativas continuas:

5.1.1 Diagrama de Pareto

Este archivo fue descargado de https://filadd.com

Este archivo fue descargado de https://filadd.com

También podría gustarte