Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadistica 1
Estadistica 1
“Ciencia de la recolección y el análisis de datos para la toma de decisiones, transformando datos en información, que tiene por
objeto la elaboración de principios, métodos y modelos que permiten la descripción, el análisis y la predicción de fenómenos reales
cuando éstos son de carácter aleatorios”.
Introducción.
→ Disciplina científica, estructurada en el S. XIX, pero conocida y aplicada en la antigüedad para realizar relevamientos de
población y recursos.
→ Método de trabajo:
o Se establecen técnicas de diseño, observación y recolección de datos respecto de un fenómeno.
o Se organiza la información para arribar a conclusiones válidas.
→ La organización de los datos permite establecer modelos o patrones posibilitando distintas líneas de trabajo (se realiza
por medio de matrices).
→ Se deben comprender las cualidades o características del mundo real con perspectiva de su modelización.
Ramas de la estadística.
→ Estadística descriptiva, se analizan propiedades de un conjunto de datos, referidas al contexto (muy importante conocer
y clarificar el entorno del que provienen los datos), para caracterizarlos y extraer conclusiones.
o Entorno = población en estudio y sus unidades de análisis, junto a los atributos a estudiar y la calidad de dato
que se puede extraer.
▪ Población en estudio: conjunto formado por los elementos a estudiar.
▪ Unidad de observación o de análisis: individuos o elementos a estudiar.
▪ Muestra: subconjunto de la población sobre el que se realizará el estudio.
▪ Muestra representativa (para obtener conclusiones y realizar inferencias): posee idénticas
características que la población de estudio es como una “imagen reducida de la misma”:
→ Estadística inferencial, realiza inferencias en la población.
o Genera y aplica técnicas y modelos para obtener conclusiones y realizar predicciones asociadas a los
fenómenos investigados a nivel poblacional basados en una sola muestra aleatorio.
o Dos problemáticas: el conocimiento del contexto del estudio y el tratamiento de la incertidumbre.
→ Dato: unidades de análisis de donde surge la información primaria para ser procesada.
→ Instrumentos: de estos dependen el carácter de la información. pueden aplicarse a la población y contener preguntas
abiertas o cerradas y/o combinarse.
1
→ Diferentes niveles de medición: cada uno de los atributos que se observan pueden convertirse en una variable
estadística.
→ Variable estadística: surge a partir de alguna de las características que posee la unidad de análisis que se intenta
analizar.
o Variables cualitativas: aceptan valores no numéricos.
▪ Ordenables: admiten un orden en forma natural, por ejemplo, el grado de conformismo de un
empleado, el nivel de instrucción, etc.
▪ No ordenables: no admiten un orden preestablecido, por ejemplo, el estado civil de los empleados, el
rubro de una pyme, etc.
o Variables cuantitativas: aceptan valores numéricos.
▪ Discretas: provienen de un conteo, por ejemplo, la cantidad de asientos contables, la antigüedad de
años de los empleados, etc.
▪ Continuas: provienen de mediciones, por ejemplo, longitudes, alturas, pesos, etc.
→ Matriz de datos:
o Organiza información primaria.
o Arreglo de filas y columnas donde cada fila representa un individuo o unidad de observación y cada columna es
un atributo variable.
→ Frecuencias simples:
o Frecuencia absoluta (f): cantidad de veces que aparece cada valor de la variable en el grupo de datos estudiado,
su suma es la totalidad de los datos.
o Frecuencia relativa (fr): mide la importancia de ese valor sobre el total de los datos, se divide cada frecuencia
absoluta con el total de los datos.
o Frecuencia porcentual (f%): preso del valor de la variable sobre un total de 100, se multiplica la frecuencia
relativa por 100.
→ Frecuencias acumuladas (permiten ver al conjunto de datos desde otro ángulo complementario a las frecuencias
simples):
o Frecuencia absoluta acumulada (Fi): suma a la frecuencia absoluta todas las frecuencias absolutas de valores o
categorías menores.
o Frecuencia relativa acumulada (Fr): suma a la frecuencia relativa todas las frecuencias relativas de valores o
categorías menores.
o Frecuencias porcentuales acumuladas (F%): suma a la frecuencia porcentual todas las frecuencias porcentuales
de valores o categorías menores.
Variables Frecuencias Gráficos.
Cualitativas no ordenables. Frecuencias simples. Barras separadas o gráfico de torta.
2
Cuantitativas continuas. Frecuencias simples y acumuladas, Histograma de frecuencia o polígono de
sumándole la marca de clase. frecuencia (frecuencias simples) y Ojiva
(frecuencias acumuladas).
→ Para comprar muestras con variables cuantitativas se pueden utilizar los gráficos de barras adyacentes o apiladas.
3
Unidad 2. Medidas.
→ Las medidas descriptivas se obtienen por cálculo numérico y constituyen un conjunto de valores especiales.
→ Las medidas estadísticas son resúmenes o indicadores que permiten caracterizar el comportamiento del grupo de datos
en estudio.
o Si el conjunto de datos constituye una población, entonces los indicadores serán poblacionales y se los
denomina parámetros.
o Si es una muestra, serán indicadores muestrales y se los denomina estadísticos.
→ Para comparar muestras de variables cuantitativas en relación con la dispersión de datos, se utiliza el coeficiente de
variación.
4
Fk (fractiles). D (rango o distancia
intercuartil).
.
Variables cuantitativas Mo (modo). R (razón). S (desvío).
continuas. X (media). P (proporción). S2 (varianza).
Me (mediana) CV (coeficiente de variación).
Q1, Q2, Q3 (cuartiles). Rg (rango o amplitud).
Pk (percentiles). D (rango o distancia
Fk (fractiles). intercuartil).
→ Para variables cuantitativas se puede usar:
o Mo = Me = X (simetría).
o Mo < Me < X (asimetría a la derecha).
o Mo > Me > X (asimetría a la izquierda).
→ Para comparar muestras con variables cuantitativas en relación con la dispersión de los datos se puede usar CV:
o CVa < CVb la distribución de datos de A es más homogénea (concentrada o consistente) que la de B.
o La distribución de datos de B es más heterogénea (dispersa o con mayor variabilidad) que la de A.
Box-plot.
→ Representación gráfica que permite visualizar la posición del centro de la distribución de datos y la dispersión y
asimetría de la misma.
→ Se tiene en cuenta la mediana y los cuartiles.
→ Se observan los valores adyacentes (son los valores que quedan más cerca de la caja) y los valores externos (los que
están por fuera, son los valores atípicos).
→ Los valores raros nos dan una voz de “alerta”, pueden ser un valor muy bueno o malo, y hay que investigarlo para ver si
se puede cambiar el método de trabajo por uno que rinda más o si es malo averiguar cuál es la causa para solucionarla.
Si la distribución es fuertemente asimétrica, estos valores pueden ser normales.
→ Los valores externos no se pueden desechar así porque sí.
→ Los gráficos caja-bigotes son útiles cuando se necesitan comprar dos o más distribuciones de datos.
→ Si el boxplot no es simétrico, entonces la distribución no es simétrica.
5
→ Cuando se parte de una distribución simétrica se obtiene un gráfico caja simétrico pero si el boxplot en simétrico no
implica que la distribución que representa sea simétrica.
6
Unidad 3. Números índice.
“Indicadores estadísticos que ponen en manifiesto, en forma cuantitativa, las variaciones relativas de una magnitud o de varias
magnitudes de una variable a través del tiempo, del espacio u otra característica”.
Clasificación.
7
iii. Relativos porcentuales de precios, cantidad o valor de
agregados ponderados (tienen en cuenta las variaciones
relativas y la importancia de los valores o categorías de la
variable dentro del contexto).
→ Índice de Laspeyres.
→ Índice de Paasche.
→ Índice de Fisher.
Índice de Laspeyres.
→ Representa los cambios en los precios con el tiempo o situación geográfica, para un grupo de bienes o servicios,
ponderados con las cantidades de éstos del año base.
→ Aplicado sobre precios, muestra la variación de precios actual ante la base multiplicada por el consumo base: sería como
el costo actual de la canasta familiar base.
→ Requiere menos información (las ponderaciones son fijas).
Índice de Paasche.
→ Representa los cambios en los precios con el tiempo o situación geográfica, para un grupo de bienes o servicios,
ponderados con la cantidad del periodo actual.
→ Muestra el valor de la canasta familiar actual sobre la canasta actual a precios bases.
→ Aplicado a precios sirve para indicar algo así como la variación del costo de vida o importe monetario de los consumos
de hoy frente a los precios de la canasta familiar vieja.
→ Las ponderaciones varían en cada período.
Índice de Fisher.
→ Su principal funcionalidad se basa en que es un índice intermedio que equilibra las disfunciones de los dos índices
Laspeyres y Paasche.
i. Propiedad de la identidad: el índice de precio, cantidad o valor de un determinado bien o servicio de un período
determinado respecto del mismo período es igual a 100.
8
ii. Propiedad del tiempo inverso: el índice de precio, cantidad o valor de un determinado bien o servicio del período base
“o” respecto de un período cualquiera “i” es igual al inverso multiplicativo del índice del período “i” respecto del período
base “o”.
iii. Propiedad cíclica modificada: el índice de precio, cantidad o valor de un bien o servicios de un determinado periodo “c”
respecto del periodo base “a” es igual al producto de los índice de ese bien o servicios en períodos intermedios entre “c”
y “a”.
“La deflación estadística es un procedimiento mediante el cual se eliminan los efectos de las variaciones de precios sobre variables
como ventas, salarios, producción, etc.”.
→ Inflación: aumento general y sostenido de los precios de todos los bienes y servicios tanto producidos como
consumidos.
o Con esta, el rendimiento del dinero se reduce por lo que es necesario aplicar la deflación estadística para hacer
comparaciones válidas en la evolución en el tiempo de las variables de interés.
→ El procedimiento consiste en dividir los valores nominales por un índice apropiado, el índice deflactor, como un índice
de precios que exprese de forma adecuada el fenómeno de la inflación. De esta manera se pueden transformar en
valores constantes a una serie cronológica de valores nominales.
9
Unidad 4: Series de tiempo.
Estudia la evolución de una determinada variable en función al tiempo, es decir, la variable estudiada será la variable
dependiente y el tiempo la variable independiente.
→ Herramienta estadística utilizada para detectar patrones de cambio de una o más variables en intervalos regulares.
→ Su uso es muy frecuente en los pronósticos o predicciones para la toma de decisiones.
→ Se debe considerar que cada dato relevado es la resultando de los efectos producidos por distintas causas que actúan
sobre la variable en distintos lapsos de tiempo y con comportamientos diferentes.
→ Los efectos participan en el modelo como componentes, suministran información y describen a la tendencia general y
luego a las variaciones cíclicas.
→ Participa también el ruido estadístico.
Tendencia.
→ La tendencia a largo plazo está dada por la recta de regresión determinada por el método de mínimos cuadrados, para lo
que se obtiene una función lineal.
recta de la tendencia
Componente cíclica.
→ Los índices cíclicos son descriptores del ciclo periódico mezclado con variaciones irregulares de la misma longitud.
→ La componente cíclica se calculará por medio del método del promedio móvil modificado.
→ Compara los valores observados de la serie (valores reales), con los estimados por la tendencia.
→ Si las diferencias en la comparación entre unas y otras siguen un patrón determinado, se dice que la serie presenta un
componente cíclico.
→ Identifica la longitud del ciclo periódico (si esta longitud se mantiene, se dice que es cíclica).
Ruido estadístico.
→ Irregularidades.
→ Porcentaje de la tendencia / Índice cíclico x 100.
Series.
i. Irregulares: sin ciclo, para pronosticar únicamente se reemplaza el valor en la fórmula de la tendencia.
ii. Regulares: con ciclo, para pronosticar se reemplaza el valor en la fórmula de la tendencia, se lo multiplica por el índice
cíclico y se lo divide por 100. porcentaje de la tendencia, residuos
relativos
10
Unidad 5: Probabilidad.
Parte de la matemática que trata de construir modelos teóricos para estudiar y medir la incertidumbre y los rasgos asociados con
ella. Se identifica con una medida de posibilidad de ocurrir que tiene un determinado suceso.
→ La teoría de la probabilidad es la herramienta conceptual necesaria para abordar con fundamento los problemas de la
estadística inferencial.
→ Cuando no se posee suficiente información para llegar a la respuesta correcta, estas situaciones se dicen que estar
regidas por las leyes del azar.
→ Posibilidad de que ocurra un suceso o evento en particular.
Experimentos aleatorios.
→ No hay un resultado predeterminado, aunque sí se puede dar un conjunto de posibles resultados con una probabilidad
asociada a cada uno, es decir, cuando no podemos predecir exactamente el resultado de un fenómeno/experimento se
dice que es aleatorio.
→ Experimentos simples.
o Son aquellos que realizamos una sola vez el experimento o cuando seleccionamos un solo elemento referido a
una variable de una población.
→ Experimentos compuestos.
o Son aquellos cuando seleccionamos dos o más elementos referidos a una misma variable o cuando se
selecciona un elemento al azar referido a dos o más variables.
Espacio muestral.
Sucesos.
i. Inclusión.
a. Sucesos mutuamente excluyentes (sin elementos compartidos). Su unión intersección es un conjunto vacío.
Diagrama de Venn
11
Sucesos especiales.
→ Unión: ocurre el suceso unión cuando ocurre alguno de los sucesos o por lo menos uno.
o (A U B), todos los elementos de uno, el otro o ambos.
→ Intersección: cuando ocurren simultáneamente ambos sucesos.
o (A ∩ B), elementos que comparten ambos sucesos.
→ Complemento: todos aquellos elementos que no pertenezcan al conjunto.
→ Operación diferencia: ocurre cuando ocurre A y no ocurre B (o sea, sólo ocurre A).
o A – B, todos los elementos de A que no pertenezcan a B.
o No se puede realizar en la inclusión total.
Probabilidad de Laplace.
→ Razón entre la cantidad de elementos del suceso con la cantidad de elementos del espacio muestral.
Enfoque frecuencial.
Probabilidad subjetiva.
12
Reglas de la probabilidad.
Dado un espacio muestral E asociado a un experimento aleatorio, la probabilidad es una función que a cada suceso A le asigna un
número real P(A) que satisface los siguientes axiomas.
→ Propiedades.
13
Probabilidad condicional (diagrama de árbol). probabilidad de la intersección
Partición.
→ Si al espacio muestral lo subdividimos en partes mutuamente excluyentes y no vacías tal que la unión de todos los
subconjuntos dé como resultado el espacio muestral decimos que hemos efectuado una partición del mismo.
Teorema de Bayes.
Formas de planteo.
Apartado:
i. Tabla de frecuencia.
𝐴 𝑃(𝐴 ∩ 𝐵)
ii. Tablas de contingencia. 𝑃( ) =
𝐵 𝑃(𝐵)
iii. Diagramas de Venn.
iv. Diagramas de árbol. 𝐵 𝑃(𝐴 ∩ 𝐵)
𝑃( ) =
v. Teorema de Bayes. 𝐴 𝑃(𝐴)
14
Unidad 6: Variables aleatorias.
Una variable aleatoria es una asignación unívoca entre los sucesos resultantes de un experimento aleatorio y un conjunto
numérico que se define con el objetivo decuantificarlos.
→ Esta síntesis numérica es la que permite, junto con el modelo probabilístico, determinar algunas características del
comportamiento del fenómeno en estudio.
5. Gráficos.
a. Bastones/puntos (probabilidad puntual).
b. Escalones (probabilidad acumulada).
Una variable aleatoria es una asignación unívoca entre los sucesos resultantes de un experimento aleatorio y un conjunto
numérico que se define con el objetivo de cuantificarlos.
→ Esta síntesis numérica es la que permite, junto con el modelo probabilístico, determinar algunas características del
comportamiento del fenómeno en estudio.
15
16