Está en la página 1de 16

ESTADÍSTICA

“Ciencia de la recolección y el análisis de datos para la toma de decisiones, transformando datos en información, que tiene por
objeto la elaboración de principios, métodos y modelos que permiten la descripción, el análisis y la predicción de fenómenos reales
cuando éstos son de carácter aleatorios”.

Unidad 1. Introducción y variables.

Introducción.

→ Disciplina científica, estructurada en el S. XIX, pero conocida y aplicada en la antigüedad para realizar relevamientos de
población y recursos.
→ Método de trabajo:
o Se establecen técnicas de diseño, observación y recolección de datos respecto de un fenómeno.
o Se organiza la información para arribar a conclusiones válidas.
→ La organización de los datos permite establecer modelos o patrones posibilitando distintas líneas de trabajo (se realiza
por medio de matrices).
→ Se deben comprender las cualidades o características del mundo real con perspectiva de su modelización.

Etapas en el análisis estadístico (descriptivo).

1. Formulación precisa del modelo a tratar.


2. Definición de las características a analizar.
3. Recopilación de datos y su tratamiento estadístico.
4. Resumen de la información (descripción de los datos).

Ramas de la estadística.

→ Estadística descriptiva, se analizan propiedades de un conjunto de datos, referidas al contexto (muy importante conocer
y clarificar el entorno del que provienen los datos), para caracterizarlos y extraer conclusiones.
o Entorno = población en estudio y sus unidades de análisis, junto a los atributos a estudiar y la calidad de dato
que se puede extraer.
▪ Población en estudio: conjunto formado por los elementos a estudiar.
▪ Unidad de observación o de análisis: individuos o elementos a estudiar.
▪ Muestra: subconjunto de la población sobre el que se realizará el estudio.
▪ Muestra representativa (para obtener conclusiones y realizar inferencias): posee idénticas
características que la población de estudio es como una “imagen reducida de la misma”:
→ Estadística inferencial, realiza inferencias en la población.
o Genera y aplica técnicas y modelos para obtener conclusiones y realizar predicciones asociadas a los
fenómenos investigados a nivel poblacional basados en una sola muestra aleatorio.
o Dos problemáticas: el conocimiento del contexto del estudio y el tratamiento de la incertidumbre.

Estadística descriptiva Estadística inferencial


1. Diseño de trabajo. 1. Muestreo aleatorio.
2. Observación. 2. Conocimiento del tipo de población de origen.
3. Registro de datos. 3. Trabajo de inferencia: estimación y pruebas de
4. Organización. hipótesis.
5. Resumen de la información. 4. Conclusiones probabilísticas sobre la población.

Tipos de datos y variables.

→ Dato: unidades de análisis de donde surge la información primaria para ser procesada.
→ Instrumentos: de estos dependen el carácter de la información. pueden aplicarse a la población y contener preguntas
abiertas o cerradas y/o combinarse.

1
→ Diferentes niveles de medición: cada uno de los atributos que se observan pueden convertirse en una variable
estadística.
→ Variable estadística: surge a partir de alguna de las características que posee la unidad de análisis que se intenta
analizar.
o Variables cualitativas: aceptan valores no numéricos.
▪ Ordenables: admiten un orden en forma natural, por ejemplo, el grado de conformismo de un
empleado, el nivel de instrucción, etc.
▪ No ordenables: no admiten un orden preestablecido, por ejemplo, el estado civil de los empleados, el
rubro de una pyme, etc.
o Variables cuantitativas: aceptan valores numéricos.
▪ Discretas: provienen de un conteo, por ejemplo, la cantidad de asientos contables, la antigüedad de
años de los empleados, etc.
▪ Continuas: provienen de mediciones, por ejemplo, longitudes, alturas, pesos, etc.

Organización y procesamiento de los datos.

→ Matriz de datos:
o Organiza información primaria.
o Arreglo de filas y columnas donde cada fila representa un individuo o unidad de observación y cada columna es
un atributo variable.
→ Frecuencias simples:
o Frecuencia absoluta (f): cantidad de veces que aparece cada valor de la variable en el grupo de datos estudiado,
su suma es la totalidad de los datos.
o Frecuencia relativa (fr): mide la importancia de ese valor sobre el total de los datos, se divide cada frecuencia
absoluta con el total de los datos.
o Frecuencia porcentual (f%): preso del valor de la variable sobre un total de 100, se multiplica la frecuencia
relativa por 100.
→ Frecuencias acumuladas (permiten ver al conjunto de datos desde otro ángulo complementario a las frecuencias
simples):
o Frecuencia absoluta acumulada (Fi): suma a la frecuencia absoluta todas las frecuencias absolutas de valores o
categorías menores.
o Frecuencia relativa acumulada (Fr): suma a la frecuencia relativa todas las frecuencias relativas de valores o
categorías menores.
o Frecuencias porcentuales acumuladas (F%): suma a la frecuencia porcentual todas las frecuencias porcentuales
de valores o categorías menores.
Variables Frecuencias Gráficos.
Cualitativas no ordenables. Frecuencias simples. Barras separadas o gráfico de torta.

Cualitativas ordenables. Frecuencias simples.

Cuantitativas discretas. Frecuencias simples y acumuladas. Bastones o puntos (frecuencia simple) y


escalones (frecuencia acumulada).

2
Cuantitativas continuas. Frecuencias simples y acumuladas, Histograma de frecuencia o polígono de
sumándole la marca de clase. frecuencia (frecuencias simples) y Ojiva
(frecuencias acumuladas).

→ Para comprar muestras con variables cuantitativas se pueden utilizar los gráficos de barras adyacentes o apiladas.

3
Unidad 2. Medidas.

→ Las medidas descriptivas se obtienen por cálculo numérico y constituyen un conjunto de valores especiales.
→ Las medidas estadísticas son resúmenes o indicadores que permiten caracterizar el comportamiento del grupo de datos
en estudio.
o Si el conjunto de datos constituye una población, entonces los indicadores serán poblacionales y se los
denomina parámetros.
o Si es una muestra, serán indicadores muestrales y se los denomina estadísticos.

Medidas de posición. Medidas de dispersión. Medidas de intensidad.


1. Modo o moda (Mo): es el valor o 1. Desvío: es el posible error o margen 1. Razón (r): división entre dos
categoría de la variable que de error cometido al considerar la frecuencias simples.
predomina. Puede ser alcanzado o media como representante de la 2. Proporción (p): : es la frecuencia
no. distribución de datos. relativa, es decir, el cociente
2. Mediana (Me): : es el valor de la 2. Varianza (s2): es el cuadrado del entre una frecuencia y el total de
variable que ocupa la posición desvío. elementos.
central de los datos ordenados de 3. Coeficiente de variación (CV): es la
menor a mayor. Deja el 50% de los proporción del desvío con respecto
datos por dejado de su valor y el a la media. Se puede expresar en
restante 50% de los datos por porcentaje.
arriba, es decir, supra y es superado 4. Rango o amplitud (Rg): es la
por un 50% de datos. Puede ser distancia entre el mayor y menor
alcanzado o no. valor de los datos.
3. Cuartiles (Qk): se dividen los datos 5. Rango o distancia intercuartil (d): es
ordenados de menor a mayor en 4 la distancia entre los cuartiles 3 y 1.
partes iguales, quedando
determinados 3 cuartiles.
→ Q1: deja por debajo el 25% de
los datos.
→ Q2: deja por debajo el 50% de
los datos.
→ Q3: deja por debajo el 75% de
los datos.
4. Percentiles (Pk): se dividen los datos
ordenados de menor a mayor en
100 partes iguales, quedando
determinado en general un percentil
k que deja k% de los datos por
debajo y (100-k)% de los datos por
arriba de su valor.
5. Medio (X): es el promedio
aritmético de los datos.

→ Para comparar muestras de variables cuantitativas en relación con la dispersión de datos, se utiliza el coeficiente de
variación.

Tipo de variable. Medida de posición. Medida de intensidad. Medida de dispersión.


Variables cualitativas no Mo (moda). R (razón).
ordenables. P (proporción).

Variables cualitativas Mo (modo).


ordenables. Me (mediana).
Qk y Pk.

Variables cuantitativas Mo (modo). R (razón). S (desvío).


discretas. X (media). P (proporción). S2 (varianza). CV(coeficiente
Me (mediana) de variación).
Q1, Q2, Q3 (cuartiles). Rg (rango o amplitud).
Pk (percentiles).

4
Fk (fractiles). D (rango o distancia
intercuartil).
.
Variables cuantitativas Mo (modo). R (razón). S (desvío).
continuas. X (media). P (proporción). S2 (varianza).
Me (mediana) CV (coeficiente de variación).
Q1, Q2, Q3 (cuartiles). Rg (rango o amplitud).
Pk (percentiles). D (rango o distancia
Fk (fractiles). intercuartil).
→ Para variables cuantitativas se puede usar:
o Mo = Me = X (simetría).
o Mo < Me < X (asimetría a la derecha).
o Mo > Me > X (asimetría a la izquierda).
→ Para comparar muestras con variables cuantitativas en relación con la dispersión de los datos se puede usar CV:
o CVa < CVb la distribución de datos de A es más homogénea (concentrada o consistente) que la de B.
o La distribución de datos de B es más heterogénea (dispersa o con mayor variabilidad) que la de A.

Box-plot.

→ Representación gráfica que permite visualizar la posición del centro de la distribución de datos y la dispersión y
asimetría de la misma.
→ Se tiene en cuenta la mediana y los cuartiles.
→ Se observan los valores adyacentes (son los valores que quedan más cerca de la caja) y los valores externos (los que
están por fuera, son los valores atípicos).

→ Los valores raros nos dan una voz de “alerta”, pueden ser un valor muy bueno o malo, y hay que investigarlo para ver si
se puede cambiar el método de trabajo por uno que rinda más o si es malo averiguar cuál es la causa para solucionarla.
Si la distribución es fuertemente asimétrica, estos valores pueden ser normales.
→ Los valores externos no se pueden desechar así porque sí.
→ Los gráficos caja-bigotes son útiles cuando se necesitan comprar dos o más distribuciones de datos.
→ Si el boxplot no es simétrico, entonces la distribución no es simétrica.

5
→ Cuando se parte de una distribución simétrica se obtiene un gráfico caja simétrico pero si el boxplot en simétrico no
implica que la distribución que representa sea simétrica.

Cálculo de las vallas.

6
Unidad 3. Números índice.

“Indicadores estadísticos que ponen en manifiesto, en forma cuantitativa, las variaciones relativas de una magnitud o de varias
magnitudes de una variable a través del tiempo, del espacio u otra característica”.

→ Son medidas de intensidad, ya que son razones.


→ Permite medir la variación relativa de ocurrencia de los valores de una variable entre una situación dada y otra de
referencia o base.
→ Indican cuánto ha variado, un valor de una variable o grupo de valores entre una situación final (período actual) y una
situación inicial (período base), la cual sirve de referencia.
→ Se expresan en forma de coeficiente o en forma de porcentaje.

Clasificación.

Tipo de índice. Clasificación.


Índices simples. 1. Relativo porcentual de precio (cambio porcentual del
precio de un bien/servicio en diferentes períodos de
tiempo o en dos situaciones espaciales distintas).

2. Relativo porcentual de cantidad (cambio porcentual de la


cantidad de un bien/servicio en diferentes períodos de
tiempo o en dos situaciones espaciales distintas).

3. Relativo porcentual de valor (cambio porcentual del valor


de un bien producido, adquirido, exportado o
demandado, en dos situaciones temporales o espaciales
diferentes).

Índices compuestos. i. Relativo porcentual de precios, cantidad o valor


agregados no ponderado (variaciones relativas globales,
sin considerar la importancia o peso de las categorías de
la variable dentro del contexto).

ii. Promedio no ponderado de relativos porcentuales de


precios, cantidad o valor (se tienen en cuenta las
variaciones relativas individuales sin considerar el precio o
peso de los ítems, con el objeto de hallar una variación
individual promedio).
→ Con este es posible observar los cambios en los
precios relativos y a la vez se puede considerar el
cambio de precios combinado de todos los
bienes y servicios.

7
iii. Relativos porcentuales de precios, cantidad o valor de
agregados ponderados (tienen en cuenta las variaciones
relativas y la importancia de los valores o categorías de la
variable dentro del contexto).
→ Índice de Laspeyres.
→ Índice de Paasche.
→ Índice de Fisher.

Índice de Laspeyres.

→ Representa los cambios en los precios con el tiempo o situación geográfica, para un grupo de bienes o servicios,
ponderados con las cantidades de éstos del año base.
→ Aplicado sobre precios, muestra la variación de precios actual ante la base multiplicada por el consumo base: sería como
el costo actual de la canasta familiar base.
→ Requiere menos información (las ponderaciones son fijas).

Índice de Paasche.

→ Representa los cambios en los precios con el tiempo o situación geográfica, para un grupo de bienes o servicios,
ponderados con la cantidad del periodo actual.
→ Muestra el valor de la canasta familiar actual sobre la canasta actual a precios bases.
→ Aplicado a precios sirve para indicar algo así como la variación del costo de vida o importe monetario de los consumos
de hoy frente a los precios de la canasta familiar vieja.
→ Las ponderaciones varían en cada período.

Índice de Fisher.

→ Su principal funcionalidad se basa en que es un índice intermedio que equilibra las disfunciones de los dos índices
Laspeyres y Paasche.

Propiedades de los números índice.

i. Propiedad de la identidad: el índice de precio, cantidad o valor de un determinado bien o servicio de un período
determinado respecto del mismo período es igual a 100.

8
ii. Propiedad del tiempo inverso: el índice de precio, cantidad o valor de un determinado bien o servicio del período base
“o” respecto de un período cualquiera “i” es igual al inverso multiplicativo del índice del período “i” respecto del período
base “o”.

iii. Propiedad cíclica modificada: el índice de precio, cantidad o valor de un bien o servicios de un determinado periodo “c”
respecto del periodo base “a” es igual al producto de los índice de ese bien o servicios en períodos intermedios entre “c”
y “a”.

Deflación e índices deflactores.

“La deflación estadística es un procedimiento mediante el cual se eliminan los efectos de las variaciones de precios sobre variables
como ventas, salarios, producción, etc.”.

→ Inflación: aumento general y sostenido de los precios de todos los bienes y servicios tanto producidos como
consumidos.
o Con esta, el rendimiento del dinero se reduce por lo que es necesario aplicar la deflación estadística para hacer
comparaciones válidas en la evolución en el tiempo de las variables de interés.
→ El procedimiento consiste en dividir los valores nominales por un índice apropiado, el índice deflactor, como un índice
de precios que exprese de forma adecuada el fenómeno de la inflación. De esta manera se pueden transformar en
valores constantes a una serie cronológica de valores nominales.

9
Unidad 4: Series de tiempo.

Estudia la evolución de una determinada variable en función al tiempo, es decir, la variable estudiada será la variable
dependiente y el tiempo la variable independiente.

→ Herramienta estadística utilizada para detectar patrones de cambio de una o más variables en intervalos regulares.
→ Su uso es muy frecuente en los pronósticos o predicciones para la toma de decisiones.
→ Se debe considerar que cada dato relevado es la resultando de los efectos producidos por distintas causas que actúan
sobre la variable en distintos lapsos de tiempo y con comportamientos diferentes.
→ Los efectos participan en el modelo como componentes, suministran información y describen a la tendencia general y
luego a las variaciones cíclicas.
→ Participa también el ruido estadístico.

Tendencia.

→ La tendencia a largo plazo está dada por la recta de regresión determinada por el método de mínimos cuadrados, para lo
que se obtiene una función lineal.
recta de la tendencia

→ De este se obtiene la constante del modelo (ordenada al origen).

→ La pendiente de la recta de la tendencia, la cual representa el aumento o disminución promedio de la variable de un


período a otro.

Componente cíclica.

→ Los índices cíclicos son descriptores del ciclo periódico mezclado con variaciones irregulares de la misma longitud.
→ La componente cíclica se calculará por medio del método del promedio móvil modificado.

Método del promedio móvil modificado.

→ Compara los valores observados de la serie (valores reales), con los estimados por la tendencia.
→ Si las diferencias en la comparación entre unas y otras siguen un patrón determinado, se dice que la serie presenta un
componente cíclico.
→ Identifica la longitud del ciclo periódico (si esta longitud se mantiene, se dice que es cíclica).

Ruido estadístico.

→ Irregularidades.
→ Porcentaje de la tendencia / Índice cíclico x 100.

Series.

i. Irregulares: sin ciclo, para pronosticar únicamente se reemplaza el valor en la fórmula de la tendencia.
ii. Regulares: con ciclo, para pronosticar se reemplaza el valor en la fórmula de la tendencia, se lo multiplica por el índice
cíclico y se lo divide por 100. porcentaje de la tendencia, residuos
relativos

porcentaje de la tendencia, índice cíclico


codificación tendencia longitud
filtro de la tendencia

10
Unidad 5: Probabilidad.

Parte de la matemática que trata de construir modelos teóricos para estudiar y medir la incertidumbre y los rasgos asociados con
ella. Se identifica con una medida de posibilidad de ocurrir que tiene un determinado suceso.

→ La teoría de la probabilidad es la herramienta conceptual necesaria para abordar con fundamento los problemas de la
estadística inferencial.
→ Cuando no se posee suficiente información para llegar a la respuesta correcta, estas situaciones se dicen que estar
regidas por las leyes del azar.
→ Posibilidad de que ocurra un suceso o evento en particular.

Experimentos aleatorios.

→ No hay un resultado predeterminado, aunque sí se puede dar un conjunto de posibles resultados con una probabilidad
asociada a cada uno, es decir, cuando no podemos predecir exactamente el resultado de un fenómeno/experimento se
dice que es aleatorio.

Experimentos simples y compuestos.

→ Experimentos simples.
o Son aquellos que realizamos una sola vez el experimento o cuando seleccionamos un solo elemento referido a
una variable de una población.
→ Experimentos compuestos.
o Son aquellos cuando seleccionamos dos o más elementos referidos a una misma variable o cuando se
selecciona un elemento al azar referido a dos o más variables.

Espacio muestral.

→ Conjunto formado por todos los resultados posibles de dicho experimento.


→ Simbolizado con la letra E.
→ Se pueden diseñar distintos espacios muestrales según lo que nos interese observar.

Sucesos.

→ Muestras extraídas de los espacios muestrales.


→ Subconjuntos del espacio muestral.
→ Se dice que un suceso ocurre cuando el resultado del experimento aleatorio es un elemento del suceso.

i. Inclusión.
a. Sucesos mutuamente excluyentes (sin elementos compartidos). Su unión intersección es un conjunto vacío.

b. Sucesos no mutuamente excluyentes (con elementos compartidos). Su intersección es distinta a un conjunto


vacío).

Diagrama de Venn

ii. Inclusión total (no conmutativa).


A

11
Sucesos especiales.

i. Sucesos elementales: subconjuntos unitarios seleccionados de un especio muestral.


ii. Suceso cierto: subconjunto que coincide con el espacio muestral (siempre ocurre).
iii. Suceso imposible: el suceso no tiene ningún elemento (es vacío, nunca ocurre).

Operaciones entre sucesos.

→ Unión: ocurre el suceso unión cuando ocurre alguno de los sucesos o por lo menos uno.
o (A U B), todos los elementos de uno, el otro o ambos.
→ Intersección: cuando ocurren simultáneamente ambos sucesos.
o (A ∩ B), elementos que comparten ambos sucesos.
→ Complemento: todos aquellos elementos que no pertenezcan al conjunto.
→ Operación diferencia: ocurre cuando ocurre A y no ocurre B (o sea, sólo ocurre A).
o A – B, todos los elementos de A que no pertenezcan a B.
o No se puede realizar en la inclusión total.

Probabilidad de Laplace.

→ Razón entre la cantidad de elementos del suceso con la cantidad de elementos del espacio muestral.

→ Las probabilidades se calculan a priori, es decir antes de realizar el experimento aleatorio.


→ Los elementos son equiprobables, significa que cada elemento tiene la misma posibilidad de ser seleccionado.
→ Los sucesos elementales son mutuamente excluyentes (si sale uno no puede ser seleccionado cualquiera de los demás).
→ La población de donde se extrae la muestra es finita.
→ La dificultad que presenta esta forma de determinar una probabilidad es que en los espacios muestrales que no son finitos,
no se podrán calcular la probabilidad de que un evento ocurra.

Enfoque frecuencial.

→ Las probabilidades se calculan a posteriori, es decir después de realizar el experimento aleatorio.


→ Las frecuencias relativas (fr) se estabilizan al crecer el número de observaciones en condiciones estables.
→ No es necesario que los sucesos elementales sean equiprobables ni que la población sea finita.

Probabilidad subjetiva.

→ Posibilidad de ocurrencia de un suceso asignada por una persona en particular.


→ Se basa normalmente en una combinación de la experiencia, la opinión personal y el análisis de la situación en
particular.
→ El enfoque subjetivo es especialmente útil para tomar decisiones en situaciones en las que no se puede estimar
empíricamente la probabilidad de ocurrencia de uno o de varios eventos.
→ Se intenta construir un espacio muestral, en donde se eligen dos cominos para el experimento:
o Sumando probabilidades de los puntos muestrales del suceso de interés.
o Usando conjuntamente la composición de sucesos y las leyes de probabilidad.

12
Reglas de la probabilidad.

Dado un espacio muestral E asociado a un experimento aleatorio, la probabilidad es una función que a cada suceso A le asigna un
número real P(A) que satisface los siguientes axiomas.

→ Propiedades.

13
Probabilidad condicional (diagrama de árbol). probabilidad de la intersección

Probabilidad conjunta (relación entre sucesos).

Partición.

→ Si al espacio muestral lo subdividimos en partes mutuamente excluyentes y no vacías tal que la unión de todos los
subconjuntos dé como resultado el espacio muestral decimos que hemos efectuado una partición del mismo.

Teorema de la probabilidad total.

Teorema de Bayes.

→ Probabilidades condicionales de las cusas conocidos los efectos.

Formas de planteo.
Apartado:
i. Tabla de frecuencia.
𝐴 𝑃(𝐴 ∩ 𝐵)
ii. Tablas de contingencia. 𝑃( ) =
𝐵 𝑃(𝐵)
iii. Diagramas de Venn.
iv. Diagramas de árbol. 𝐵 𝑃(𝐴 ∩ 𝐵)
𝑃( ) =
v. Teorema de Bayes. 𝐴 𝑃(𝐴)

14
Unidad 6: Variables aleatorias.

Variables aleatorias discretas.

Una variable aleatoria es una asignación unívoca entre los sucesos resultantes de un experimento aleatorio y un conjunto
numérico que se define con el objetivo decuantificarlos.

→ Esta síntesis numérica es la que permite, junto con el modelo probabilístico, determinar algunas características del
comportamiento del fenómeno en estudio.

1. Rx (recorrido de la variable aleatoria “x”):


2. h(x): función de probabilidad puntual, es la frecuencia relativa.
a. Propiedades, fórmula de probabilidad puntal:
i. 0 ≤ ℎ(𝑥) ≤ 1
ii. 𝑆𝑢𝑚𝑎 𝑑𝑒 ℎ(𝑥) = 1
3. F(t): función de distribución de la probabilidad acumulada, es la frecuencia acumulada.
a. Propiedades:
i. 𝑃(𝑥 ≤ 𝑎) = 𝐹(𝑎)
ii. 𝑃(𝑥 > 𝑎) = 1 − 𝐹(𝑎)
iii. 𝑃(𝑎 < 𝑋 ≤ 𝑏) = 𝐹(𝑏) − 𝐹(𝑎)
4. Medidas.
a. E(x) = esperanza o valor esperado (es igual al promedio, o sea, X)
b. V(x) = varianza (es igual a (𝑥𝜎𝑛)2).
c. Ds(x) = desvío (es igual a 𝑥𝜎𝑛.
d. Propiedades.

5. Gráficos.
a. Bastones/puntos (probabilidad puntual).
b. Escalones (probabilidad acumulada).

Variables aleatorias continua.

Una variable aleatoria es una asignación unívoca entre los sucesos resultantes de un experimento aleatorio y un conjunto
numérico que se define con el objetivo de cuantificarlos.

→ Esta síntesis numérica es la que permite, junto con el modelo probabilístico, determinar algunas características del
comportamiento del fenómeno en estudio.

15
16

También podría gustarte