Está en la página 1de 12

TEMA 1- ESTADÍSTICA DESCRIPTIVA.

DISTRIBUCIONES DE FRECUENCIAS

Introducción a la estadística

¿Qué es la estadística?

La estadística es una rama del conocimiento con métodos científicos.

● Estadística descriptiva: la recolección, tabulación, representación y análisis de datos


● Estadística inferencial: conclusiones válidas y tomar decisiones razonables en función de
dichos conclusiones

¿Para qué sirve la estadística?

Se ocupa de los fenómenos observables.

Conocer el comportamiento de datos o variables recolectados de una muestra de una población.

¿Por qué estudiar estadística?

● Alfabetización científica: favorecen el pensamiento analitico y critico.


● Capacitación profesional: hacer una estudio en el que probar una hipótesis o buscar
respuestas a preguntas.

Método científico

1. Observación formular una pregunta


2. Buscar una explicación (investigación)
3. Plantear una hipótesis para resolver la pregunta
4. Experimentar, recoger datos y contrastarlos (estadística descriptiva)
5. Conclusión, si es sí continuo, si es no volvemos a empezar desde el 3 (estadística inferencial)
6. Teorema o ley propia sacada de nuestro problema
7. Publicación (hacerlo público)

Población vs Muestra

POBLACIÓN

- Cumplen características de asociación determinadas (ej demográficas).


- Pueden ser finitas o infinitas
- Normalmente es demasiado grande para poder abarcarlo.

INDIVIDUO
MUESTRA

- Sobre la muestra se realizan las observaciones (recopilación datos).


- Son finitas y de tamaño menor a la población.

MUESTREO

Debe garantizar que las características de la población se mantienen intactas en la muestra y los
resultados obtenidos sobre la muestra pueden utilizarse para realizar inferencias sobre la población.

¿Qué es una variable?

Pueden tomar un valor cualquiera de un conjunto de valores prescritos para darnos el conjunto de
datos del estudio estadístico.

La información que disponemos de cada individuo es resumida en variables.

● Cualitativas: los valores (modalidades) no se pueden asociar naturalmente a un número

○ Nominales: Si sus valores no se pueden ordenar (Grupo Sanguíneo, Religión)


○ Binarias (Dicotómicas): Si sus valores solo tienen dos posibilidades (Sexo, Fuma,
Asistencia, Resultado del Curso)
○ Ordinales: sus valores se pueden ordenar (Estado de Ánimo, Grado de satisfacción,
Intensidad del dolor)

● Cuantitativas o Numéricas: los valores son numéricos (operciones)


○ Discretas: entre los dos valores extremos, son posibles finitos (8-10) valores
intermedios (suelen ser números enteros) (Número de hijos, Número de cigarrillos,
Num. de “cumpleaños”)
○ Continuas: Si entre los dos valores extremos, son posibles infinitos valores
intermedios (suelen ser números decimales) (Altura, Presión intraocular, Dosis de
medicamento administrado, edad.)

Valores de una variable

Los posibles valores de una variable también suelen denominarse modalidades.

Las modalidades de las variables cuantitativas contínuas se agrupan en clases o intervalos


(Edades: Menos de 20 años, de 20 a 50 años, más de 50 años)

Las modalidades deben formar un sistema:

- Exhaustivo: No podemos olvidar ningún posible valor de la variable (¿Cuál es su


grupo sanguíneo: A, B, AB, O?)
- Excluyente: Nadie puede presentar dos valores simultáneos (Le gusta el deporte: Sí o
No)

Redondeo de Datos

63,4 redondeado al entero más cercano es 63, porque 63,4 está más cerca de 63 que de 64.

37,8773 redondeado a la centésima más cercana es 37,88 puesto que 37,8778 está más próximo a
37,88 que a 37,87.

43,45 se encuentra a igual distancia de 43,4 de 43,5 por lo que redondeamos al par más cercano. Es
decir, 43,45 redondeado a la décima más próxima es 43,4 mientras que 43,55 redondeado a la décima
más próxima es 43,6.

Notación Científica
𝑥
El valor del exponente de la potencia (10 ) indica el número de posiciones que hay que desplazar el
separador decimal (a la derecha si el exponente es positivo y a la izquierda si es negativo).
6 −4
Ejemplo 1: 3, 765 × 10 = 3765000 . Ejemplo 2: 7, 23 × 10 = 0, 000723

Cifras Significativas

Si una variable es de tipo cuantitativa continua y su valor está registrado (1,72 m), significa que el
valor real está entre 1,715 m y 1,725. Los dígitos exactos, además de los ceros necesarios para
colocar el separador decimal, son denominados cifras significativas del número. (28,4 tiene tres
cifras significativas; 0,042 = 4,2 X 10-2 tiene dos cifras significativas; 98,5600 tiene seis cifras
significativas; 0,04200 = 4,200 X 10-2 tiene cuatro cifras significativas)

Cálculos

Al realizar cálculos (sumas y restas) el resultado final no puede tener más cifras significativas que el
número con menos cifras significativas. (4,23 + 6,4 = 10; 7,36 – 4 = 3)
Al realizar cálculos (multiplicación, división o raíces), el resultado final no puede tener más cifras
significativas que el menor número de cifras significativas. Para todos los cálculos intermedios
utilizaremos una cifra significativa más. (73,24 X 4,52 = 331; 1,648÷0,023 = 72)

Organización y representación de variables

Representación de datos mediante:

● Tablas de Frecuencia
● Tablas Cruzadas
● Gráficos

Tres Conceptos Básicos

● Datos Primarios o Brutos: los datos tal y como han sido recolectados.
● Datos Ordenados: en orden creciente o decreciente de los datos numéricos primarios
susceptibles de ordenación. (Variables cuantitativas y cualitativas ordinales)
● Rango, Amplitud de los datos o Recorrido: Diferencia entre el mayor valor observado y el
menor valor observado → Nº de Modalidades (Variables cuantitativas discretas/Continuas)

Rango= valor max–valor min

Representación de datos

● Los datos se pueden presentar de manera ordenada en tablas de frecuencias o en gráficos


● Las tablas de frecuencias y las representaciones gráficas son dos maneras equivalentes de
presentar la información.
● Las dos exponen ordenadamente la información

Tabla de frecuencias

Resume la información contenida en los datos (xi) de una muestra de tamaño = n. Las columnas de la
tabla muestran distintas frecuencias dependiendo de si los datos son discretos o continuos.

1. Variables cuantitativas discretas

𝑛𝑖 Frecuencia absoluta (Nº ocurrencias) 𝑓𝑖 Frecuencia relativa

𝑁𝑖 Frecuencia absoluta acumulada 𝐹𝑖 Frecuencia relativa acumulada

𝑛𝑖 1
𝑓𝑖 = 𝑛
𝐹𝑖 = ∑ 𝑓𝑗 = 𝑛
∑ 𝑛𝑗 𝑁𝑖 = ∑ 𝑛𝑗
𝑗≤𝑖 𝑗≤𝑖 𝑗≤𝑖

2. Variables cuantitativas continuas (con infinitos valores posibles)


Los datos hay que agruparlos por clases o categorías.

El número de clases no deberá ser demasiado pequeño ni demasiado grande (5≤C≤20).

𝐿𝑖−1, 𝐿𝑖 Límites de clase (Valor inferior y 𝑥𝑖 marcas de clase (Valor medio de los
superior de la clase) límites)

𝐴𝑖 Amplitud o rango de clase

𝑙𝑜𝑔10(𝑁)
𝑆𝑡𝑢𝑟𝑔𝑒𝑠: 𝐶 = 1 + 𝑙𝑜𝑔2(𝑁) = 1 + 𝑙𝑜𝑔10(2)

Se hace Sturges= 6 a continuación se hacen 6 intervalos entre 10 (la nota máxima),

En la primera L se coloca la nota mínima y en la otra L +1,6 todo el rato hasta llegar a 10.

Tablas cruzadas

Emplear para relacionar dos variables cualitativas y/o cuantitativas discretas.

Gráficos

● Cualitativas discretas
○ Diagrama de barras

La altura de la barra corresponde a la


frecuencia relativa en %

○ Diagrama de sectores (tarta)

Cada área es proporcional a la frecuencia


absoluta o relativa.

Variables con pocos valores (2-5)

○ Gráfico de mosaicos
● Cuantitativas continuas
○ Histograma

Entre 5 y 20 barras, inician y terminan


en los límites de cada clase.

○ Diagrama de línea

○ Gráfico de series

Variable dependiente varía en función del


tiempo

● OTROS
○ Gráfico de dispersión

Variación de una variable respecto a otra y si existe o no


relación entre ellas

● Mixtos
○ Gráficos de barras y líneas
Cómo varían dos magnitudes en relación a una
tercera

Estadísticos y cuantiles

Estadístico es una cantidad numérica calculada sobre una muestra (La altura media de clase)

Parámetro es una cantidad numérica calculada sobre una población(La altura media de un país)

Principal objetivo de un buen estudio. Estadístico = Parámetro

● Posición dividen un conjunto ordenado de datos en grupos con la misma cantidad de


individuos (Cuantiles)
● Tendencia Central o Localización indican valores con respecto a los que los datos parecen
agruparse(Media, mediana y moda)
● Dispersión Indican la mayor o menor concentración de los datos con respecto a las medidas
de centralización. (Desviación típica, coeficiente de variación, rango, varianza)
● Estadísticos de Posición (Forma, Asimetría, Apuntamiento o curtosis)

Cuantiles

Permiten dividir de forma regular la muestra, formando intervalos que comprenden la misma
proporción de valores (Variables cuantitativas)

- Se define el cuantil de orden α(𝐶α, con 0<α<1 (%)) como el valor de la variable 𝑋α por debajo
del cual se encuentra una frecuencia acumulada (ⲁ)
- Los datos se dividen en 2 partes ; (1-a)×100% de los datos tienen valores mayores que Xa.

Cálculo de cuantiles para datos discretos

1. Ordenar los datos de menor a mayor


2. Calcular el índice i, posición del cuantil. 𝑖 = 𝑁 × α
3. Par, impar. decimal
a. i=par: coger ese y el siguiente número de la muestra y hacer media.
b. i= decimal: redondear al alza y tomar el dato en la posición i
c. i=impar: tomar el dato en la posición i

Cálculo de cuantiles para datos agrupados

1. Calcular el índice i.
2. Buscar el intervalo cuya Ni sea > ó = 𝑖
3. Fórmula

α𝑛−𝑁𝑖−1
𝐶α = 𝐿𝑖−1 + 𝑎𝑖 𝑛𝑖
Estadísticos de Posición Comunes

1. Cuartiles: cuatro partes iguales (0,25; 0,50 y 0,75).


2. Quintiles: cinco partes iguales (0,20; 0,40; 0,60 y 0,80).
3. Deciles: diez partes iguales. (10 20 30 40…)
4. Percentiles: 100 partes iguales.

Estadísticos de posición y tendencia central

Los estadísticos de tendencia central son efectivos cuando queremos resumir la información de la
variable mediante un valor numérico.

Media aritmética

● Para datos sin agrupar: Sumatorio de los datos de la variable (xi) dividido entre n el
tamaño de la muestra.
● Para datos agrupados: Sumatorio de la multiplicación de la marca de clase (xi) por la
frecuencia absoluta de cada intervalo (ni) dividido entre n el tamaño de la muestra.

1 1
Sin agrupar: 𝑥 = 𝑛
∑ 𝑥𝑖 Agrupados: 𝑥 = 𝑛
∑(𝑥𝑖 · 𝑛𝑖)

Media ponderada

𝑥𝑝 = ∑ 𝑥𝑖 · 𝑤𝑖

Mediana

Valor por debajo del cual se encuentra el 50% de los datos

Para el cálculo de la mediana se deberá emplear 𝛼 = 0. 5

Moda

Valor o valores que más se repiten.

● Datos de variables cualitativas o cuantitativas discretas: Es la clase que más se repite


● Datos agrupados de variables cuantitativas continuas:

𝑛𝑖−𝑛𝑖.−1
𝑀𝑜𝑑𝑎 = 𝐿𝑖𝑖−1 + 𝑎 · 2·𝑛𝑖−𝑛𝑖−1−𝑛𝑖+1

Según el número de modas:

- Unimodales: un valor con la frecuencia mayor


- Bimodales: dos valores con la frecuencia mayor
- Multimodales: más de dos valores con la frecuencia mayor

Único estadístico que puede ser utilizado para variables cualitativas.


Estadísticos de dispersión

Rango o Recorrido

Muy susceptible a los valores extremos

𝑅𝑎𝑛𝑔𝑜 = 𝑚𝑎𝑥–𝑚𝑖𝑛

Rango intercuartílico

Más fiable ya que solo analiza la dispersión del 50% central

𝐼𝑄𝑅 = 𝑄3 − 𝑄1 = 𝐶0,75 − 𝐶0,25

● Diagrama de Tukey

Observaciones anómalas o atípicas: observaciones diferentes al resto, más grandes o


más pequeños.

● Diagrama de cajas

Los valores mínimo y máximo y sobre la existencia de valores atípicos o la simetría

Varianza

Es sensible a valores extremos

2 1 2 2 1 2
Sin agrupar: 𝑠 = 𝑛
∑(𝑥𝑖 − 𝑥) Agrupados: 𝑠 = 𝑛
∑ 𝑛𝑖 · (𝑥𝑖 − 𝑥)

Desviación típica

2
𝑠= 𝑠 68% < 𝑠 < 95%

Coeficiente de Variación

Cómo de grande es la dispersión de los datos de una variable con respecto a la media.

𝑠
𝐶𝑉 = · 100 = %
|𝑥|

También se denomina variabilidad relativa

Estadísticos de forma

Asimetría

Medida del grado de desviación de la simetría de una distribución.

Valores equidistantes a un valor que se considera el centro tiene frecuencias similares.


Coeficientes de Asimetría (CA) o Sesgo

Una distribución es simétrica si la mitad izquierda es la imagen de su mitad derecha. Media


y mediana coinciden. Si hay una moda también coincide.

La asimetría es positiva o negativa en función de a qué lado se encuentra la cola de la


distribución. La media tiende a desplazarse hacia los valores extremos

● Coeficiente de asimetría de Pearson


𝑁 𝑁
3 3
∑ (𝑥𝑖−𝑥) ∑ (𝑥𝑖−𝑥) ·𝑛𝑖
𝑖=1 𝑖=1
Discretos: 𝐶𝐴 = 3 Continuos: 𝐶𝐴 = 3
𝐹 𝑁·𝑠𝑥 𝐹 𝑁·𝑠𝑥

● Coeficiente cuartílico de asimetría o de Bowley

𝑄3+𝑄1−2·𝑄2
𝐶𝐴𝐵 = 𝑄3−𝑄1

- Si el 𝐶𝐴 = 0 → distribución es simétrica (𝑋 = 𝑀𝑒)


- 𝐶𝐴 > 0 → asimetría por la derecha o positiva
- 𝐶𝐴 < 0 → asimetría por la izquierda o negativa

Curtosis

- Apuntada → Curtosis > 0


- Normal → Curtosis = 0
- Aplanada → Curtosis < 0

( )
𝑚4 𝑛 𝑥𝑘−𝑥
𝐶𝐶 = 4 = ∑ −3
𝑆𝑛 𝑘=1 𝑆𝑛

Correlación de variables

Datos Bidimensionales

Las variables bidimensionales surgen cuando se estudian dos características de un fenómeno.

La forma más sencilla de representar estos datos es mediante los diagramas o gráficos de dispersión.

Del gráfico podemos deducir que existe una relación lineal entre las dos variables: “parece que el peso
aumenta con la altura”.
Covarianza

Permite establecer el grado de dispersión (relación) entre dos variables cuantitativas

( )( )
∑ 𝑥𝑖−𝑥 · 𝑦𝑖−𝑦
𝑆𝑥𝑦 = 𝑁

- Negativa: relación lineal inversa. Aumenta una variable, la otra disminuye.

𝑆𝑥𝑦 = (𝑥𝑖 − 𝑥) · (𝑦𝑖 − 𝑦) ÷ 𝑁 < 0

- Nula: No existe relación lineal inversa entre las variables

𝑆𝑥𝑦 = (𝑥𝑖 − 𝑥) · (𝑦𝑖 − 𝑦) ÷ 𝑁 = 0

- Positiva: Relación lineal directa. Aumenta una variable, la otra también.

𝑆𝑥𝑦 = (𝑥𝑖 − 𝑥) · (𝑦𝑖 − 𝑦) ÷ 𝑁 > 0

*No es posible utilizarla para indicar la intensidad de la relación lineal.

Coeficiente de Correlación Lineal de Pearson

Medida del grado de asociación de dos variables.

𝑆𝑥𝑦
𝑟𝑥𝑦 = 𝑆𝑥·𝑆𝑦

𝑟𝑥𝑦 ≤ 0, 4 Relación lineal débil (Ninguna relación)

0, 4 < 𝑟𝑥𝑦 ≤ 0, 7 Relación lineal moderada (Alguna relación)

0, 7 < 𝑟𝑥𝑦 ≤ 0, 9 Relación lineal fuerte (Buena relación)

𝑟𝑥𝑦 > 0, 9 Relación lineal muy fuerte (Muy buena relación)

Coeficiente de Determinación

2
𝑅 = 𝑟𝑥𝑦 ( )2
Regresión Lineal

Encontrar la ecuación de una función, de una o varias variables independientes (X) que pueda ser
utilizada para predecir el valor de la variable dependiente (Y)

1 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑡𝑖𝑣𝑎 = 𝑠𝑖𝑚𝑝𝑙𝑒 = 𝑙𝑖𝑛𝑒𝑎𝑙 𝑜 𝑛𝑜 𝑙𝑖𝑛𝑒𝑎𝑙

2 ó + 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑡𝑖𝑣𝑎𝑠 = 𝑚ú𝑙𝑡𝑖𝑝𝑙𝑒 = 𝑙𝑖𝑛𝑒𝑎𝑙 𝑜 𝑛𝑜 𝑙𝑖𝑛𝑒𝑎𝑙

𝑌 = 𝑎 + 𝑏𝑋 + ϵ
Modelo de Regresión Lineal Simple (MRLS)

∈: es el error residual o de estimación del modelo y da cuenta de la variabilidad de la


variable “y” que no puede ser explicada mediante la variable “x”.

∈ = 𝑌 (𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑑𝑎) − 𝑌´(𝑒𝑠𝑡𝑖𝑚𝑎𝑑𝑎)

Técnica de mínimos cuadrados: tomar los valores de los coeficientes de regresión a y b en la


ecuación de regresión.

𝑆𝑥𝑦
𝑎 =𝑌− 𝑏 ·𝑋 𝑏= 2
𝑆𝑥

Probabilidad Total y Teorema de Bayes

Dada una colección de sucesos A1 , A2, A3, A4… tales que la unión de todos ellos forman el espacio
muestral (E), y sus intersecciones son exhaustivas (disjuntas)

𝑃(𝐸) = 𝑃(𝐴1 ) + 𝑃(𝐴2 ) + 𝑃(𝐴3 ) + 𝑃(𝐴4 )

Teorema de la probabilidad total

𝑃(𝐵) = 𝑃(𝐵 ∩ 𝐴1 ) + 𝑃(𝐵 ∩ 𝐴2 ) + 𝑃( 𝐵 ∩ 𝐴3 ) + 𝑃(𝐵 ∩ 𝐴4 )

𝑃(𝐵) = 𝑃(𝐴1 ) · 𝑃(𝐵|𝐴1 ) + 𝑃(𝐴2) · 𝑃(𝐵|𝐴2) + 𝑃(𝐴3) · 𝑃(𝐵|𝐴3) + 𝑃(𝐴4) · 𝑃(𝐵|𝐴4)

Teorema de Bayes

( ) ( )
𝑃 𝐴𝑖 ·𝑃 𝐵/𝐴𝑖
(
𝑃 𝐴𝑖/𝐵 = ) 𝑃(𝐴1)·𝑃(𝐵/𝐴1)+...+𝑃(𝐴1)·𝑃(𝐵/𝐴𝑛)

También podría gustarte