Está en la página 1de 40

Introducción a Estadística

Dr. José Ignacio Azuela


Sumario
1. Variables
2. Distribución/Distribución de Probabilidades
3. Modelos estadísticos/Ajuste del Modelo
4. Error estándar e Intervalos de Confianza
5. Hipótesis
6. Tests Estadísticos
Variables
Durante el proceso de investigación (concretamente en la investigación
cuantitativa), se presenta el momento en el que nos hacemos las siguientes
preguntas:

1. ¿Qué vamos a medir?


2. ¿Cómo lo vamos a medir?

La primer pregunta se responde muy fácilmente. Para contrastar las


hipótesis que nos hayamos planteado necesitamos medir variables.

La mayoría de la hipótesis están expresadas en términos de dos variables:


Dependiente e Independiente.
¿Qué medir?
Variable Independiente (llamada así porque su valor no depende de
otras variables) es la variable que explica la causa (también llamada
variable explicativa).

Variable Dependiente (llamada así porque su valor depende de la


variable independiente) es la variable que registra el efecto (también
llamada variable explicada).

Otros nombre: variable predictora y variable resultado


¿Cómo medir?
Las variables pueden ser medidas de diferentes formas y dependiendo
de cómo se midan podrán ser clasificadas como: categóricas o
continuas.

Variable Categórica: es aquella construida por categorías, cada valor


que tome la variable debe coincidir con una categoría.
1. Variable binaria (dicotómica), es aquella que sólo dos valores: “si” y “no”
(1,0).
2. Variable nominal, es aquella que puede tomar más de dos valores (pueden
existir más de dos categorías).
3. Variable ordinal (ordenada), es aquella que además de tomar más de dos
valores (más de dos categorías) está ordenada de manera jerárquica.
¿Cómo medir? (Variable Nominal)
“Aquellas en las que los números o letras asignadas a los objetos sirven
como etiquetas de identificación o clasificación”

• Identificación: correspondencia estricta de uno a uno entre números y


objetos.
• Clasificación: los números sirven sólo como etiquetas para clases o
categorías (Categorías mutuamente excluyentes).
• Los número de la escala nominal no reflejan necesariamente cantidad.
• Permiten medir la frecuencia de aparición de una categoría
¿Cómo medir? (Variable Nominal)
Ejemplo:

Estado Civil Medios de Transporte


1= Soltero 1= Avión
2= Casado 2= Tren
3= Viudo 3= Barco
4= Divorciado 4= Camión
¿Cómo medir? (Variable Ordinal)
“Aquellas en las que se disponen las categorías en una relación
ordenada de acuerdo a su magnitud”

• Al igual que las escalas nominales, las ordinales clasifican. Sin embargo,
esta clasificación mantiene un orden .
• Este orden puede ser jerárquico (“mayor que o menor que”; “más alto que
o más bajo que”).
¿Cómo medir? (Variable Ordinal)
Ejemplo:
Nivel Socio-Económico
1= A/B
Estudios
2= C+
1= Básicos
3= C
2= Medios 4= C-
3= Superiores 5= D+
6= D
7= E
¿Cómo medir?
Variable Intervalo: en realidad de trata de una variable en cuya escala
de medida se empleó un intervalo. Su principal característica es que
ordena a los objetos de acuerdo a su magnitud diferenciando en
unidades con intervalos iguales.

• Nos permite identificar la diferencia entre dos objetos.

• Esta diferencia puede ser advertida gracias a que el salto en cada escala es
exactamente igual. De modo que la diferencia entre 1 y 2, es igual a la
presente en 3 y 4: la unidad
¿Cómo medir? (Variable Intervalo)
Ejemplo:

1= Totalmente en Desacuerdo Totalmente


Ni en
En Acuerdo ni Totalmente
2= En Desacuerdo en
Desacuerdo
Desacuerdo en
De Acuerdo
De Acuerdo
Desacuerdo
3= Ni en Acuerdo ni en Desacuerdo
1 2 3 4 5
4= De Acuerdo
5= Totalmente de Acuerdo
¿Cómo medir?
Variable Continua: llamada así por que emplea una escala de mediación que es un
continuo: 1, 2, 3, 4, 5,…,n . Esta escala también es conocida como escala de razón o
de relación y su principal característica es que su valores son absolutos y no
relativos.

• Posen todas las propiedades de las anteriores escalas.

• Se pueden clasificar los objetos, ordenarlos y compararlos.

• Entre los ejemplos más comunes encontramos: estatura, peso, edad y niveles de
renta.

• Ejemplo: Edad
¿Cómo medir?

Variables
Variables no
Métricas
Métricas
(Cuantitativas)
(Cualitativas)

Binaria Nominal Ordinal Continua Intervalo


Desviación
En estadística existen diferentes métodos para para calcular la distribución de
los valores: Distribución Normal, Asimetría, Curtosis.

Con estos métodos lo que nos interesa es conocer cómo se distribuyen los
valores. Es decir, qué tan diferentes son los valores con respecto al centro de
la distribución. En los cuartiles, por ejemplo, el centro de la distribución se
estima a través de la Mediana (la mitad de los datos). Sin embargo, también
se puede emplear a la Media como centro de distribución.

Si empleamos la Media como centro de distribución, entonces calculamos la


diferencia de cada uno de los valores con respecto a la Media, esto es lo que
se conoce como Desviación.
Suma de Errores al Cuadrado
Desviación al
Puntos Media Desviación Cuadrado (Suma de
errores al Cuadrado) En el siguiente ejemplo, usamos la Media como
22 95 -73 5329
la distribución central. Así pues, tenemos: 1)
Total de Puntos, 2) Media y 3) la diferencia entre
40 95 -55 3025
los dos (desviación).
53 95 -42 1764
57 95 -38 1444
Dado que la Media es el centro de la
93 95 -2 4 distribución, algunas de las Desviaciones serán
98 95 3 9 positivas y otras negativas. Si sumáramos las
103 95 8 64 desviaciones, entonces tendríamos que el total
108 95 13 169 de la dispersión es cero.
116 95 21 441
121 95 26 676 Para resolver este problema, las deviaciones se
234 95 139 19321
elevan al cuadrado obteniendo así la suma de
los errores al cuadrado
Total Errores al Cuadrado 32246
Varianza
Podemos emplear la suma de los Errores al Cuadrado como el total de la
dispersión (el total de la desviación de los valores con respecto a la media).

Sin embargo, el total de la dispersión es una medida un poco incómoda pues


no permite comparar muestras que difieran en tamaño. Por lo tanto, sería
útil trabajar con el promedio de la dispersión, esto es lo que se conoce como
varianza.

La Varianza es simplemente la suma de los errores al cuadrado dividida por


el número de observaciones (en realidad es entre N-1).
Desviación Estándar
Como hemos visto, la varianza es el promedio de la suma de errores al
cuadrado.

Sin embargo, hay un problema con la varianza como unidad de medida: ésta
ofrece cifras al cuadrado. Si continuamos con el ejemplo anterior, donde la
Suma de Errores al Cuadrado es 32246 al dividir esto entre N-1 (es decir 10),
tendríamos que la varianza es de 3224.6

Para asegurarnos de que la medida del error promedio esté en las mismas
unidades que la medida original, entonces es necesario sacar la raíz cuadrada
de la varianza (56.79). Esto es lo que se conoce como Desviación Estándar.
Desviación Estándar
Los errores al cuadrado, la varianza y la desviación estándar son medidas de dispersión o
distribución de datos alrededor de la media.

Así pues, una desviación estándar muy grande (relativa a la media) indica que los datos son distantes
a la media. Mientras que una desviación con valor CERO (por ejemplo) indicaría que todos los datos
se concentran en el mismo lugar.
Modelos Estadísticos
En ciencias Sociales el interés se concentra en responder a fenómenos
presentes en la vida real, ya sean comportamientos individuales o
comportamientos organizacionales.

Para explicar estos fenómenos colectamos datos que nos permitan


probar hipótesis y, para ello, se requiere de la construcción de un
modelo estadístico.
Modelos Estadísticos
Modelos Estadísticos
La ecuación más básica de un modelo estadístico

𝑟𝑒𝑠𝑢𝑙𝑡𝑎𝑑𝑜𝑖 = 𝑚𝑜𝑑𝑒𝑙𝑜 + 𝑒𝑟𝑟𝑜𝑟𝑖

Todo modelo está compuesto de parámetros (la media es un ejemplo


de ello) y variables. Por tanto:

𝑟𝑒𝑠𝑢𝑙𝑡𝑎𝑑𝑜𝑖 = 𝑏𝑋𝑖 + 𝑒𝑟𝑟𝑜𝑟𝑖


Ajuste del Modelo: Suma de Cuadrados y
Varianza
Como con cualquier modelo estadístico, es necesario evaluar el ajuste.
Para calcularlo se analiza la desviación (el error) de los datos respecto a
la media.

Esto es, lo que antes hemos llamado Suma de Errores al Cuadrado:

𝑛
(𝑥𝑖 −𝑋)2
𝑖=1
Ajuste del Modelo: Suma de Cuadrados y
Varianza
Como se vio anteriormente, la suma de cuadrados es una buena
medida de la precisión del modelo.

Sin embargo, también vimos que ésta depende de la cantidad de datos


que hayan sido colectados (a mayor número de datos, mayor la Suma
de Errores al Cuadrado).

Es por ello, que una mejor medida del ajuste del modelo es el
promedio de los errores al cuadrado; es decir la varianza.
Ajuste del Modelo: Suma de Cuadrados y
Varianza
Para calcular el promedio de errores al cuadrado (varianza) no
dividimos entre el total de observaciones sino que se divide entre los
grados de libertad (gl) que no es otra cosa que el número de
observaciones utilizadas para el cómputo menos uno (N-1).

𝑛
𝑆𝑆 (𝑥𝑖 −𝑋)2
Varianza = = 𝑖=1
𝑁−1
𝑁−1
Ajuste del Modelo: Suma de Cuadrados y
Varianza

En resumen, el ajuste del modelo puede


ser evaluado a través de los errores al
cuadrado o mediante la varianza. Ambos
dan una idea de qué tan bueno es el
ajuste.
Hipótesis
Ahora nos interesa saber cómo los modelos estadísticos nos ayudan a
evaluar nuestras preguntas de investigación. En otras palabras, cómo
estos modelos nos pueden ayudar a evaluar nuestras hipótesis de
investigación.

Las aseveraciones de investigación pueden ser divididas en hipótesis y


estas pueden ser divididas en dos tipos: Hipótesis Alternativa e
Hipótesis Nula.
Hipótesis
La Hipótesis Alternativa debe ser construida con base en la teoría, y esta
comúnmente declara la presencia de un efecto entre variables. La notación de la
hipótesis alternativa es 𝐻1

Por su parte, la Hipótesis Nula, cuya notación es 𝐻0, es lo opuesto a la hipótesis


alternativa y, comúnmente, declara la ausencia de un efecto entre variables.

H1: La importancia concedida a las marcas tiene un efecto en el amor a la


marca.
H0: La importancia concedida a las marcas no afecta en el amor a la marca
Hipótesis
¿Por qué necesitamos la Hipótesis Nula?

La razón es porque no podemos demostrar la hipótesis alternativa mediante la estadística.


Sin embargo, si podemos obtener evidencia para rechazar la hipótesis nula.

Los datos nos dan confianza para rechazar la hipótesis nula con lo que se provee soporte a
la hipótesis alternativa. Sin embargo, hay que ser conscientes de que aún y rechazando la
𝐻0 no se cuenta con evidencia que demuestre la 𝐻1. Así pues, lejos de hablar de aceptar o
rechazar hipótesis, deberíamos hablar de la probabilidad de que sea 𝐻0 cierta.

El convencionalismo es decir que se rechaza o no se rechaza la 𝐻0, pero nunca hablar en


términos de aceptación de la hipótesis.
Hipótesis
Las hipótesis pueden ser Direccionales o No-Direccionales. Una Hipótesis
Direccional declara que el efecto puede ocurrir, pero también declara la dirección
del efecto (es decir es positivo o negativo). Mientras que la Hipótesis No-
Direccional declara el efecto pero no indica la dirección en la que éste puede
ocurrir.

H1: La importancia concedida a las marcas tiene un efecto en el amor a la


marca.
H1: La importancia concedida a las marcas tiene un efecto positivo en el amor a
la marca.
Hipótesis (ejercicio)
Redacte la Hipótesis Nula y la Hipótesis Alternativa (direccional y no-direccional)
para las siguientes preguntas:

¿Existe una relación entre la voz de una persona y la belleza que transmite?

¿Hay una relación entre los programas de televisión y la demanda de una


carrera profesional?
Principios básicos detrás del Test de
Significancia de la Hipótesis Nula
1. Se asume que la hipótesis nula es cierta (es decir que no hay efecto)
2. Se hace el ajuste del modelo con los datos que representan la hipótesis
alternativa y se observa qué tan bien ajusta (en términos de la variación
explicada).
3. Para determinar qué tan bien el modelo se ajusta a los datos, se calcula la
probabilidad (llamada valor p) de conseguir ese modelo si la hipótesis nula
fuera cierta.
4. Si la probabilidad es muy pequeña (el criterio usual es .05 o menos)
entonces el modelo se ajusta bien a los datos (es decir, que explica mucha de
la variación en los datos) y se asume que la predicción inicial (la hipótesis
alternativa) es cierta
Test estadísticos
El Test de Significatividad de la 𝐻0 se basa en el ajuste del modelo a los datos y en la
evaluación de la probabilidad de este modelo dado el supuesto de que no existe
ningún efecto (en otras palabras de que la 𝐻0 es cierta).

Para entender esto es necesario comprender los conceptos de variación sistemática


y variación no sistemática.

La Variación Sistemática es toda aquella variación explicada por el modelo que


hemos ajustado a los datos. Mientras que la Variación no Sistemática es aquella
que no puede ser explicada por el modelo. En otras palabras, es el error o variación
no atribuible al efecto que estamos analizando.
Test estadísticos
La manera más simple de evaluar que el modelo se ajuste a los datos es
comparando la variación sistemática contra la variación no sistemática.

Haciendo esto tenemos un ratio muy simple que nos compara qué tan bueno es el
modelo frente a qué tan grande es el error.

𝑉𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎 𝐸𝑓𝑒𝑐𝑡𝑜


𝑇𝑒𝑠𝑡 𝑒𝑠𝑡𝑎𝑑í𝑠𝑡𝑖𝑐𝑜 = =
𝑉𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑛𝑜 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎 𝐸𝑟𝑟𝑜𝑟

Este ratio es llamado Test estadístico, a lo largo del curso veremos que hay
diferentes a modo de ejemplo: t, F, 𝜒2
Test estadísticos
Los Test estadísticos nos permiten calcular la probabilidad de obtener un
determinado valor. Esta probabilidad es el llamado valor p.

Si seguimos el convencionalismo del Test de Significatividad de la 𝐻0 , esta


probabilidad será p<.05 con esta probabilidad decimos que tenemos suficiente
confianza para asumir que el Test de significatividad es grande porque el modelo
explica suficiente cantidad de variación para reflejar un fenómeno. Así pues, se dice
que el test es significativo.

Sin embargo, si la probabilidad de obtener un Test estadístico tan grande como el


que tuviéramos si la hipótesis nula fuera cierta (esto es p>.05) entonces se dice que
el test no es significativo y se rechaza la hipótesis alternativa.
Test de una y dos colas

Hipótesis H1: La importancia concedida a Test de Una Cola


Direccionales las marcas tiene un efecto
positivo en el amor a la marca.

Hipótesis No H1: La importancia concedida a Test de Dos Colas


Direccionales las marcas tiene un efecto en el
amor a la marca.
Test de una y dos colas
Si tomamos como ejemplo una Hipótesis no Direccional, tendríamos tres
posibilidades:

𝐻1𝑎: La importancia concedida a las marcas aumenta el amor a la marca.


En este caso la diferencia entre quienes dan importancia a la marca, frente
a los que no le dan importancia, es positiva. Por lo que se presume una
relación positiva.

𝐻1𝑏: La importancia concedida a las marcas disminuye el amor a la marca.


En este caso la diferencia entre quienes dan importancia a la marca, frente
a los que no le dan importancia, es negativa. Por lo que se presume una
relación negativa.

𝐻0: La importancia concedida a las marcas no afecta en el amor a la


marca.
En este caso la diferencia entre quienes dan importancia a la marca, frente
a los que no le dan importancia, es cero. Por lo que se presume que no hay
relación.
Error del Tipo 1 y 2

En el contraste de hipótesis se puede incurrir en dos tipos de errores:


Error Tipo 1 y Error Tipo 2.

En el error del Tipo 1 la hipótesis nula se rechaza cuando en realidad es


cierta. Mientras que el error del Tipo 2 consiste en no rechazar la
hipótesis nula cuando en realidad es falsa.
Error del Tipo 1
Ocurre cuando creemos que hay un efecto genuino en nuestra
población, cuando en realidad no existe. Si utilizamos criterios
convencionales entonces, la probabilidad de ese error es de .05 (o lo
que es lo mimo 5%).

Si asumimos que no existe un efecto sobre la población, si replicamos


nuestros datos 100 veces, esperaríamos que en cinco ocasiones
pudiéramos obtener un test estadístico que nos haga creer que existe
un efecto genuino cuando en realidad no lo hay.
Error del Tipo 2
Ocurre cuando creemos que no hay un efecto en nuestra población,
cuando en realidad sí existe.

Esto puede ocurrir cuando obtenemos un test pequeño (quizá por que
hay mucha variación natural entre los miembros de la muestra).

La sugerencia es que el máximo aceptable del error del Tipo 2 debe de


ser .2 (20%). Esto quiere decir que si tomamos 100 muestras en las que
el efecto existe, esperaríamos que falláramos en detectar el efecto en
20 de esas muestras.
P>.05

¿Un resultado no significativo indica que la 𝐻0 es cierta?

En realidad no es así, si el p>.05 entonces se rechaza la hipótesis alternativa


pero esto no significa que la hipótesis nula sea cierta.

Un resultado no significativo nos dice que el efecto no es lo suficientemente


grande para ser advertido pero no nos dice que el efecto sea cero.

Esto puede deberse a muchas razones entre ellas: la muestra o la unidad de


medida o aproximación a una variable, entre otras.

También podría gustarte