Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Módulo 1
Presentación 1: Introducción
¿Qué es la estadística?
• La palabra Estadística procede del vocablo “Estado”, pues una de las funciones
principales de los Estados nacionales era establecer registros de población, nacimientos,
defunciones, impuestos, cosechas...
• Como disciplina científica, la estadística tiene su origen en la modernidad. Sin embargo,
hay evidencia de diversas sociedades, no todas occidentales, que han hecho uso de la
estadística:
– Primero: estadística de conteo para saber cuántos (censos desde la
Antigüedad -Mesopotamia, Egipto, China-; astronomía y cultivos de los Mayas; censos y
contabilidad de los Incas).
– Segundo: estadística de distribuciones condicionales para saber quiénes.
Ejemplo: tablas demográficas entre los siglos XVI-XVIII).
– Tercero: estadística de probabilidades para saber con qué probabilidad (error, tipos y su
distribución, muestreo e inferencia).
• El matemático ruso Andrei Kolmogorov la definió de forma axiomática a inicios del siglo
XX, aunque se encuentran indicios desde el siglo XVII con los juegos de azar.
SIGLO XXI
• El progreso tecnológico y el valor de la información ha desarrollado un
mercado de servicios de consultoría, asesoramiento, paquetes estadísticos…que hizo cada
vez más fácil la aplicación del análisis estadístico.
• En la era de la información y los registros de datos, mediante los tratamientos
adecuados, cualquier tipo de comportamiento humano es susceptible de ser
analizado.
– Todo comportamiento humano puede registrarse y construir datos a partir
de ellos: compras, movilidad, inscripciones...
• Las nuevas técnicas de procesamiento de datos engloban: 1) Volumen de datos. 2)
Velocidad de procesamiento de datos. 3) Variedad de vías para la extracción de datos- 4)
Valor ($) de la información. 5) Veracidad de resultados.
– BIG DATA
– ANÁLISIS ESPACIAL
– MACHINE LEARNING SYSTEM
EL ERROR
• El error proviene de (al menos) tres fuentes:
1. La selección de las variables para representar a los
conceptos.
2. El registro de las observaciones de las variables en los casos
seleccionados.
3. La selección de los casos o las observaciones.
• La ESB y la EI solamente se diferencian en el tratamiento que dan a la selección de los
casos o las observaciones (tercer error).
• A su vez, no podemos ignorar que las observaciones que hacemos están condicionadas
por nuestros órganos sensoriales, estados psíquicos, biografías, cultura, conocimientos
previos, instrumentos de estudio. Todos ellos son aspectos a intentar controlar y conocer su
incidencia en el estudio
SELECCIÓN DE LOS CASOS
• Las ideas actuales sobre la selección de las unidades a observar, incluso en los Censos,
consideran (estiman y calculan) cuál puede ser la probabilidad de que una unidad con
ciertos atributos pueda haber sido incluida.
• Se asume que el conjunto de unidades observadas (la “muestra”) pudo haber sido otra.
• La clave de una buena muestra es que los errores de muestreo NO sean sistemáticos,
sino aleatorios. De ser sistemáticos, estaremos ante un sesgo de selección en la muestra.
Módulo 2
INFORMACIÓN / MATRIZ
•La Información producida por el instrumento (cuestionario) a partir de una técnica de
investigación (encuesta) puede organizarse y archivarse (electrónicamente) en un formato
de matriz (o de matrices) de datos.
• La matriz ofrece una forma ordenada de trabajar sistemáticamente la información.
•El archivo (electrónico) en términos de matriz es susceptible de ser abierto y trabajado en
una aplicación informática con capacidad de procesamiento estadístico (Excel, STATA, R,
PSPP, SAS, SPSS, Tableau, etc.)
LA MATRIZ DE DATOS
Acciones previas al análisis:
• Limpieza de la base de datos (data cleaning) también llamada minería de datos.
•Acciones previas o durante el análisis:
• Transformación en columnas: recodificaciones y creaciones de nuevas variables.
• Transformación en filas: agregación de unidades o colapso de unidades.
•Creación de índice: combinación de información contenida en varias variables.
MATRIZ EN MATEMÁTICA
•Continuamos con la definición de arreglo rectangular de filas y columnas a partir de la
siguiente formalización.
•A las filas se las identifica con la letra “i”.
•Tal que i = 1,2,3,….N
•A las columnas se las identifica con la letra “j”.
•Tal que j = 1, 2, 3… P
ELEMENTO INDIVIDUALIZADO
•Un elemento individualizado es un dato de la matriz
•El elemento queda individualizado en una celda
•El elemento individualizado lo expresamos con una letra (X) e informando con dos
subíndices de filas (i) y columnas (j).
•El subíndice se construye con, primero, la fila y luego la columna de la celda identificada.
EN LA MATRIZ DE DATOS
• Renglones o filas
• Columnas
• Celdas o casillas
TIPOS DE UNIDADES
•Típicas:
•Individuos
•Hogares
•Organizaciones (liceos, hospitales, empresas, sindicatos, ONG,
partidos políticos, etc)
•Países
•Unidades territoriales:
•Viviendas
•Barrios
• Localidades o ciudades
•Regiones
•Departamentos, provincias, estados
TIPOS DE UNIDADES
•Unidades “abstractas”
•Leyes o proyectos de ley
•Convenios colectivos
•Conflictos sindicales
•Programas sociales (por ejemplo, para alivio a la pobreza)
•Textos escolares (por ejemplo, de lectura o matemática).
MUESTRA / UNIVERSO
•La matriz de datos contiene un conjunto de unidades de una misma especie pero la
especie puede no agotarse con el número de unidades incluidas en la matriz de datos.
•En ese caso, las unidades incluidas en la matriz de datos pueden conceptualizarse como
un subconjunto (muestra) dentro de uno más amplio al cual se le llama “población” o
“universo”.
LA ESTADÍSTICA BÁSICA…
•La estadística básica (de atributos y descriptiva) que se aborda en este curso no se ocupa
de la relación entre la muestra y el universo
•No toma en cuenta el proceso de selección de la muestra.
•No le interesa el error de muestreo.
•No le interesa hacer inferencias (generalizar).
CLASIFICACIÓN
•Establece clases o categorías.
•Agrupa objetos que comparten un atributo en común.
•Puede expresar cierta cantidad de un atributo.
•Compara
•Compara unidades de acuerdo a sus categorías, clases o valores.
•Las clasificaciones en estadística se hacen en el nivel más elemental de las variables: los
indicadores.
•El indicador es la expresión empírica más concreta del concepto observado. La información
registrada surge del indicador ya que éste señala cómo se midió la variable.
•Exhaustiva; Todas las unidades deben ubicarse en las categorías disponibles. Nada queda
fuera de la clasificación de categorías.
•Si el criterio es insuficiente o deja casos dudosos, puede agregarse una categoría “otros”.
•Excluyente: Una misma unidad no puede estar clasificada en dos categorías o clases
definidas por el mismo concepto
•Generalmente, está representada, aunque no necesariamente, por números.
Propiedades de los números reales: qué propiedades de los números reales representa el
concepto
TIPOS DE VARIABLES:
Por nivel de medición - No métricas (Nominales, ordinales) o métricas (Interval, de razón)
Por las categorías o valores - No métricas Discretas (dicotómicas y pluricotómicas) o
métricas (continuas)
ORDINALES
•El concepto para ser observado requiere distinguir y ordenar entre clases o categorías de
una variable.
•PROPIEDADES DE LOS NÚMEROS REALES: NOMBRE Y POSICIÓN EN LA RECTA DE
LOS NÚMERO REALES.
Ejemplo con “Nivel educativo”: Inicial, Primaria, Ciclo Básico, Media Superior y Superior.
• La asignación de números a categorías no es arbitraria porque existe isomorfismo entre
ambos conjuntos (números y categorías).
•Ejemplo: Inicial=1 / Primaria=2 / Ciclo Básico=3
•Exigencia lógica: operaciones de igual, mayor y menor.
VARIABLES MÉTRICAS
•El concepto para ser observado requiere como exigencia lógica:
Distinguir (al nombrar) entre clases o categorías.
Ordenar las clases o categorías.
Determinar la MAGNITUD entre los valores.
•Ejemplos: ingreso de una persona; edad de la persona; número de alumnos que asisten a
cada escuela; superficie que ocupa un establecimiento rural.
DOS TIPOS DE VARIABLES MÉTRICAS
• INTERVALES
Nombre
Orden
Distancia
El cero no es absoluto: se define por convención y puede no aparecer.
• RAZÓN
Nombre
Orden
Distancia
El cero es absoluto: conjunto vacío.
Nominales:
• El concepto para ser observado requiere solamente distinguir entre categorías. Por eso,
este nivel de medición solamente nombra (clasificación: igual o distinto).
• Por ejemplo: localidad de nacimiento, sexo, servicio de salud,
escuela a la que asistió, etc.
Ordinales:
• El concepto para ser observado requiere distinguir y ordenar (igual, mayor, menor) las
categorías de la variable.
• Por ejemplo: nivel educativo, calidad de los materiales del techo de la vivienda, grado de
acuerdo con el gobierno, orden de nacimiento de los hermanos, etc.
Estadística de atributos
• En el análisis estadístico de las variables no métricas (nominales, ordinales y dicotómicas)
usaremos las siguientes técnicas de estadísticas básicas:
• Tablas de frecuencias y gráficos para variables no métricas (Resumen de distribuciones
univariadas) o tablas de contingencia, gráficas para variables no métricas, coeficientes de
asociación (Resumen de distribuciones bivariadas o conjuntas)
FRECUENCIAS ABSOLUTAS
• Las frecuencias absolutas recuentan las observaciones o casos en cada categoría de una
variable no métrica.
CONVENCIONES
A. i= 1,2,3.4,... N
- i es el nombre genérico de una unidad de análisis
- N es el número total de unidades (filas) de la matriz de datos
B. J= 1,2,3,4,...P
- J es el nombre genérico de una variable
- P es el número total de variables (columnas) de la matriz de datos
C. k= 1,2,3,...L
- k es el nombre genérico de una categoría
- L es el número total de categorías en la j-ésima variable
Ergo,
nk es el número de unidades en la k-ésima categoria
FRECUENCIAS ACUMULADAS
En ocasiones, al trabajar con variables ordinales, puede interesarnos conocer las
frecuencias acumuladas hasta cierta categoría de interés.
Ejemplo: ¿Cuántos estudiantes asistían a establecimientos de entornos socioculturales
“Muy desfavorable” y “Desfavorable”?
• Es un estadístico que agrega frecuencias de categorías que están contiguas en la recta de
los números reales.
• Implica usar la propiedad de la posición de los números reales.
•Por ejemplo: “las dos categorías más bajas”; “las dos categorías más altas”; “las primeras
tres categorías, comenzando desde aquella que indica la peor situación”
• Las frecuencias acumuladas pueden aplicarse tanto a frecuencias absolutas como a
proporciones y porcentajes.
• ATENCIÓN: No tiene sentido aplicar frecuencias acumuladas cuando la variable es
nominal.
NORMALIZACIÓN
• Permite comparar muestras de diferentes tamaños y sacar conclusiones
• Permite retener mejor las magnitudes o el peso que tiene cada categoría
• Es la base de expresión de las “tasas” (por cien, por mil, por cien mil o por millón).
Presentación 6: Razón
Tipos de razón:
1. Proporción y porcentaje: una categoría en relación con el total de una variable
2. Relación entre categorías de una misma variable.
i. Momios (introducida como un caso particular de una relación entre las categorías de una
única variable dicotómica).
3. Razones entre variables distintas de una misma unidad de análisis
Por definición, las razones se pueden computar tanto en variables no métricas como en las
métricas.
Establece una relación que se computa a través de la operación matemática: “división”.
Dividir implica distribuir: Desde el punto de vista matemático, la razón es una medida
resumen general, con múltiples aplicaciones.
PROPORCIÓN Y PORCENTAJE
La proporción (p) es un tipo de razón que se calcula como el cociente entre la cantidad de
casos que tiene el atributo k y el recuento total N de casos de una misma variable.
● nK es el número de casos de la k-ésima categoría y N es el total.
Porcentaje: pk= nk/N 0>pk>1
Módulo IV
NOCIÓN DE HIPÓTESIS
• Las hipótesis son un componente del proceso de investigación y se las define como
respuestas tentativas o anticipadas, a las preguntas de investigación.
• En su forma léxica, las hipótesis son proposiciones o enunciados declarativos que: 1)
ponen en relación dos o más conceptos teóricos en forma de variables (X, Y, Z). 2)
Delimitan una temporalidad. 3) Afirman un sentido. 4) Afirman una magnitud de esa
relación.
• X= variable independiente (X1).
• Y= variable dependiente (X2).
• Z= variable interviniente (Z1, Z2, Z3…).
• Las hipótesis se construyen a partir del marco teórico, en el estado del arte y en la
información que tenemos sobre nuestro objeto de estudio.
• Las hipótesis se ponen a prueba empíricamente buscando falsear o descartar la
“falsación” de forma provisional “hasta nuevo aviso”.
ASOCIACION ≠ INDEPENDENCIA
• En una investigación se plantea:
• Hipótesis sustantiva (asociación provisional)
• Hipótesis nula (independencia estadística)
NOCIÓN DE DISTRIBUCIÓN CONJUNTA
• Cuando decimos que las hipótesis se contrastan empíricamente aludimos a observar cómo
se distribuyen las unidades entre las categorías de las variables consideradas en la
hipótesis.
• Por ejemplo, cómo se distribuyen las unidades (Ej.: personas) entre las categorías (Ej.:
mujer/varón y pobre/no pobre) de las dos variables consideradas (Ej.: sexo y pobreza)
• A esta operación, que resumen los datos de la matriz, se le llama distribución conjunta o
distribución simultánea (conjunta) de las variables de estudio.
TABLAS DE CONTINGENCIA
Método de trabajo:
1. Hipótesis
2. Construcción de la tabla de contingencia: frecuencias
absolutas conjuntas.
3. Porcentualización de la tabla
4. Lectura porcentual
FORMULACIÓN DE LA HIPÓTESIS
• Hipótesis sustantiva (asociación provisional)
• Ej: Los jóvenes que cursaron Educación Media de tipo Técnica (ET) tienen, en más alta
proporción, un Primer Empleo formal (EF) que aquellos jóvenes que cursaron Educación
Media de tipo bachillerato diversificado (BD).
• Hipótesis nula (independencia estadística)
• Ej: No existe relación entre el tipo de Educación Media cursada y el tipo de Primer Empleo
logrado.
• ATENCIÓN: se contraponen las dos categorías (ET y BD) de la variable (EDUCACIÓN)
con una categoría (EF) de la variable (PRIMER EMPLEO).
• Se analizan las categorías de las variables.
ASOCIACIÓN
• El análisis de asociación consiste en comparar la distribución esperada (DE) (hipótesis
nula) con una distribución observada (DO) (información relevada por la investigación).
• A partir de la comparación (entre DE y DO), es posible falsear la hipótesis nula o, en otras
palabras, “aceptar” provisionalmente la hipótesis sustantiva.
• La independencia estadística entre las variables es conocida con el nombre de hipótesis
nula.
• La asociación estadística entre las variables es conocida como hipótesis sustantiva.
• Descartamos la independencia estadística a medida que aumenta la diferencia entre la
distribución conjunta esperada y la distribución conjunta observada
Presentación 8: Frecuencias esperadas y Chi2
CONVENCIÓN
• Usaremos la letra “o” para referirnos a las frecuencias observadas (absolutas o simples)
que contienen las celdas de la tabla de contingencia.
• Usaremos la letra “e” para referirnos a las frecuencias esperadas de las celdas.
• Usaremos la letra “d” para referirnos a las discrepancias o diferencias entre las o y las e en
cada una de las celdas las celdas.
• Mantendremos la letra “N” para indicar el total de casos de la tabla.
• Mantendremos la letra “n” para indicar el total de cada fila o columna.
EJEMPLO
COMPARACIÓN
• Hipótesis sustantiva: la asistencia a la educación formal entre
depende del sexo.
• Hipótesis nula: las variables sexo y asistencia a la educación formal son independientes.
• Las variables son independientes en la medida en que la proporción de asistentes P(A) en
el total de la población sea la misma que en la subpoblación de mujeres y en la
subpoblación de varones.
• En otras palabras, el sexo (varón o mujer) no condiciona la distribución de la variable
asistencia
• 𝑃 (𝐴) = 𝑃 (𝐴/𝐵) = P (𝐴/𝐵′)
• Dos tablas:
• La tabla de frecuencias observadas que surgen de contar en la matriz
• La tabla de frecuencias esperadas que surge de la hipótesis de independencia
DISCREPANCIA
• Planteamos la asociación como discrepancia (𝒅𝒓𝒄).
• Discrepancia entre la Frecuencia Observada (o) y la Frecuencia Esperada (e) para cada
celda de la tabla.
• Si hubiera independencia las frecuencias observadas en la tabla de contingencia para
cada celda serían iguales a las frecuencias esperadas que han sido computadas
• Para contrastar la independencia hay que observar la comparación entre todas las celdas
y no sólo una celda