Está en la página 1de 19

UNIVERSIDAD DE NARIÑO

MAESTRIA EN EDUCACION

SEMNARIO DE INVESTIGACION III


ANALISIS DE LA INFORMACION

ORIENTADOR: ARSENIO HIDALGO TROYA


CONTENIDO DEL MODULO:

1. Una visión general de la estadística


1.1 Qué estudia la estadística?
1.2. El objeto de la estadística
1.3. Variables estadísticas
1.2. Hipótesis estadísticas
1.2. Algunos conceptos básicos

2. Métodos Estadísticos Univariados


2.1. Técnicas gráficas
2.2. Técnicas numéricas
3. Métodos Estadísticos Bivariados
3.1. Técnicas gráficas
3.2. Técnicas numéricas
4. Métodos Inferenciales
4.1. Estimación
4.2. Pruebas de significancia
5. Manejo de procesos básicos de SPSS
5.1. Estructura del programa
5.2. Manejo de procesos básicos: manejo de archivos, base de datos,
manejo de datos, procesos estadísticos
1. UNA VISIÓN GENERAL DE LA ESTADISTICA

1.1 QUE ESTUDIA LA ESTADÍSTICA?

Supongamos que deseamos comprobar la incidencia del un programa


de capacitación docente en matemáticas sobre el rendimiento escolar
en las Instituciones Educativas de nivel secundario en el Municipio de
Pasto. Para medir el efecto del programa observaríamos el
rendimiento promedio en matemáticas al final del programa. Dada la
imposibilidad de brindar capacitación a todos los docentes de
matemáticas del municipio tendríamos que limitarnos a una muestra
de los mismos. El interés de la muestra residirá en la información que
pueda proporcionar acerca de la población.

Con la finalidad de resumir la información que contiene la muestra


sobre la naturaleza de la información, la primera fase de cualquier
análisis estadístico será la descripción de la muestra. La estadística
descriptiva aborda el problema de sintetizar la información revelada
por los datos, sin plantearse objetivos de naturaleza inductiva. La
extrapolación de los resultados de la muestra a la población será el
contenido de la inferencia estadística, cuyo objetivo es inferir
conclusiones que se refieran a la población global, así como
proporcionar medidas que permitan cuantificar el grado de confianza
que podemos tener en tales conclusiones.

La recolección, análisis y comunicación de información estadística


contribuye a la construcción y solidificación de un cuerpo común de
conocimiento.

La Estadística estudia los métodos cuantitativos para la interpretación


y análisis de datos de una o más variables y la extrapolación de los
resultados de una muestra aleatoria a la población de la cual se
seleccionó.

Campos de Aplicación: Muchos campos de la Ciencia y Tecnología


En el campo de la Educación:

 Área de la Investigación Educativa


 Área Administrativa o Gerencial (planeación y toma de
decisiones)

1.2. EL OBJETO DE LA ESTADÍSTICA

El desarrollo de los métodos estadísticos tiene por objeto o función:

a. Describir de manera resumida el comportamiento de los datos de


una o más variables (Estadística Descriptiva).

Los métodos descriptivos univariados están encaminados a


establecer la tendencia en los datos, en dos sentidos; una asociativa
o de centralización y una disociativa o de dispersión, que se
superponen.

Para establecer ésta tendencia se han desarrollados dos técnicas


estadísticas: Gráficas y Numéricas; teniendo en cuenta la naturaleza y
la escala de medición de la variable que se analiza.

Para variable cuantitativa:

 Gráficas: - Distribuciones o tablas de frecuencia


- Gráficos estadísticos

 Numéricas: - Medidas de Localización


- Medidas de variabilidad
- Medidas de forma

Para variable cualitativa:

 Gráficas: - Distribuciones o tablas de frecuencia


- Gráficos estadísticos

 Numéricas: - Medidas de Frecuencia


Los métodos descriptivos bivariados están encaminados a establecer
la asociación entre dos variables a partir de las dos técnicas Gráficas
y Numéricas, en las cuales se tiene en cuenta igualmente la
naturaleza de las variables.

Los métodos descriptivos multivariados están encaminados a


establecer la dependencia o interdependencia entre más de dos
variables.

b. Inferir o extrapolar a toda la población los resultados obtenidos al


observar una o más variables en una muestra representativa
(aleatoria) de la misma (Estadística Inferencial).

Inferencia estadística
Muestra Aleatoria -------------------------------- > Población

Método Inductivo basado en la Teoría de Probabilidades

La inferencia estadística es el proceso por el cual pueden


establecerse conclusiones en relación con una población a partir de
los resultados observados en una muestra aleatoria, apoyado en la
teoría de probabilidades.

La inferencia estadística la podemos realizar a partir de:

 La estimación de uno o más parámetros de la población


 La realización de pruebas de significancia estadística

La estimación consiste en determinar el valor aproximado del


parámetro de una población, con un nivel de precisión fijado en
términos de probabilidad, a través de un intervalo de valores,
denominado este último el intervalo de confianza, obtenido con la
información (estadísticos) de una muestra aleatoria.

Una prueba de significancia estadística consiste en determinar


probabilidad de que el resultado que se observa en la muestra o uno
aún más extremo es atribuible al azar (nivel de significancia) y
establecer si esta probabilidad es tan pequeña (inferior al 5%) que
podemos considerar como valida la extrapolación de los datos de la
muestra a la población objeto de estudio, es decir reportar un
resultado estadísticamente significativo. Pruebas t, F, Chi cuadrado.

Existen dos tipos de pruebas estadísticas: paramétricas y no


paramétricas, las primeras exigen ciertas propiedades en los datos
analizados (independencia, normalidad y homocedasticidad) y solo
son aplicables a variables cuantitativas. Las segundas no exigen las
dos últimas propiedades mencionadas en los datos y existen pruebas
para variables cuantitativas y cualitativas.

CLASIFICACION: a. ESTADISTICA DESCRIPTIVA


b. ESTADISTICA INFERENCIAL

1.3. VARIABLES ESTADISTICAS

Una Variable es una característica o atributo que se observa en las


unidades de una población y que es susceptible de medición o
clasificación. Presenta diferentes estados o valores.

Variable conceptual  estatus social

Variable estadística  Ingresos, escolaridad, estrato social, etc.

OPERACIONALIZACION
Variable Conceptual ----------------------------- > Variable Estadística

CLASIFICACION:

1. SEGÚN SU NATURALEZA:

 Cualitativa: Expresa una propiedad o cualidad que un


sujeto posee o no
 Cuantitativa: Describe una característica en términos de
una cantidad. Variables Continuas - Discretas

2. SEGÚN SU ESCALA DE MEDICION:

 Nominal: los valores de la variable denotan presencia o


ausencia de una cualidad

 Ordinal: los valores de la variable denotan un orden,


jerarquía o nivel

 De intervalo: de naturaleza cuantitativa, cero es relativo

 De razón o proporción: de naturaleza cuantitativa, cero es


absoluto

3. SEGÚN LA RELACION EN EL ESTUDIO:

 Dependiente: sus variaciones dependen de las variaciones


de otra(s) variable(s). Variable respuesta o efecto en el
experimento

 Independiente: sus valores en un estudio específico no


están influidos por los cambios de otra(s) variable(s)
relacionada(s) en el mismo. Variable control en el
experimento.

 Interviniente: variable que afecta a la variable dependiente


de manera indirecta, no se controla en el experimento.

Categorización de las variables: Para estudiar el comportamiento de


una variable la información obtenida se debe agrupar por categorías o
intervalos. Para variables cualitativas esta categorización se da
antemano, ej. género, estado civil, etc. Para variables cuantitativas se
deben definir las categorías o intervalos en los que se han de agrupar
los datos, ej. Grupos de edad
Reglas de clasificación:
- Exhaustiva
- Excluyente

1.4. LAS HIPÓTESIS ESTADISTICAS

Las hipótesis son proposiciones o afirmaciones que se deben someter


a prueba para establecer su validez o falsedad

Las Hipótesis se derivan de los objetivos, que serán pertinentes si los


objetivos tienen un carácter explicativo o predictivo, es decir, cuando
se pretende conocer la relación entre variables o una variable con
valor de referencia.

La hipótesis contiene 3 elementos:

- Unidades de observación (sujetos u objetos)


- Variables
- Dirección de la relación

Una misma hipótesis se puede formular de dos maneras: como


hipótesis de trabajo y como hipótesis estadística. La primera se
redacta como una afirmación directa y es de fácil comprensión, no
obstante no se puede verificar directamente, exige que previamente
sus variables sean cuantificadas. La segunda, la hipótesis estadística
se formula en términos de un parámetro poblacional, bien sea con
respecto a un grupo o a la comparación de dos o más grupos. Existen
dos tipos de hipótesis estadísticas, la hipótesis nula (Ho) que anticipa
la no diferencia o niega la asociación entre variables o especifica que
las diferencias observadas pueden ser debidas al azar. La hipótesis
alternativa (H1) es la negación de la anterior. La hipótesis que se
somete a prueba es la hipótesis nula con el propósito de ser
rechazada.

Según la dirección que tiene la relación entre las variables las


hipótesis pueden ser unilaterales (o de una cola) cuando la relación
en la hipótesis alterna tiene una sola dirección (> ó <) y bilaterales (o
de dos colas) cuando la relación incluye el signo no igual (> = ó < =).
1.5. ALGUNOS CONCEPTOS BASICOS

DATO: Registro de una variable producto de su medición o


clasificación. Insumo fundamental de la información y el análisis
estadístico.

REGISTRO: Conjunto de datos (campos) relacionados pertenecientes


a un individuo o unidad de información.

CAMPO: Atributo que se mide u obtiene en un individuo o unidad de


información.

INFORMACIÓN: Es el resultado del procesamiento de los datos.

BASE DE DATOS: Colección o estructura de datos organizados en


tablas y compuesta por registros y campos.

SISTEMA DE INFORMACIÓN: Estructura o conjunto de unidades de


información que interactúan entre sí y compuesto por entradas,
procesos y salidas.

POBLACION: Colección de individuos o unidades que poseen uno o


más atributos en común, que son objeto de estudio.

CENSO: Proceso mediante el cual se mide o clasifica todas las


unidades de una población.

MUESTREO: Proceso mediante el cual se mide o clasifica las


unidades de una parte de la población.

MUESTRA: Parte de una población que se selecciona mediante algún


criterio válido o por un mecanismo casual.

- Muestra representativa: Muestra que guarda las mismas


características de la población. Los resultados son
extrapolables a la población.

- Muestra aleatoria: Muestra en la cual toda unidad de la


población tiene una probabilidad conocida, diferente de cero, de
ser incluida en la muestra. Tiene muchas ventajas, elimina los
sesgos que se pueden presentar al escoger las unidades con
favoritismo, permite calcular el error de muestreo y la
confiabilidad de los datos y además, casi todas las técnicas
estadísticas se basan en el muestreo al azar. Para el muestreo
aleatorio están disponibles varios procedimientos de acuerdo
con la población y las unidades objeto de la selección.

- Muestra no aleatoria: se aplica en estudios exploratorios o de


tipo cualitativo. No permite determinar el margen de error ni el
nivel de confiabilidad de la información obtenida en la muestra.
Muestreo por cuotas, bola de nieve, por conveniencia.

ALEATORIEDAD: (o AZAR), cuando bajo las mismas condiciones se


obtiene diferentes resultados. Un suceso ocurre en desorden,
atribuible a muchos factores, que se dice, son producto del azar.

PARAMETRO: Valor o medida que caracteriza a una o más variables


a una población, generalmente es desconocido. Se denotan con
letras de alfabeto griego.

ESTADIGRAFO: Valor que caracteriza a una o más variables en una


muestra. Se utiliza como estimador del parámetro correspondiente en
la población. Se denotan con letras de alfabeto español.

PROBABILIDAD: Valor, de 0 a 1, que mide el grado de certeza de la


ocurrencia de un suceso o evento

SIGNIFICANCIA ESTADISTICA: Permite establecer si los resultados


de un muestra aleatoria son atribuibles o no al azar.

ERROR ALEATORIO: Es el error que produce el comportamiento


impredecible y caprichoso del azar. Afecta la validez externa de un
estudio.

SESGO: Es el error que se produce de manera sistemática y puede


ser controlado en un estudio, afecta su validez interna. De acuerdo a
su origen existen tres tipos de sesgos, de información, de selección y
de confusión.
EXACTITUD: Diferencia entre el parámetro de la población y el
estadígrafo correspondiente obtenido en la muestra (error estándar).

PRECISION: Está determinada por la variabilidad que presentan las


mediciones de una misma variable en diferentes unidades (coeficiente
de variación).

CONFIABILIDAD: Mide la probabilidad de que los resultados


obtenidos en la muestra estén dentro del margen de error que se
asume en un estudio.

1.5. LA NATURALEZA ELECTRONICA DE LOS DATOS

DATOS -------------> INFORMACIÓN --------------> CONOCIMIENTO

Procesamiento Electrónico de datos -------------> Métodos Estadísticos


avanzados

Paquetes Estadísticos: EpiInfo, StatGraphics, SPSS, SAS, BMDP,


Minitab, Systat, Stata.
2. METODOS UNIVARIADOS

2.1. TABLAS Y GRAFICOS:

Distribuciones de frecuencia: Son tablas que organizan los datos en


intervalos de clases (variables cuantitativas) o categorías (variables
cualitativas). En cada clase se establece el número o porcentaje de
casos llamado frecuencia. Deben llevar un título y la fuente de
información.

Las distribuciones de frecuencia tienen como fin:

- Hacer visible la distribución de la variable estudiada e identificar su


forma y tendencia.

- Establecer el tipo de distribución estadística que se ajusta a la


distribución empírica de los datos relativos a la variable estudiada.

Gráficos estadísticos: Representación gráfica de los datos.

Tipos de gráficos: - Diagrama de Barras y circulares


- Histograma
- Polígono de frecuencias (curva de frecuencias)
- Gráfico de líneas o de tendencias
- Diagrama de puntos
- Diagrama de Cajas
- Hojas y tallos.

Cuando se trabajan con gráficos vale la pena tener en cuenta lo


siguiente:

1. Un gráfico debe contribuir a que el material presentado sea más


compresible.
2. Es necesario rotular claramente los ejes e indicar las unidades de
medida.
3. Las escalas en los ejes son muy importantes.
2.2. MEDIDAS DE FRECUENCIA:

Tasas, proporciones y razones.

Razón: índice que permite comparar dos cantidades de naturaleza


diferente con el propósito de expresar una relación existente entre
ellas (a/b). Ejemplo: Índice de Masculinidad.

Proporción: Medida que expresa la frecuencia con la que se presenta


cierto evento con respecto al total de unidades observadas, en otras
palabras es una medida que expresa la relación de una parte con el
todo (a/(a+b)). Ejemplo: En una muestra de 200 personas 20 son
hipertensas, proporción de hipertensas es de 10%.

Tasas: Medida que expresa la frecuencia con que se presenta un


determinado evento en el tiempo. División entre dos cifras, el
numerador es el número de individuos que presenta el evento en un
determinado periodo de tiempo y lugar y el denominador es el total de
individuos expuesto al evento (población a riesgo) en ese mismo
periodo de tiempo y lugar (a/b x k). Ejemplo: tasa de mortalidad
infantil.

Tasa general (cruda, bruta o global): hace referencia a la población


general sin tener en cuenta ninguna característica (edad, género, etc.)
Tasa de mortalidad en Pasto, año 2005.

Tasa específica: Cuando se quiere analizar un indicador teniendo en


cuenta otras variables que estratifican la población como edad,
género, e. civil, etc. Ejemplo: tasa de mortalidad en mujeres.

2.3. MEDIDAS DE LOCALIZACION:

Miden la centralización y posición de los datos.

- Media aritmética ( X ): Promedio de los datos, es su centro de


gravedad, es la medida mas utilizada para variables cuantitativas.
Ventaja: para calcularla se utiliza toda la información disponible.
Desventaja: es muy sensible a valores extremos.
- Mediana (Me): Medida que divide a los datos en dos partes iguales,
valor alternativo a la media aritmética. Ventaja: no es sensible a
valores extremos. Desventaja: no utiliza toda la información disponible.

- Moda (Mo): Valor que más se repite en una serie de datos. Tiene las
mismas ventajas y desventajas de la mediana, pero además tiene la
desventaja de que puede no existir o presentarse mas de una moda.

- Cuantiles: Valores que dividen a los datos en k partes iguales:


Cuartiles, deciles y percentiles.

2.4. MEDIDAS DE VARIABILIDAD (o de Dispersión):

Miden la variación o concentración de los datos con respecto a un


valor central.

- Rango (R): Diferencia entre el valor máximo y el mínimo de los


datos.

- Rango intercuartílico (IQ): Diferencia entre el cuartil superior y el


inferior.

- Varianza (S2): Promedio de desviaciones cuadráticas de los datos


con respecto a su media aritmética

- Desviación típica (S): o estándar, mide el grado desviación de los


datos respecto a su centro de gravedad (media)

- Coeficiente de variación (CV): Mide la desviación relativa de los datos


con respecto a la dimensión de los mismos

2.5. MEDIDAS DE DISTRIBUCIÓN:

Miden la forma como se distribuyen los datos alrededor de la media.

- Coeficiente de Asimetría (CA): Mide el grado de asimetría o el sesgo


de los datos respecto de la media.
- Coeficiente de Curtósis (CC): Mide la concentración de los datos en
torno a la media.

DISTRIBUCION DE GAUSS (NORMAL)

CARACTERISTICAS GENERALES

 Es una distribución continua de probabilidades.


 La media y la desviación estándar o típica definen la curva normal.
 Tiene forma acampanada.
 Es simétrica.
 Es asintótica.
 En educación muchas distribuciones la siguen, ejemplo: Puntajes
en una prueba o test de conocimiento, rendimiento académico, etc.
 El área máxima bajo la curva es igual a 1.
 Se puede determinar el área entre dos puntos: Está área expresa la
probabilidad de que ocurran valores entre dichos puntos.

 CURVA NORMAL ESTANDAR

Es una tabla de áreas (probabilidades) de una curva normal


centrada en cero (  = 0) y desviación estándar igual a 1 (  =1 ).

Para el cambio de escala se emplea la conversión Z mediante la


ecuación:

Z
X 1  X  ó Z
X1   
S 

AREAS BAJO LA CURVA

El área bajo la curva permite calcular probabilidades. La curva normal


abarca las siguientes áreas

X +/- 1S = 68.2
X +/- 2S = 95.4
X +/- 3S = 99.7
2.6. ESTIMACIÓN
2.6.1. Estimación de la media
2.6.2. Estimación de la proporción

2.7. PRUEBAS DE HIPOTESIS


2.7.1. Prueba de hipótesis para la media
2.7.2. Prueba de hipótesis para la proporción
3. MÉTODOS BIVARIADOS

El análisis bivariado de datos se realiza con el fin de establecer


asociación entre las variables.

3.1. ASOCIACIÓN ENTRE DOS VARIABLES CUALITATIVAS

Método: Gráficos
Tablas cruzadas (de contingencia): Se utilizan para establecer
asociación entre variables cualitativas

Gráficos: Barras compuestas o superpuestas

Medidas (coeficientes) de asociación: Miden la intensidad con que


se asocian dos variables cualitativas

Para variables en escala nominal, coeficientes:

Contingencia
Phi y V de Cramer
Lambda
Incertidumbre

Los anteriores coeficientes varían entre 0 y 1

Para variables en escala ordinal:

Gamma
D de Sommers
Tau c y Tau b de Kendall
Goodman
Spearman

Estos coeficientes varían entre -1 y +1

Otros coeficientes son:


Kappa
Mcnemar

Pruebas de Hipótesis: Chi Cuadrado

3.2. ASOCIACIÓN ENTRE DOS VARIABLES CUANTITATIVAS

Método: Análisis de Correlación y Regresión Lineal

Gráfico: Diagrama de dispersión o nube de puntos

Medidas de asociación: Permiten establecer el grado de asociación o


relación entre dos o más variables

- Coeficiente de correlación de Pearson (r): Mide la intensidad de la


asociación entre dos variables cuantitativas (-1 a 1).

- Coeficiente de determinación (r2): Mide en que porcentaje las


variaciones en la variable dependiente están explicadas por las
variaciones en la variable independiente (0 a 100).

Pruebas de Hipótesis: t de student, ANOVA

3.3. ASOCIACIÓN ENTRE VARIABLES CUANTITATIVA Y


CUALITATIVA

3.3.1. V. DEPENDIENTE CUANTITATIVA, INDEPENDIENTE


CUALITATIVA

Método: Análisis de de Varianza - ANOVA

Gráfico: Diagrama de cajas o medias

Medidas de asociación: Miden la intensidad con que se asocian dos


variables cualitativas, coeficiente ETA

Pruebas de Hipótesis: ANOVA- F


3.3.2. V. DEPENDIENTE CUALITATIVA, INDEPENDIENTE
CUANTITATIVA

Método: Análisis de Regresión Logística

Medidas de asociación: miden la intensidad con que se asocian las


dos variables, coeficiente OR (Odds Ratio)

Pruebas de Hipótesis: Wald