Estadistica Basica

Estadística básica
Estructura de contenidos.
Introducción..................................................................................3
Mapa............................................................................................4
1. DEFINICIONES BÁSICAS..............................................................5
1.1. Población...........................................................................5
1.2. Parámetro..........................................................................6
1.3. Muestra.............................................................................8
1.4. Estadístico.........................................................................8
1.5. Error muestral o error absoluto.............................................9
1.6. Sesgo muestral................................................................ 10
1.7. Estadística descriptiva....................................................... 10
1.8. Estadística inferencial........................................................ 11
1.9. Variable........................................................................... 12
2. MEDIDAS DE TENDENCIA CENTRAL.............................................13
2.1. La media......................................................................... 14
2.2. La mediana...................................................................... 15
2.3. La moda.......................................................................... 15
2.4. Ejemplo del cálculo de las medidas de tendencia central......... 16
2.4.1. La media..................................................................16
2.4.2. La mediana..............................................................16
2.4.3. La moda...................................................................17
2.4.4. Interpretación y comparación...................................... 17
1
FAVA - Formación en Ambientes Virtuales de Aprendizaje SENA - Servicio Nacional de Aprendizaje
3. TABULACIÓN DE DATOS............................................................18
3.1. Tabulación según tipo de variables ..................................... 18
3.1.1. Tabulación para variables cualitativas........................... 18
3.1.1.1 La frecuencia absoluta (símbolo: f ó n):.......................... 18
3.1.1.2 La frecuencia relativa (fr) o proporción: .......................... 18
3.1.1.3 El porcentaje (P o %): ................................................. 18
3.1.1.4 Las frecuencias acumuladas (ΣΣΣ f ó ΣΣΣ n): ................ 19
3.1.2. Tabulación de variables cuantitativas............................ 19
Glosario................................................................................. 23
2
Introducción
La estadística alguien la definió como la ciencia de la medida. Este

concepto de medida llega a ser tan importante que podemos preguntarnos
en términos comerciales por la distancia que puede haber entre un
consumidor de vehículos marca A y un consumidor de vehículos marca B.
La estadística es pues uno de los campos científicos que más aportes puede
hacerle a una organización que necesita medirse. Puede el estudiante
preguntarse, ¿qué sería de la logística, si no existieran procesos de
medición? “Lo que no se mide no se conoce”, reza en un adagio popular.
¿Se pueden disminuir los costos de un proceso productivo, si antes no he
medido los factores que afectan los costos de dicho proceso?
Bienvenido a una de las ciencias más interesantes y necesarias por parte

de las empresas en un mundo tan competitivo como el de hoy. Como en
todo campo científico se necesita de un lenguaje especial y la estadística
no es la excepción. Iniciaremos nuestra fundamentación conceptual con
unos términos vitales a la hora de conocer y poder aplicar la estadística
3
Mapa
4
1. DEFINICIONES BÁSICAS
Antes de entrar a definir conceptos

básicos de la estadística, debemos
saber que la estadística es la parte
de las matemáticas que se encarga
del estudio de una determinada
característica en una población,
recogiendo los datos, organizándolos en
tablas, representándolos gráficamente y
analizándolos para sacar conclusiones de
dicha población.
1.1. Población
Se denomina población al conjunto

de datos completos de interés para el
investigador. Este concepto se asocia al de
universo. Es muy importante establecer
una referencia a la hora de definir una
población.
Ejemplo
5
Un investigador en logística dentro de un estudio de la

caracterización de la logística en Bogotá, podría estar
interesado en el porcentaje de empresas del sector
marroquinero que aplican de manera formal la logística en
sus procedimientos cotidianos. Para conocer esta medida
(en este caso un porcentaje), se deberá conocer de cada
empresa del sector marroquinero de Bogotá, si aplican o
no la logística. El conjunto de todas las respuestas de cada
una de las empresas marroquineras forman la población.
Si se supone que en Bogotá, existen 343 empresas del
sector marroquinero, nuestra población estará formada
por un listado de 343 respuestas: SÍ o NO
No Si
1.2. Parámetro
Antes de entrar a definir conceptos Un

parámetro es cualquier medida descriptiva
de una población. En el ejemplo anterior,
el porcentaje de empresas del sector
marroquinero de Bogotá, es un ejemplo
de parámetro. Otros ejemplos de
parámetros podrían ser:
Ejemplo
6
•El total de bultos de café exportados por Colombia en el mes pasado.
•El mínimo de las tarifas de almacenamiento aplicadas por una determinada

agencia de aduanas, el año anterior.
•Los ingresos medios de todos los trabajadores en Colombia.
•La máxima tarifa aeroportuaria aplicada a todos los embarques realizados

por TTX y Cía. LTDA, en el último trimestre.
•Índice de inflación en Colombia en el último mes.
•El total de aspirantes a técnicos en Logística en el SENA a nivel nacional.
•El total de aspirantes a técnicos en Logística en el SENA en la región

Caribe.
Si tenemos en cuenta que una población debe reunir los

datos de interés completos y un parámetro mide a una
población, no deberá ser fácil conocer los parámetros.
Efectivamente, en el mundo empresarial esto es una
realidad retadora a la hora de tomar decisiones alrededor
de parámetros: las poblaciones son muy grandes e incluso
infinitas y por lo tanto no se puede tener acceso a ellas.
fe
Ca
7
1.3. Muestra
Es un subconjunto de la población. Una

muestra se obtiene debido a lo complejo
que sería poder contar con las poblaciones,
la mayoría de las ocasiones.
1.4. Estadístico
Es una medida descriptiva de la muestra.

Es un concepto “simétrico” con respecto al
de parámetro. Pues ambos son medidas
descriptivas, pero el estadístico mide a
una muestra. En ocasiones el estadístico
sirve para estimar el parámetro. Un
gerente de marca, necesita conocer
la proporción del mercado colombiano
de salsas de tomate que compran su
producto, el parámetro. Evidentemente
conocer este parámetro generaría unos
costos y logística bastante complejos.
Este gerente estaría muy interesado en
obtener una estimación de la participación
del mercado, el estadístico.
Situaciones
8
Cuando se obtiene una muestra el investigador puede estar

en cualquier de estas dos situaciones:
• Estimar un parámetro desconocido de la población. Es decir

generalizar los resultados de la muestra a la población. Esta
expansión de los estadísticos a la población se denomina
INFERENCIA.
• Hacer un análisis solo dirigido a la muestra, sin ninguna

pretensión extendida a la población. ¡Cuidado con esto!
para que una muestra tenga la posibilidad de poder inferir
sobre el parámetro desconocido de la población, esta
muestra debe ser probabilística.
1.5. Error muestral o error absoluto
Es la diferencia entre el parámetro

desconocido de la población y un
estadístico. Es inminente la aparición del
error muestral una vez se selecciona la
muestra.
9
1.6. Sesgo muestral
La tendencia a tener más datos con

solo unas características de la población
y menos de otras características de
dicha población. El efecto del sesgo es
producir mayor error. Uno de nuestro
peores enemigos al tratar de estimar un
parámetro.
1.7. Estadística descriptiva.
Son los procedimientos realizados a una

muestra o población que a través de
medidas, cuadros o gráficos permiten
deducir información. La estadística
descriptiva es extremadamente
importante para cualquier tipo de
análisis de datos que se quiera realizar,
muchas veces con solo ella se cumplen
los objetivos de muchos estudios. Nunca
pretende inferir.
10
1.8. Estadística inferencial
Es un procedimiento inductivo basado en

mediciones de la incertidumbre y lo que
pretende es generalizar los resultados
de una muestra a la población de donde
proviene dicha muestra.i
“Llegará el día en el que el pensamiento

estadístico será una condición tan
necesaria para la convivencia eficiente
como la capacidad de leer y escribir” —
H.G. Wells.
Hasta este momento, usted ha revisado algunos de los conceptos pilares

de la estadística. Comprenderá que una persona que utiliza la estadística
debe practicar principios como la honestidad. Una persona deshonesta
puede manejar opiniones de personas carentes de pensamiento estadístico.
Muchos de los estudios que se hacen en nuestro país están basados
en muestras no probabilísticas, sin embargo se presentan resultados
generalizando a la población.
11
1.9. Variable
Se define una variable como la

característica de interés a medir en las
entidades de interés. De un grupo de
empresas podríamos estar interesados
en sus ingresos, costos, número de
empleados, tipo de empresa, sector
empresarial al que pertenecen, etc. Las
variables pueden ser cuantitativas y
cualitativas.
Las variables son cuantitativas cuando

miden características cuantificables,
como el peso, longitud, edad, altura,
ingresos, costos, resistencia, capacidad,
etc. Por otra parte se denomina
cualitativas cuando miden atributos,
es decir cualidades no cuantificables,
por ejemplo: estado civil, satisfacción
del cliente, género, opinión, tipo de
empaque, color, etc.
Las variables cuantitativas a su vez se dividen en discretas y continuas:
Las cuantitativas discretas son regularmente variables de conteo, donde

utilizamos los números naturales (1, 2, 3, 4). Entre un valor y otro no existe
intermedio. Como ejemplo de variables discretas tenemos el número de
piezas defectuosas por caja, en una caja se pueden encontrar 3 piezas
defectuosas y el valor que le sigue es 4 piezas defectuosas, entre estos
dos valores es imposible encontrar valor intermedio.
En contraste las variables continuas son aquellas donde para cualquier

par de valores siempre es posible encontrar un valor intermedio. Por
ejemplo el peso de frascos de café para exportación. Uno pesó 450.02
gramos, ¿Cuál sería el peso siguiente? Alguien podría decir que le sigue
450.03.¡Se le respondería: Falso! Pues un frasco con peso 450.02005
gramos estaría antes. Como usted puede inferir, siempre va a ser posible
encontrar un peso más cercano a 450.02 gramos, por lo tanto la respuesta
12
correcta sería “no existe”. ¿Entre 450.02 y 450.03 gramos cuántos valores
podemos encontrar?, infinitos.
2. MEDIDAS DE TENDENCIA CENTRAL
Las medidas de tendencia central miden la localización de los datos, qué

tanto se dispersan de esa medida de localización y qué tan simétricos son
con respecto a la misma.
Localización. Una medida de localización equivale a un representante

de los datos. Si observa la figura 1, ¿qué valor de los datos, en el eje
horizontal, puede considerar como representante de los datos? ¿Por qué?
Localizaciòn de datos
2.6
2.5
2.4
2.3
2.2
2.1
2.0
10 15 20 25
Figura 1. Cada punto rojo

representa un dato entre 10 y 26.
13
Si se toma al valor 15 como representante de los datos, ¿a cuantos valores

representaría bien? Representaría bien a los 7 puntos rojos ubicados en
15, a los restantes 7 por debajo de él y a uno 20, se podría considerar que
los restantes no los representa bien.
Existen varias maneras más formales de obtener una medida de

localización.
Entre otras tenemos:
• La media
• La mediana
• La moda
2.1. La media
Como medida de localización, es el promedio de las

observaciones. Desde el punto de vista físico, la media
es el centro de gravedad de los datos. Cuando la media
es un parámetro se simboliza con la letra griega μ (miu).
Mientras que cuando se calcula en una muestra se
simboliza con
Donde N es el tamaño de la población.
Donde n es el tamaño de la muestra
14
2.2. La mediana
Es una medida de orden, es decir que depende del orden de los datos. Y
se ubica en la mitad de la distribución de la variable
Debajo de ella queda el 50%, de las observaciones más bajas y por encima
el 50% de los datos más altos. El procedimiento para calcular la mediana,
es el siguiente:
• Se ordenan los datos de menor a mayor.
• Se calcula la posición de la mediana, mediante:
2.3. La moda
Es el valor que más se repite en la distribución de la variable
15
2.4. Ejemplo del cálculo de las medidas de tendencia central
La demanda diaria de cierto producto en los últimos 10 días ha sido:

22 21 20 22 19 21 56 22 19 21 24 20
Se calcularán las tres medidas y se realizará una comparación.
2.4.1. La media
Evidentemente estamos en presencia de una muestra y por lo tanto

utilizaremos el símbolo de la media para un estadístico
H
23.92
La demanda media del producto en los últimos 10 días ha sido de 23.92

unidades físicas (uf).
2.4.2. La mediana
El primer paso es ordenar la muestra, haciéndolo de menor a mayor,

tenemos:
Datos ordenados 19 19 20 20 21 21 21 22 22 22 24 56
Posición 1 2 3 4 5 6 7 8 9 10 11 12
El segundo paso es hallar la posición (12+1)/2 = 6.5. Esto nos indica que
la mediana está a mitad de camino de la posición 6 y la posición 7.
16
Los valores en la posición 6 y 7, son: 21 y 21 respectivamente. La mediana

es (21+21)/2 = 21 uf.
2.4.3. La moda
En este caso se presentan dos modas, 21 y 22, pues ambos se repiten

3 veces. Se dice que en este caso la muestra tiene una distribución bi-
modal.
2.4.4. Interpretación y comparación
La media es la expectativa alrededor de tomar un valor de la muestra al

azar.
La interpretación sería: si se toma un día al azar de la muestra, se espera

que la demanda para ese día esté alrededor de casi 24 uf.
La mediana la interpretamos como: el 50% de los días de la muestra la

demanda ha estado por debajo de 21 uf. y el otro 50% ha estado por
encima de 21 u.f.
Sobre la moda diríamos que los valores de la demanda que más se

repitieron en la muestra fueron 21 y 22 uf.
¿Por qué la media difiere tanto de las otras dos medidas de localización? Si
se observa la muestra está bastante concentrada, si no se tiene en cuenta
el valor 56, pues varían de 19 a 24, ahí está la demanda a excepción
del día en que fue 56. Este valor “raro”, que llamaremos atípico, afecta
considerablemente a la media; recordemos que la media es el centro
de gravedad de los datos y que por lo tanto busca equilibrarlos a todos.
De esto se puede inferir que cuando se tengan observaciones atípicas la
media va a presentar sesgo y no sería una buena alternativa.
En contraste la mediana nos mide la localización en 21 uf. y esto ofrece un

panorama muy acorde con los datos. ¿Por qué? La mediana no depende
de los datos sino de su ranking, por esto es robusta ante la presencia de
datos atípicos.
La moda en este caso está bastante cerca de la mediana y es una buena
17
medición de la localización. Tiene el inconveniente que si los datos son

continuos es poco probable que existan datos que se repitan y entonces no
se contaría con ella de manera directa. En este caso por ejemplo hubiese
sido factible que no se repitiera ningún valor de la demanda.
3. TABULACIÓN DE DATOS
3.1. Tabulación según tipo de variables
3.1.1. Tabulación para variables cualitativas
Pueden representarse a través de:
3.1.1.1 La frecuencia absoluta (símbolo: f ó n):
Que es el número de veces que aparece cada dato (resultado del conteo).
La frecuencia total, de todas las modalidades juntas, se representa por N.
3.1.1.2 La frecuencia relativa (fr) o proporción:
Se obtiene dividiendo la frecuencia de cada dato entre el total de datos. fr

= f/N . Los valores posibles oscilan entre 0 y 1. La suma de todas las fr
siempre debe dar como resultado 1 ó un número muy cercano al 1, si ha
18
habido redondeos o aproximaciones.
3.1.1.3 El porcentaje (P o %):
Que es la frecuencia relativa multiplicada por 100. P = fr*100 ó % =

(f*100)/N. La suma de todos los porcentajes debe dar 100 o un número
muy próximo, si ha habido redondeos o aproximaciones.
3.1.1.4 Las frecuencias acumuladas (ΣΣΣ f ó ΣΣΣ n):
los porcentajes acumulados se obtienen de forma similar
EJEMPLO:
Residencia Sanitaria S. S. de castellón Ingresos en

Pediatría. Marzo de 1980
Sección
Neonatología 25 0,125 12,5 25 0,125 12,5
Lactantes 95 0,475 47,5 120 0,6 60
Preescolares 80 0,400 40 200 1 100
Total 200 1 100
En la tabla definitiva no se presentan todos estos

parámetros, sino los másadecuados en cada caso concreto.
Casi siempre f y/o %. Sólo el porcentaje, sin que conste
N, no es correcto. En este ejemplo bastaría con f y %
3.1.2. Tabulación de variables cuantitativas
Los datos se agrupan según la frecuencia de los valores. Es lo que se

denomina Distribución de frecuencias. La forma de tabular depende del
nº de datos.
19
• Si son pocos (la mayoría de autores pone el tope en 30), se hace

una tabla simple de forma similar a lo visto para las variables cualitativas.
Cada dato equivale a una modalidad. Al final nos quedaremos con la f de
cada número y si se prefiere también con el %. Los números se ordenan
de menor a mayor o de mayor a menor. La tabla puede hacerse en sentido
vertical u horizontal.
Ejemplo: Si x = ( 4, 1, 7, 2 2, 9, 7, 2, 2, 9, 7, 1, 4)
x f
1 2
f 1 2 4 7 9 2 4
o bien 4 2
x 2 4 2 3 2 7 3
9 2
• Si son muchos se agrupan en clases, que son intervalos sucesivos de
valores. Los datos se asignan a la clase que les corresponde y se cuentan
los datos de cada clase, que está representada por el punto medio o
centro de clase (pm ó c).Esta agrupación es arbitraria con dos condiciones
esenciales: que las clases sean mutuamente excluyentes y que todos los
datos puedan se asignados a una clase. Ahora bien, la experiencia ha ido
introduciendo una serie de normas, que permiten hacer esta agrupación
de la forma más racional posible. Se siguen los siguientes pasos:
1) Calcular el Rango
20
2) Calcular el Nº DE CLASES (NC). Es función de N (tamaño de la

muestra). Lo cual se hace con la siguiente
Formula: NC = 1+ 3,32*logN ó 1+1,44*lnN.
3) Calcular la AMPLITUD de las clases ó INTERVALO (i) : i = R / NC
Si no es número entero, se redondea al número entero superior para que

NC*i ≥ R y Así queden englobados todos los datos. Como probamos con 2
ó 3 opciones, conviene elegir una i que sea impar, pues así el punto medio
de la clase (pm ó c) tendrá una cifra menos.
En principio todas las clases deben tener la misma amplitud.
4) Ver si hay SOBRAS, que son la diferencia entre NC*i y R. Se reparten

lo mejor posible entre ambos extremos de la distribución fijando así los
límites definitivos de la tabla.
5) Construir el esquema de la tabla, poniendo columnas de
• CLASES ó LIMITES TABULADOS
• LIMITES REALES
• PUNTO MEDIO (pm ó c)
• FRECUENCIA ( f ó n)
• FRECUENCIA RELATIVA ( fr)
21
• PORCENTAJE (P o %)
• FRECUENCIAS ACUMULADAS ( Σf ó Σn)
• FRECUENCIAS RELATIVAS ACUMULADAS (Σfr)
• PORCENTAJES ACUMULADOS (Σ%).
6) Hacer el CONTEO de datos y rellenar las casillas correspondientes.
7) Escribir la TABLA DEFINITIVA. Son obligadas las clases y la frecuencia

absoluta, se pueden añadir otros parámetros, si se considera que mejoran
la información. Una tabla excesivamente prolija resulta más difícil de
leer. Por tanto la norma es: poner todo lo necesario, pero no más de lo
necesario.
22
Glosario
Error muestral o error absoluto: Es la diferencia entre el parámetro

desconocido de la población y un estadístico
Estadístico: Es una medida descriptiva de la muestra
Media: Como medida de localización, es el promedio de las observaciones
Mediana: Es una medida de orden, es decir que depende del orden de

los datos.
Moda: Es el valor que más se repite en la distribución de la variable
Muestra: Es un subconjunto de la población
Parámetro: Un parámetro es cualquier medida descriptiva de una

población.
Población: Se denomina población al conjunto de datos completos de

interés para el investigador.
Sesgo muestral: La tendencia a tener más datos con solo unas

características de la población y menos de otras características de dicha
población.
Variable: Se define una variable como la característica de interés a medir

en las entidades de interés.
23
Bibliografía
• Medidas de tendencia central. Tecnólogo en Gestión Logística, SENA,

Centro Nacional de Formación Virtual y a Distancia
• Tema 4: Tabulación de datos. Recuperado de: http://eduardobuesa.

es/
24
OBJETO DE Estadística básica

APRENDIZAJE
Desarrollador de contenido Angélica Rivera Salem
Experto temático
Ofelia Corrales Arango

Asesor Pedagógico
Juan José Botello Castellanos
Anllelo Andres Reina Montañez
Productor Multimedia Victor Hugo Tabares Carreño
Programador
Jacksson Sonny González Bayona
Angélica Rivera Salem

Líder expertos temáticos
Líder linea de producción Santiago Lozada Garcés
25

Estadistica Basica

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estadistica Basica

Cargado por

Copyright:

Formatos disponibles

Estadística básica

1.5. Error muestral o error absoluto.............................................9

1.6. Sesgo muestral................................................................ 10

1.7. Estadística descriptiva....................................................... 10

1.8. Estadística inferencial........................................................ 11

2. MEDIDAS DE TENDENCIA CENTRAL.............................................13

2.4. Ejemplo del cálculo de las medidas de tendencia central......... 16

2.4.4. Interpretación y comparación...................................... 17

3.1. Tabulación según tipo de variables ..................................... 18

3.1.1. Tabulación para variables cualitativas........................... 18

3.1.1.1 La frecuencia absoluta (símbolo: f ó n):.......................... 18

3.1.1.2 La frecuencia relativa (fr) o proporción: .......................... 18

3.1.1.3 El porcentaje (P o %): ................................................. 18

3.1.1.4 Las frecuencias acumuladas (ΣΣΣ f ó ΣΣΣ n): ................ 19

3.1.2. Tabulación de variables cuantitativas............................ 19

La estadística alguien la definió como la ciencia de la medida. Este

Bienvenido a una de las ciencias más interesantes y necesarias por parte

Antes de entrar a definir conceptos

Se denomina población al conjunto

Un investigador en logística dentro de un estudio de la

Antes de entrar a definir conceptos Un

•El total de bultos de café exportados por Colombia en el mes pasado.

•El mínimo de las tarifas de almacenamiento aplicadas por una determinada

•Los ingresos medios de todos los trabajadores en Colombia.

•La máxima tarifa aeroportuaria aplicada a todos los embarques realizados

•Índice de inflación en Colombia en el último mes.

•El total de aspirantes a técnicos en Logística en el SENA a nivel nacional.

•El total de aspirantes a técnicos en Logística en el SENA en la región

Si tenemos en cuenta que una población debe reunir los

Es un subconjunto de la población. Una

Es una medida descriptiva de la muestra.

Cuando se obtiene una muestra el investigador puede estar

• Estimar un parámetro desconocido de la población. Es decir

• Hacer un análisis solo dirigido a la muestra, sin ninguna

1.5. Error muestral o error absoluto

Es la diferencia entre el parámetro

1.6. Sesgo muestral

La tendencia a tener más datos con

1.7. Estadística descriptiva.

Son los procedimientos realizados a una

1.8. Estadística inferencial

Es un procedimiento inductivo basado en

“Llegará el día en el que el pensamiento

Hasta este momento, usted ha revisado algunos de los conceptos pilares

Se define una variable como la

Las variables son cuantitativas cuando

Las variables cuantitativas a su vez se dividen en discretas y continuas:

Las cuantitativas discretas son regularmente variables de conteo, donde

En contraste las variables continuas son aquellas donde para cualquier

2. MEDIDAS DE TENDENCIA CENTRAL

Las medidas de tendencia central miden la localización de los datos, qué

Localización. Una medida de localización equivale a un representante

Figura 1. Cada punto rojo

Si se toma al valor 15 como representante de los datos, ¿a cuantos valores

Existen varias maneras más formales de obtener una medida de

Entre otras tenemos:

Como medida de localización, es el promedio de las

Donde N es el tamaño de la población.

Donde n es el tamaño de la muestra

• Se ordenan los datos de menor a mayor.

• Se calcula la posición de la mediana, mediante:

Es el valor que más se repite en la distribución de la variable

2.4. Ejemplo del cálculo de las medidas de tendencia central

La demanda diaria de cierto producto en los últimos 10 días ha sido:

Formula: NC = 1+ 3,32logN ó 1+1,44lnN.