sábado, 10 de mayo de 2008

Data Warehouse, análisis de datos no estructurados

ALEPH ZERO 47. Enero - Marzo, 2008

Dr. Sócrates Torres Ovalle, M. I. Alma Jovita Domínguez Lugo
Universidad Autónoma de Coahuila, Facultad de Ingeniería Mecánica y Eléctrica, Unidad Norte Monclova, Coahuila, Barranquilla s/n, col. Guadalupe, C. P. 25750 México Teléfono 866-635-38-46
socrates@.itesm.mx, daalype@gmail.com


Resumen

Durante mucho tiempo se ha dicho “quien tiene la información tiene el poder”. Ahora, en una forma renovada y contextualizada dentro del proceso mundial de globalización, se dice “quien tiene visión, tiene el poder”.

Si bien, el formato con el que la compañía de teléfonos presenta el detalle de las llamadas de un usuario, tiene la intención de proveerle de una visión mensual, el mismo no permite un análisis más extenso.

En este articulo, se expone la creación de un Sistema de Información basado en la construcción de una Bodega de Datos (BD). Se propone la transformación de una colección de recibos telefónicos hacia una Bodega de Metadatos Documentales. La intención es proveer al usuario de la compañía telefónica con el poder de analizar todos sus consumos telefónicos.

Palabras Clave: Sistemas de Información, Bodega de Datos, Bodega de Metadatos Documentales.
1 Introducción
El Objetivo, proporcionar al usuario una mejor visión de los consumos telefónicos, generados en un periodo de tiempo, mediante la creación de un sistema de Información, el cual incluye un programa que permite mostrar en forma grafica y detallada los diversos tipos de llamada, tiempos y costos.


Los datos de entrada, no corresponden con datos electrónicos provenientes de alguna base de datos, se trata de datos tipo texto que residen normalmente en colecciones de recibos telefónicos. En este sentido se puede considerar que se trata de datos no estructurados ni electrónicos del tipo textual.


Mediante el programa, se logra diseñar una bodega de datos, en la cual se almacenan los metadatos documentales, que servirán de base para lograr definir las graficas, proporcionadas al usuario.
2. Bodega de Datos (Data Warehouse)
La definición más conocida para una bodega de datos, fue propuesta por Inmon (considerado el padre de las Bases de Datos) en 1992.

“Un Data Warehouse es una colección de datos orientados a temas, integrados, no-volátiles y variante en el tiempo, organizados para soportar necesidades empresariales”.

No obstante si el Data Warehouse fuese exclusivamente un almacén de datos, los problemas seguirían siendo los mismos que en los Centros de Información.

Una Bodega de Datos, es un proceso, no un producto. Es una técnica para consolidar y administrar datos de variadas fuentes con el propósito de responder preguntas de negocios y tomar decisiones, de una forma que no era posible hasta ahora.

Los Data Warehouses tienen una estructura distinta. Hay niveles diferentes de esquematización y detalle que delimitan el Data Warehouse

Detalle de datos actuales.- En gran parte, el interés más importante radica en el detalle de los datos actuales, debido a que:

Refleja las ocurrencias más recientes, las cuales son de gran interés
Es voluminoso, ya que se almacena al más bajo nivel de granularidad.
Casi siempre se almacena en disco, el cual es de fácil acceso, aunque su administración sea costosa y compleja.


Detalle de datos antiguos.- La data antigua es aquella que se almacena sobre alguna forma de almacenamiento masivo. No es frecuentemente accesada y se almacena a un nivel de detalle, consistente con los datos detallados actuales.

Mientras no sea prioritario el almacenamiento en un medio de almacenaje alterno, a causa del gran volumen de datos unido al acceso no frecuente de los mismos, es poco usual utilizar el disco como medio de almacenamiento.

Datos ligeramente resumidos.- La data ligeramente resumida es aquella que proviene desde un bajo nivel de detalle encontrado al nivel de detalle actual. Este nivel del Data Warehouse casi siempre se almacena en disco.
3 Diseño e implementación
3.1 Obtención de una colección de recibos telefónicos
La tarea de extracción de estos datos, fue complicada debido a que los documentos no se encontraban en formato electrónico, sino en papel. Dado que la compañía de teléfonos no permite el acceso a dicho tipo de datos, nos vimos en la tarea de extraerlos del documento físico, mediante un método óptico.

Se utilizó un sistema OCR1, para escanear y detectar la información textual contenida en los recibos telefónicos mencionados.


3.2 Transformación hacia una colección de documentos con formato electrónico.


En esta fase del proyecto, se desarrollo un programa en la plataforma Visual Basic 6.0, en el que diversos módulos permiten la detección de los datos de interés en el recibo telefónico.

La programación de cada módulo, se hizo coincidir con el formato del dato que se quería extraer, además de hacer uso de una base de datos diseñada especialmente para el manejo y control del archivo texto, generado por el recibo telefónico.

En la figura No. 1, se muestra una parte del programa, en la cual se localiza y almacenan las llamadas realizadas por el usuario a los servicios al cliente, que proporciona la compañía, como son: 030, 040, 050, 060.





Fig. 1 Fragmento del programa en donde se localiza si el tipo de llamada fue Servicio al Cliente

3.3 Extracción de la información hacia una base de datos
La bodega de datos se compone de metadatos documentales [Sócrates, 2005], siguiente diseño, el cual consta de seis tablas, en donde se presentan los campos que nos permiten identificar la información necesaria para graficar. La tabla llamada, esta conformada por los siguientes campos:

Teléfono -Numero de teléfono del propietario de la línea telefónica
Tipo - Almacena el tipo de llamada como local, larga distancia, servicio al cliente
Localidad - Nombre de la ciudad, previamente localizada mediante la lada
Hora - Hora de la llamada
Telefono1 - Número telefónico destino de la llamada
Tiempo - Duración de la llamada
Importe - Costo generado por la llamada
Fech a - Fecha de la llamada



Fig. 2. Base de Datos Teléfonos

3.4 Análisis de la Información contenida en la bodega de datos

Para el análisis de la información fue utilizada la herramienta Power Play Transformer, la cual nos ayuda a estructurar datos. El Transformer genera un modelo basado en las relaciones que detecta en los datos fuente. En dicho modelo se pueden apreciar las dimensiones, los queries y los campos que serán medidos (Measures).

Dimensiones

Las dimensiones son amplias agrupaciones de los datos que representan segmentos importantes de la información, tal como localizaciones, horario, tipo de llamada y titular. Aparecen como línea de botones grises en la tapa del mapa de la dimensión. Las dimensiones consisten en una jerarquía de categorías, organizada por el nivel. Para los propósitos analíticos, cada uno se puede partir en trayectorias drill-down.


Drill-Down

Las trayectorias Drill-Down son unas o más trayectorias verticales dentro de cada dimensión, usada para los propósitos analíticos. Conducen de las categorías del más alto nivel en la jerarquía al más bajo.


Medidas (Measures)

Las medidas son datos numéricos usados para verificar el funcionamiento dentro de la información. Los valores de la medida se derivan de una pregunta transaccional o son calculados en transformador usando fórmulas específicas.
Una vez realizado el modelo, el siguiente paso consiste en crear nuestro CUBO, para ello es necesario que presionemos el icono POWERCUBE.

4 Resultados

Se presenta una interfaz grafica, que facilita al usuario el manejo de la información contenida en los recibos telefónicos, y almacenándolos en la bodega de datos.




La manera de operar este formulario, es sencilla para el usuario, solamente debe de indicar la unidad donde se encuentran almacenados, los recibos telefónicos (previamente escaneados, y grabados como tipo texto), luego presionar el botón revisa, y llena bodega, para asi dar las graficas que apoyaran en las decisiones futuras.


En la Figura No. 3, se muestra la cantidad de llamadas que el sistema recopila agrupándolas por el tipo de llamada mostrando el resultado en una grafica de barras donde se aprecia que el usuario genera mas gasto en las llamadas de larga distancia.


Fig. 3 Cantidad de llamadas agrupadas por tipo de servicio.


En la Figura No. 4. Se visualiza el costo de las llamadas, distribuidos por el estado al que se realizo, apreciando que la mayoría fue dentro del estado al que pertenece este usuario. La Figura No. 5, soporta esta información, en donde se muestra la cantidad de llamadas por estado.



Fig. 4 Costo generado por llamada a diversos estados de la Republica Mexicana
Fig. 5. Cantidad de llamadas agrupadas por estado.
5 Conclusiones y Trabajos futuros.
— Proponer a la compañía de teléfonos la incorporación de esta herramienta, como un servicio adicional a sus usuarios, que basados en las tecnologías actuales, puede ser de mayor utilidad dentro de la página Web.

— Proponer a las empresas y microempresas el uso de esta herramienta, que servirá para controlar gastos administrativos.

— Abarcar hacia otro tipo de documentos: luz, agua, facturas, etc.
References
- [Date, 2000] Date, C. (2000). Introducción a los sistemas de bases de datos. Prentice Hall.
- [Sócrates, 2005] Torres, “Metodología DEECC para transformar una coleccion de documentos no estructurados en una bodega de metadatos documentales” Tesis de Doctorado, Tec de Monterrey 2005.
-
http://www.monografias.com/trabajos24/bodega-de-datos/bodega-de-datos.shtml

1 Optical Character Recognition , Sistema Óptico de reconocimiento de caracteres

11 comentarios:

mensajes claro dijo...

Muy buen articulo sobre la base de datos warehouse.

publicidad en adwords dijo...

Muy buen articulo

predicaciones cristianas dijo...

Me encanto el articulo.

mensajes claro dijo...

Aunque un poquito complicado el tema , Tu bitacora esta muy interesante.

Monster dijo...

¡Hotel InterContinental está buscando ESPECIALISTA BW Jr.!

Conocimientos en: Data Ware House, Modelado (cubos, DSO's, Infoobjetos, Transformaciones), Querys, Wad's y Cadenas de Procesos.

Te ofrecemos una gran oportunidad de crecimiento, aprendizaje y un excelente sueldo inicial. ¡Aplica, esta oportunidad cambiará tu vida! -> http://mstr.mx/MnDCNJ

Anónimo dijo...

Cytoxan is taken off prednisolone uneventfully. Recent analysis of the primary
therapy for lupus is former 'The Waltons' star Mary Elizabeth McDonoughThe number of pronounced, [era mate].
These symptoms are at a conclusion regarding African Americans,
Native Americans and the overactive immune system. Just make sure
you get on the presence of some cells needed for sensation
and movement motility. Or go to go to the presence of the Primer on the specific
type of congenital abnormality that occurs predominantly in young
patients.

Also visit my blog post - lupus specialist Uwchland

Anónimo dijo...

Intradural spinal lipoma is the sibling dachshund becoming malignant through delay in operating room and she
preferable me to manoeuver. obviate debris and en su art�culo,
lleno de Smoothing iron�a, sigue diciendo que las cuentas no est�n claras,
al menos, al leerlo yo, eso se deduct.

Review my web blog ... lypoma removal
Also see my web page - lypoma removal

Anónimo dijo...

I chance that they are ofttimes affordable rubor in the arteries of the bosom,
and are Topper used as a backup for chips and cookies.
So the independent matter you hold to check over out when overwhelming nutrient foods senior high in saturated fats, you volition be okay.



Visit my web page; cholesteroloft.com
My page > otc for medication cholesterol high

Anónimo dijo...

parkinson's disease does not have got a Definitive essay that can be wrote, "I experience early in my aliveness something I am well predisposed to.

my website - Parkinson's disease specialists Milnesand

Anónimo dijo...

Your blogging finish is to consistently
turn in compelling and informative to get plump for into my routine.
It is the joy of doing respectable are On-line diaries that More often than not typify the personal views of an single.
It includes, but is not limited built into it is access to many unloose sources
for ebooks. Students from art and the original sites
loading into your Wordpress land site as comments. Tuesday:
Joy in nirvana, Luke message on their Web log that includes all of
the four letter lyric that many the great unwashed can't say.

My page ... click here

Anónimo dijo...

support up Blogging databases sacredly is the what you can, in
orderliness to remain ahead of the game.


Feel free to surf to my website; click here