KDD: Selección de datos e información

Continuando con el proceso KDD: Una vez que se ha definido el objetivo de negocio, se deben seleccionar los datos y la información de los clientes que se han de utilizar. La siguiente es una lista de chequeo rápida que puede ayudar para tal efecto:

  • ¿Son los datos adecuados para describir el o los fenómenos que el análisis está intentando explicar?
  • ¿Hay un campo común entre los datos que serán utilizados y otros datos de otros repositorios de datos?
  • ¿Pueden ser consolidados todos los datos en un repositorio de datos (base datos, data mart o data warehouse)?
  • ¿Qué información interna y/o externa está disponible para el análisis?
  • ¿Cuan actuales y relevantes son los datos para el objetivo comercial?
  • ¿Hay alguna información redundante en los datos?
  • ¿Existen datos demográficos disponibles?

Fuentes de Datos

Debido a la heterogeneidad de los datos disponibles en la actualidad, hemos simplificado y subdivido las posibles fuentes de datos, utilizando un modelo generalizado en la bibliografía [1] del tema. A continuación se describen las posibles fuentes de datos a considerar:

Datos de Marketing

Este tipo de datos se refiere a aquellos datos almacenados en bases de datos, data marts o data warehouses, e incluyen:

  • Información demográfica de los clientes (sexo, edad, nivel educacional, estado civil, etc.).
  • Información de productos (tenencia de productos o servicios, vigencia, etc.).
  • Información de transacciones realizadas por los clientes (productos adquiridos, historial de compras, etc.)
  • Información sicográfica (preferencias, hobbies, etc.) de los clientes.
  • Información tecnográfica (correo electrónico, navegador o browser utilizado, ISP favorito, idioma, etc.) de los clientes.

La información de productos y transacciones puede ser a diferentes niveles de detalle o granularidad. Para el caso de un negocio relacionado con el comercio electrónico, esta información puede incluir detalles de las comunicaciones con el cliente, correos electrónicos, detalles de la distribución, publicidad, entre otras.

Datos de Servidor

Estos datos corresponden a los generados por la interacción de las personas o usuarios que acceden a un servidor, por ejemplo, navegar un sitio web en particular o utilizan un servicio donde queda registro de su actividad (por ejemplo: facebook, twitter, etc.) . Este tipo de datos puede ser subdividido en otros: archivos de acceso al servidor (conocidos como log files), cookies y datos generados por una consulta (query data) que realiza el usuario.

Metadatos

La última fuente de datos es acerca del contenido del sitio mismo. Usualmente esta información es generada dinámica y automáticamente luego de una actualización del contenido o estructura del sitio. Los metadatos de un sitio proporcionan información topológica acerca del mismo. Por ejemplo: páginas vecinas, enlaces entre páginas, puntos de entrada, puntos de abandono. Esta información puede ser implementada en una tabla, en un mapa de navegación o en un grafo. Los metadatos también proporcionan información de si un contenido es estático o generado dinámicamente y si requiere o se genera por la interacción con el usuario.

En adición a la estructura del sitio, los metadatos pueden contener información más semántica. Ejemplo de esto es la descripción de la información del contenido de una página web mediante los títulos en los descriptores META del HTML o mediante una clasificación de tipos de páginas (página inicial, página de navegación, página de contenido o una mezcla de las anteriores).

Pues bien, ahora que tenemos una idea de dónde seleccionar los datos para el proceso KDD, continuaremos en el próximo artículo con el siguiente paso:  Preprocesamiento. Posteen sus comentarios!. Saludos!

[1] Büchner, A.; Mulvenna, M.; Norwood, M. (2000). Data-Driven Marketing. EM-ElectronicMarkets, Vol. 8, No. 3, 07/98

 

Leave a reply