Powering Web Intelligence

15+ Datasets gratis para Data Mining

Uno de los problemas con que siempre se encuentra un dataminer es contar con un set de datos para modelar o testear los modelos de Data Mining que desarrolla. En este artículo compartiremos con ustedes una lista de 15 enlaces a distintos repositorios y directorios de datos gratis para descargar desde la Web y probar vuestros modelos:

  1. Research Pipeline’s
    Un sitio/wiki con enlaces a datasets de variados tópicos.
  2. UCI Machine Learning Repository
    Repositorio de datos del Center for Machine Learning and Intelligent Systems de la University of California Irvine. Mantiene alrededor de 200 datasets para probar algoritmos de Machine Learning y Data Mining. Puede visualizarse a través de una interfaz de búsqueda, que incluye el tipo de análisis para el cual la data es la más apropiada y una explicación del origen de los datos.
  3. UCLA Statistics Data Sets
    Se pueden encontrar datasets de libros, estadísticas nacionales de las agencias de gobierno de los EE.UU. y archivos de datos de la University of California, Los Angeles.
  4. Time Series Data Library
    Colección de alrededor de 800 series de tiempo de diferentes áreas.
  5. StatLib – Datasets Archive
    Repositorio del Departamento de Estadisticas de la Carnegie Mellon University, Pittsburgh. Contiene varios datasets, desde muestreo de arsénico hasta la serie mundial.
  6. KDnuggets
    La archi-conocida comunidad de DataMining y Knowledge Discovery. Contiene una gran cantidad de enlaces a distintos repositorios de datos.
  7. Resources for Face Detection
    Base de datos para probar algoritmos de detección de rostros.
  8. Infochimps
    Directorio de búsqueda de datos libres y para la venta. Permite buscar dataset por etiquetas o ver los más populares.
  9. The Data and Story Library (DASL)
    DASL (pronunciada “dazzle”) es una bibilioteca online de archivos llamados dafiles y story de la Central Michigan University que ilustra el uso de métodos estadísticos básicos. Contiene una búsqueda por tópico o método estadístico.
  10. CHANCE Data Sets
    Contiene una serie de data sets delimitados por tabuladores del Dartmouth College para revisar conceptos fundamentales de estadísticas en el contexto de problemas del mundo real.
  11. Data on the Net
    Directorio de datos de la University of California, San Diego (UCSD) que permite buscar y acceder a más de 360 sitios con datos para descargar.
  12. National Archive of Criminal Justice Data
    Archivo que permite navegar o buscar conjuntos de datos sobre delincuencia y justicia en el NACJD
  13. General Social Survey (GSS)
    La encuesta social general o General Social Survey (GSS) anual del National Opinion Research Center (NORC) de la University of Chicago.  Contiene una gran cantidad de variables que abordan cuestiones demográficas y de actitud, además de temas de interés.
  14. IBM Quest Synthetic Data Generator
    Código C++ para generar datos sintéticos para análisis de reglas de asociación, patrones secuenciales y clasificación.
  15. Datasets gratis de Customers DNA
    Si necesitas datos para probar tu proyecto de data mining, la empresa Customers DNA ofrece la descarga de valiosos datasets de múltiples industrias. Algunos datasets son gratis (registrándose) y otros los puedes comprar via Paypal.
  16. Datasets for Data Mining
    Listado de datasets seleccionado por la Universidad de Edinburgh para proyectos de Data Mining y Exploración.
Etiquetas: , , , , ,

Escribe una respuesta

Debe estar conectado para escribir un comentario.