domingo, 3 de mayo de 2015

Base de Datos

Base de Datos

Una base de datos es un conjunto de datos que pertenecen al mismo contexto, almacenando sistemáticamente para su uso posterior. El sistema de administración de base de datos es el software que permite que una institución centralice los datos, los administre eficientemente y proporcione accesos a los datos almacenados mediante programas de aplicación. Es decir la diferencia entre el Sistema de Administración de Base de Datos y una Administración de base de datos es que la base de datos es una colección de archivos interrelacionados almacenados en conjunto sin redundancia y el sistema de gestión de base de datos son numerosas rutinas de software en conjunto interrelacionadas, cada una de ellas es responsable de una tarea determinada.
Los sistemas de administración de base de datos tienen como funciones principales manipular los datos y definir las estructuras para almacenar los datos. Los tres elementos más importantes que lo componen son: El lenguaje de definición de datos, que se refiere al lenguaje formal que utilizan los programadores para especificar el contenido, es decir define cada elemento de datos como aparece en la base de datos antes de que este elemento sea traducido por los programas de administración. El segundo elemento que lo compone es el lenguaje de manejo de datos el cual contiene comandos que permiten a los usuarios finales y a los especialistas en programación es traer datos de la base de datos. Y por último como componente tiene el diccionario de datos que es un archivos automatizado manual que almacena definiciones de los elementos de datos y características de los mismos como por ejemplo representación física, propiedad, autorización y seguridad.
Las ventajas de los sistemas de administración son: mediante la administración centralizada y los datos, los accesos, el uso y la seguridad se puede reducir la complejidad de los sistemas de información de las instituciones.
Se puede reducir la redundancia en consistencia de los datos como también las confusiones en los datos pueden eliminarse al proporcionar un control central de la creación y definición de los datos.
El desarrollo del programa y los costos del mantenimiento pueden reducirse de una manera radical utilizando los sistemas de administración de base de datos. Lo que nos permite este sistema es consultar de forma rápida y barata dentro del gran volumen de información que se cuenta. Y por último la disponibilidad y el acceso de la información puede incrementarse.

La organización de un sistema de cómputos
Los datos están organizados con una jerarquía que se inicia con los bits, los bytes y avanza hasta los campos, registros, archivos y las bases de datos.
Un bit representa la unidad más pequeña de datos que la computadora puede manejar. Un grupo de bits llamado bytes representa un carácter individual que puede ser una letra, un número, o un símbolo. Un agrupamiento de caracteres en una palabra, una oración o un número completo se llama campo. Un grupo de campos relacionados forman un registro y un grupo de registros del mismo tipo se lo denomina archivos. Un grupo de archivos relacionados pueden constituir una base de datos.

Como crear una base de datos
Para crear una base de datos lo primero que hay que tener en cuenta es cómo vamos a planificar su contenido, estructura y diseño. Si la misma esta bien diseñada nos va a favorecer la introducción y recuperación de datos, como también nos va a permitir reducir la existencia de datos duplicados en las tablas de la base de datos (esta funciona de forma conjunta para garantizar la disponibilidad de los datos correctos cuando se necesiten).

Pasos para la planificación de una base de datos
  1. Determinar la finalidad o el problema que se desea solucionar.
  2. Saber qué es lo que se va a almacenar dentro de ella ya que sabiendo eso lo vamos a dividir en diferentes categorías las cuales son vitales para el diseño de una base de datos eficaz porque vamos a almacenar diferentes tipos y base de datos en diferentes categorías.
  3. Todas la categorías están relacionadas entre sí y por eso es recomendable contar con frases que describan de qué forma interactúan las categorías.
  4. Una vez teniendo en cuenta todos estos puntos y identificadas las categorías de información ya se puede organizar la base de datos.

Estas categorías también reciben el nombre de tablas las cuales se utilizan para agrupar los datos con un fin determinado teniendo en cuenta esto la base de datos se organizan de tres formas diferentes, puede ser, una única tabla en un solo archivo, barias tablas en un único archivo que puede ser utilizado cuando los datos son más complejos y la ultima forma es varias tablas en varios archivos que se pueden utilizar si se necesita compartir los mismos datos entre diferentes soluciones de base de datos.

  1. Determinar las tablas de la base de datos y los datos que van a incluir y, a su vez, que capo se va a necesitar. Para facilitar la búsqueda y la ordenación de los registros se pueden crear campos distintos. Si se separan los datos en varios campos al introducir los datos, se facilitara el proceso de creación de futuros informes por eso es importante decidir los campos que contendrán datos comunes entre las tablas.
  2. Determinar los campos coincidentes de cada tabla y rodee cada un con un circulo en la planificación
  3. Hay que establecer en cada una de las tablas cuales van a ser los campos que van a almacenar datos y cuales se utilizaran desde otras tablas de formas relacionadas. Cada tabla tiene un solo tema y todos los campos de esa tabla hacen referencia únicamente a ese tema.
  4. Determinar las relaciones existentes entre las tablas por lo cual se establece una relación entre las tablas, por que sus campos coincidentes contienen datos coincidentes
  5. Determinar si la base de datos se va a compartir con otros usuarios y de que manera podrán acceder a el archivo.
  6. Hay que tener en cuenta quien va a utilizar la base de datos y restringir su acceso.
  7. Determinar las presentaciones que necesita y planificar una presentación  distinta para cada tarea
  8. Para crear una base de datos hay que realizar dos ejercicios de diseño. Un diseño lógico el cual es un modelo abstracto de la base de datos de una perspectiva de negocios, mientras que el diseño físico muestra como en realidad los datos quedan organizados y estructurados en los medios físicos de almacenamiento
  9. El proceso de diseño identifica las relaciones entre los elementos de datos y la manera más eficiente de agruparlo para cumplir con los requerimientos de información.

Algunos modelos con frecuencia utilizados en las bases de datos son

·        Bases de datos jerárquicas: almacenan su información en una estructura jerárquica similar a un árbol. Una de las principales limitaciones de este modelo es su incapacidad de representar eficientemente la redundancia de datos.
·         Base de datos de red: su diferencia fundamental con la anterior son que las estructuras en redes describen datos lógicamente relacionados de muchos a muchos. Estas estructuras reducen las redundancias y en ciertas situaciones responden de manera más rápida lo que la hace más costosa.
·         Base de datos relacionados: es el modelo más utilizado en la actualidad para modelar problemas reales y administrar datos dinámicamente. En este modelo el lugar y la forma en la que se almacena no tiene relevancia. La ventaja es que es más fácil de entender y utilizar para el usuario. La información puede ser recuperada o almacenada mediante consultas que ofrecen una amplia flexibilidad y poder para administrar la información.
Tipos de bases de datos
Eficiencia de procesamiento
Flexibilidad
Amigabilidad para usuarios finales
Complejidad en la programación
Jerarquía
Alta
Baja
Baja
Alta
En redes
Media
Baja-media
Baja moderada
Alta
relacional
Baja pero mejorando
Alta
Alta
Baja
·         Base de datos orientada a objetos: en esta base de datos los usuarios pueden definir operaciones sobre los datos como parte de la definición de base de datos. Una operación se especifica en dos partes, la interfaz que incluye el nombre de la operación y los tipos de datos de sus argumentos. La implementación de la operación se especifica separadamente y puede modificarse sin afectar la interfaz.
·         Base de datos documentales: permite la indexación a texto completo, s decir realiza búsquedas generales mas potentes.
·         Base de datos deductivas: es un sistema de base de datos pero con la diferencia de que permite hacer deducciones a través de inferencias, principalmente se vasa en reglas y en hechos almacenados.
·         Gestión de base de datos distribuida: la base de datos esta almacenada en varias computadoras conectadas en red. Surgen debido a la existencia física de organismos descentralizados. Esto les da la capacidad de unir las bases de datos de cada localidad.

La normalización de una base de datos es el proceso de simplificar la relación entre los campos de un registro, esta se lleva a cabo por cuatro razones:
  • Para estructurar los datos de manera que se puedan representar las relaciones pertinentes entre los mismos.
  • Permitir la recuperación sencilla entre los datos.
  • Simplificar el mantenimiento de los datos, ya sea actualizándolos, insertándolos o borrándolos.
  • Reducir la necesidad de reestructurar o reorganizar los datos cuando surjan nuevas aplicaciones.
Para normalizar una base de datos hay que descomponer todos los registros de datos en registros bidimensionales. Hay que eliminar todas las relaciones en la que los datos no dependan completamente de la llave primaria de registro. Y por ultimo hay que eliminar todas las relaciones que contengan dependencias transitivas.
Hay tres formas normales de llevar a cabo este proceso:
  • La primera forma en la cual los registros de longitud variables crean problemas especiales, por lo tanto está se alcanza cuando se quitan todos los grupos de repetición de forma que un registro tenga longitud fija.
  •  La segunda forma se alcanza cuando un registro se encuentra en la primer forma normal y cada campo depende de la llave de registro, todo atributo que no es clave necesita de la clave primaria completa para ser identificado de forma única.
  • la tercer forma se alcanza cuando se quitan las dependencias transitivas del diseño de registros. En el manejo de datos la dependencia transitiva es una preocupación ya que los datos pueden perderse de manera inadvertida cuando la relación esta oculta. Ese problema se elimina diseñando el registro con esta tercer forma. Si la base de dato se diseña de acuerdo con los principios de normalización la manipulación de datos será mas fácil.
No existe la base de datos de una determinada empresa u organización en el mercado sino que existe en el mercado empresas que venden base de datos, las cuales crean y construyen base de datos para nuestra empresa. Lo mismo es interesante para un hotel ya que puede enviarles a estas empresas un perfil de sus clientes y estas preparar una base de datos de acuerdo a este perfil. Otros datos que pueden estar contenidos en una base de datos de un hotel podrían ser un sitio de internet por medio del cual puedan realizar consultas de tarifas, paquetes y  servicios. Otra ventaja que nos permite como hoteleros las bases de datos es brindar un servicio mas personalizado ya que con la información que obtenemos cuando un huésped se hospeda por primera vez luego podemos usar esta información de forma productiva, logrando que el huésped se sienta especial, ya que nuestra base de datos vamos a tener el perfil de nuestro cliente ingresando los datos importantes como sus preferencias y sus gustos, lo que nos permite adelantarnos a algún pedido del cliente. Esto es importante ya que los detalles pueden llegar a diferenciarnos con la competencia.



Ventajas de los Sistemas de Administración de Bases de Datos
  • La complejidad del ambiente de sistemas de informaciones las instituciones puede reducirse mediante la administración centralizada de los datos, los accesos, el uso y seguridad.
  • La redundancia de los datos se puede reducir eliminando todos los archivos aislados en los cuales se repiten los mismos elementos de datos.
  • Las confusiones en los datos se pueden eliminar proporcionando un control central de la creación y definición de los datos.
  • La dependencia de los datos del programa puede reducirse al separar la imagen física de los datos de su ordenamiento físico.
  • El desarrollo del programa y los costos de mantenimiento pueden reducirse de una manera radical.
  • La flexibilidad de los sistemas de información puede verse normalmente estimulada al permitir consultas rápidas y baratas dentro del gran volumen de información.
  • El acceso y la disponibilidad de la información pueden incrementarse.

Las instituciones tienen tres retos para incrementar las bases de datos estos son

1.     Obstáculos institucionales para un ambiente de base de datos es decir que las instituciones requieren un cambio total en cuanto al papel que desempeña la información y puede que se generen resistencias políticas para realizarlo. En un ambiente tradicional de archivos cada departamento elabora sus archivos pero con una base de datos los archivos, programas deben ser elaborados tomando en cuenta los intereses totales de la institución en los datos.
2.    Consideraciones de Costo – Beneficio, los costos de cambiar a un ambiente de base de datos son tangibles, directos y grandes a corto plazo, aproximadamente 3 años. La mayor parte de las empresas adquieren un paquete de Sistema de Administración de Base de Datos (SABD) comercial y el paquete de hardware relativo. Solamente el software puede costar medio millón de dólares para un paquete del tipo total, con todas las opciones. La alta dirección se da cuenta pronto que un sistema de base de datos es una inversión enorme. Puede no cosechar los beneficios que debiera porque la institución no desea realizar los cambios organizacionales requeridos. Las personas en la institución comprenden el sistema actual luego de largos periodos de capacitación y de socialización. Cuando los costos políticos a corto plazo se añaden a la ecuación, resulta conveniente para la alta dirección diferir la inversión en base de datos. Los beneficios evidentes a largo plazo sel SABD tienden a ser severamente minimizados por los administradores, en especial aquellos no familiarizados con los sistemas de información.
3.    Ubicación en la institución de la función de administración de información. Muchas instituciones que buscan evadir grandes compromisos y cambios organizacionales, empiezan y terminan por comprar un paquete de SABD y colocarlo en manos de un grupo de base de datos de bajo nivel en el departamento de sistemas de información.  Esto conduce a un enfoque de un uso mínimo de la base de datos; sistemas pequeños de base de datos que serán desarrollados para distintas divisiones, áreas funcionales. Resulta incompatibles en toda la empresa y fracasa en alcanzar la cuestión clave.

Tipos de Bases de Datos
  • Según la variabilidad de los datos almacenados
    • Estáticas: Son bases de datos solo de lectura, utilizadas primordialmente para almacenar datos históricos que posteriormente se pueden utilizar para estudiar el comportamiento de un conjunto de datos a través del tiempo, realizar proyecciones y tomar decisiones.
    • Dinamias: Son bases de datos donde la información almacenada se modifica con el tiempo, permitiendo operaciones como actualización y adición de datos, además de las operaciones fundamentales de consulta. Un ejemplo sería una farmacia, un videoclub, ect.

  • Según el contenido
    • Bibliográficas: Contienen un representante de la fuente primaria, que permite localizarla. Un registro típico de una base de datos bibliográfica contiene información sobre el autor, fecha de publicación, editorial, titulo, edición, de una determinada publicación, un resumen o estracto de la publicación original, pero nunca el texto completo, porque sino estaríamos en presencia de un documento de procesador de texto demasiado pesado para la base de datos.
    • Numéricas: El contenido son cifras o números, un ejemplo seria los resultados de análisis de laboratorio.
    • De texto completo: Almacenan las fuentes primarias, como por ejemplo el contenido de las ediciones de colección de revistas informáticas.
    • Directorios: Un ejemplo son la guias telefónicas en formato electrónico.
    • Banco de imágenes, audio, video, multimedia, ect: Almacenan información en diferentes formatos, por ejemplo JPG, AVI, wma, mp3, ect.
    • Bibliotecas: almacenan diferentes tipos de información como por ejemplo de la ciencia medica o de la vida humana, se pueden considerar varios subtipos: por ejemplo las que almacenan secuencias de proteínas, rutas metabólicas, experimentos sobre estructuras 3D de biomoléculas, ect.
    • Modelos de bases de datos: Un modelo de base de datos es uns “descripción” de algo conocido como contenedor de datos asi como de los métodos para almacenar y recuperar información de esos contenedores. Los modelos de datos no son cosas físicas: son abstracciones que permiten la implementación de un sistema eficiente de base de datos.

Microsoft Access

Es un sistema de administración de bases de datos relacionales diseñando para ser utilizado bajo Windows. Permite navegar entre los datos en forma inmediata y simple. Es capaz de automatizar las tareas y brindar información organizada y sistematizada, permitiendo al usuario gestionar bases de dats sin grandes complicaciones.

Crear una base de datos Access
Para crear una tabla de datos tenemos que hacer clic en la pestaña Crear. En el grupo Tablas podremos seleccionar estas opciones:

·         El botón Tabla abre la Vista Hoja de datos, consiste en introducir directamente los datos en la tabla y según el valor que introduzcamos en la columna determinará el tipo de datos que tiene la columna.

·         Vista diseño es el método que detallaremos en esta unidad didáctica

·         Listas de SharePoint consiste en crear un objeto compatible con un sitio SharePoint desde el que podrás compartir los datos almacenados en la lista o tabla con otras personas con acceso al mismo sitio.

·         Desde el grupo Plantillas también podemos acceder a Elementos de aplicación, que permite crear una tabla de entre las plantillas disponibles. Sólo tendrás que rellenarla con sus datos.

·         Otra forma rápida de llegar a la Vista Diseño es haciendo clic en el botón de la barra de estado inferior. También en caso de estar editando una tabla, encontraremos el botón Ver > Vista Diseño, en la pestaña Campos de las Herramientas de tabla.



En la pestaña tenemos el nombre de la tabla (como todavía no hemos asignado un nombre a la tabla, Access le ha asignado un nombre por defecto Tabla1).
A continuación tenemos la rejilla donde definiremos las columnas que componen la tabla, se utiliza una línea para cada columna, así en la primera línea (fila) de la rejilla definiremos la primera columna de la tabla y así sucesivamente.
En la parte inferior tenemos a la izquierda dos pestañas (General y Búsqueda) para definir las propiedades del campo, es decir, características adicionales de la columna que estamos definiendo.
Y a la derecha tenemos un recuadro con un texto que nos da algún tipo de ayuda sobre lo que tenemos que hacer, por ejemplo en este nomento el cursor se encuentra en la primera fila de la rejilla en la columna Tipo de datos y en el recuadro inferior derecho Access nos indica que el tipo de datos determina la clase de valores que admitirá el campo.
Vamos rellenando la rejilla definiendo cada una de las columnas que compondrá la tabla:



En la primera fila escribir el nombre del primer campo, al pulsar la tecla INTRO pasamos al tipo de datos, por defecto nos pone Texto como tipo de dato. Si queremos cambiar de tipo de datos, hacer clic sobre la flecha de la lista desplegable de la derecha y elegir otro tipo.
En Office 2010 se ha incluido un nuevo tipo de datos que no se encontraba en versiones anteriores: Calculado


Crear Formularios
Para crear un formulario tenemos varias opciones.
Podemos acceder a todas ellas desde la pestaña Crear:

·         Formulario consiste en crear automáticamente un nuevo formulario que contiene todos los datos de la tabla, consulta o informe seleccionado en el Panel de Navegación.

·         Diseño del formulario abre un formulario en blanco en la Vista Diseño y tenemos que ir incorporando los distintos objetos que queremos aparezcan en él. Este método no se suele utilizar ya que en la mayoría de los casos es más cómodo y rápido crear un autoformulario o utilizar el asistente y después sobre el formulario creado modificar el diseño para ajustar el formulario a nuestras necesidades. En esta unidad veremos más adelante cómo modificar el diseño de un formulario.

·         Formulario en blanco consiste en crear un nuevo formulario sin contenido, pero en vez de abrirse en Vista Diseño como la anterior opción, se abrirá en Vista Presentación. Esta vista ofrece ventajas, como poder incorporar datos simplemente arrastrando el objeto (consulta, informe, tabla...) desde el Panel de Navegación.

·         Asistente para formularios utiliza un asistente que nos va guiando paso por paso en la creación del formulario.

·         Navegación te permite crear un formulario dedicado a la navegación, que simula la estructura típica de menús de una página web. Podrás elegir entre seis diseños distintos.

Consultas

Las consultas son los objetos de una base de datos que permiten recuperar datos de una tabla, modificarlos e incluso almacenar el resultado en otra tabla.

Existen varios tipos de consultas:

·         Consultas de selección: Son las consultas que extraen o nos muestran datos. Muestran aquellos datos de una tabla que cumplen los criterios especificados. Una vez obtenido el resultado podremos consultar los datos para modificarlos (esto se podrá hacer o no según la consulta). Una consulta de selección genera una tabla lógica (se llama lógica porque no está físicamente en el disco duro sino en la memoria del ordenador y cada vez que se abre se vuelve a calcular).

·         Consultas de acción: Son consultas que realizan cambios a los registros. Existen varios tipos de consultas de acción, de eliminación, de actualización, de datos anexados y de creación de tablas. Las veremos más adelante.

·         Consultas específicas de SQL: Son consultas que no se pueden definir desde la cuadrícula QBE de Access sino que se tienen que definir directamente en SQL, como por ejemplo las de Unión. Estas consultas no se estudiarán en este curso ya que para definirlas hay que saber SQL, cosa que no es objeto de este curso.

Pero si tienes ganas de aprender, puedes seguir nuestro Tutorial de SQL o nuestro Curso de SQLServer, con los que aprenderás a realizar consultas manualmente.


Diseño de Bases de Datos

La base de datos requiere tanto un diseño conceptual como uno físico. El diseño conceptual de la base de datos es un modelo abstracto de esta desde una perspectiva desde una perspectiva de negocios, mientras que el diseño físico muestra la verdadera disposición de la base de datos en los dispositivos de almacenamiento de acceso directo.

Diagramas de normalización y de entidad – relación
El diseño de base de datos conceptual describe la forma en que se deben agrupar los elementos de datos en la base. Este proceso identifica a los elementos de datos redundantes y las agrupaciones de elementos de datos requeridas para ciertos programas de aplicaciones específicos.
El proceso de crear estructuras de datos pequeñas y estables pero que a su vez sean flexibles y adaptivas a partir de grupos complejos de datos se denomina normalización.
Los sistemas de bases de datos relacionales tratan de cumplir reglas de integridad referencial para asegurar que las relaciones entre las tablas acopladas permanezcan consistentes.
Los diseñadores  de bases de datos documentan su modelo de datos con un diagrama entidad relación. Los cuadros representan las entidades y las líneas que conectan los cuadros, las relaciones. Una línea que conecta dos entidades que termina en dos marcas cortas designa una relación de uno a uno.

Uso de base de datos para mejorar el desempeño de negocios y la toma de decisiones
Las empresas utilizan sus bases de datos para llevar el registro de las transacciones básicas, como por ejemplo pagar a los empleados. Pero también se necesitan las bases de datos para proveer información que ayude a la compañía a operar sus negocios con más eficiencia, como también ayudar a los gerentes y empleados a tomar mejores decisiones.
En una compañía grande, con base de datos o sistemas extensos para funciones separadas, se requieren capacidades y herramientas especiales para analizar enormes cantidades de datos y acceder a los datos de múltiples sistemas. Estas capacidades incluyen almacenes de datos, minería de datos y herramientas para acceder a las bases de datos internas a través de web.

Almacenes de datos
Un almacén de datos es una base de datos que almacena la información actual e histórica de interés potencial para los encargados de tomar decisiones en la compañía. Los datos se originan en muchos sistemas de transacciones operacionales básicos, como los sistemas de ventas y pueden incluir datos de transacciones de sitios web.  El almacén de datos consolida y estandariza la información de distintas bases de datos operacionales, para que se pueda utilizar en toda la empresa para el análisis gerencial y la toma de decisiones.

Mercado de datos
El mercado de datos es un subconjunto de un almacén de datos, es decir son almacenes más pequeños y descentralizados. Un mercado de datos se enfoca en un solo tema o línea de negocios, por lo que es común que se construya con más rapidez y a un menor costo que un almacén de datos a nivel empresarial.

Herramientas para la inteligencia de negocios: Análisis de datos multidimensional y minería de datos
Las herramientas de inteligencia de negocios permiten a los usuarios analizar datos para ver nuevos patrones, relaciones y perspectivas que son útiles para guiar la toma de decisiones.

Procesamiento analítico en línea (OLAP)
El procesamiento en línea (OLAP) soporta el análisis de datos multidimensional, el cual permite a los usuarios ver los mismos datos de distintas formas mediante el uso de varias dimensiones. Cada aspecto de información representa una dimensión distinta.
OLAP permite a los usuarios obtener respuestas en línea a las preguntas ad hoc en un periodo de tiempo bastante corto, incluso cuando los datos se almacena en bases de datos muy grandes , como por ejemplo las cifras de ventas de varios años.

Minería de datos
La minería de datos esta mas orientada al descubrimiento, ya que provee perspectivas hacia los datos corporativos que no se pueden obtener mediante la OLAP, al encontrar patrones y relaciones cultas en las bases de datos grandes e inferir reglas a partir de estos patrones y relaciones, para predecir el comportamiento futuro. Los patrones y reglas se utilizan para guiar la toma de decisiones y pronosticar  el efecto de esas decisiones.
Los tipos de información que se pueden obtener de la minería de datos son:
  • Las asociaciones son ocurrencias vinculadas a un solo evento. Esta información ayuda a los gerentes a tomar mejores decisiones.
  • En las secuencias, los eventos se vinculan en el transcurso del tiempo.
  • La clasificación reconoce los patrones que describen el grupo al que pertenece un elemento, para lo cual se examinan los elementos existentes que hayan sido clasificados y se infiere un conjunto de reglas.
  • El agrupamiento funciona de una manera similar a la clasificación cuando aún no se han definido los grupos.
  • Aunque estas aplicaciones implican predicciones, el pronóstico utiliza las predicciones de una manera distinta. Se basa en una serie de valores existentes para pronosticar cuáles serán los otros valores.
Estos análisis realizan análisis de alto nivel de los patrones o tendencias, pero también pueden profundizar para proveer mas detalles cuando sean necesarios.
El análisis predictivo utiliza las técnicas de minería de datos, los datos históricos y las suposiciones sobre las condiciones futuras para predecir los resultados de los eventos, como por ejemplo que un cliente compre un producto especifico.

Minería de datos y minería web
En la actualidad hay herramientas de minería de texto, es una tecnología relativamente nueva, disponibles para ayudar a las empresas a analizar estos datos. Estas herramientas pueden extraer elementos clave de los conjuntos de datos extensos no estructurados, descubrir patrones y relaciones, así como sintetizar la información.
La web es otra fuente extensa de información valiosa. El descubrimiento y análisis de los patrones útiles y la información proveniente de World Wide Web se denominan minería web. Las empresas podrían recurrir a la minería web para que les ayude a comprender el comportamiento de los clientes, evaluar la efectividad de un sitio web específico o cuantificar el éxito de una campaña de marketing.
La minería web busca patrones a través de:
·         Minería de contenido es el proceso de extraer conocimiento del contenido de paginas web
·         Minería de estructura extrae información útil de los vínculos incrustados en documentos web
·         Minería de uso examina los datos de interacción de los usuarios registrados por un servidor web cada vez que se reciben solicitudes relacionadas con los recursos de un sitio web

Las bases de datos y web
Muchas compañías utilizan web para poner parte de la información en sus bases de datos internas a disposición de los clientes y los socios de negocios.
El software de navegador web del usuario solicita información a la base de datos de la organización, mediante comandos de HTML para comunicarse con el servidor web.
Como muchas bases de datos de procesamiento en segundo plano (back-end) no pueden interpretar comandos escritos de HTML, el servidor web pasa estas solicitudes de datos al software que traduce los comandos de HTML en SQL, de modo que el DBMS que trabaja con la base de datos pueda procesarlos. En un entorno cliente/servidor, el DBMS reside en una  computadora dedicada llamada servidor de base de datos.
 El software para manejar estas operaciones podría ser un programa personalizado o una secuencia de comandos CGI: un programa compacto que utiliza la especificación interfaz de puerta de enlace común (CGI) para procesar datos en un servidor web.
Ventajas en cuanto al uso de web para acceder a las bases de datos internas de una organización:
  • El software de navegador web es mucho mas fácil de usar que las herramientas de consulta propietarias.
  • La interfaz web requiere pocos o ningún cambio en la bases de datos interna.
  • Es mucho menos costoso agregar una interfaz web frente a un sistema heredado que rediseñar y reconstruir el sistema para mejorar el acceso de los usuarios.
Establecimiento de una política de información
Una política de información es la que especifica las reglas de la organización para compartir, diseminar, adquirir, estandarizar, clasificar e inventariar la información. La política de información establece procedimientos y rendiciones de cuentas específicos, identifica que usuarios y unidades organizacionales pueden compartir información, en donde distribuirla y quien es responsable de actualizarla y mantenerla.
La administración de datos es responsable de las políticas y procedimientos específicos a través de los cuales se pueden administrar los datos como un recurso organizacional.  Estas responsabilidades abarcan el desarrollo de la política de información, la planificación de los datos, la supervisión del diseño lógico de la base de datos, y el desarrollo del diccionario de datos.
La gobernanza de datos es promovida por IBM y se encarga de las políticas y procedimientos para administrar la disponibilidad, utilidad, integridad y seguridad de los datos empleados en una empresa, con un énfasis especial en promover la privacidad, seguridad, calidad de los datos y el cumplimientos con las regulaciones gubernamentales.

Aseguramiento de la calidad de los datos
Una base de datos y una política bien diseñadas son un gran avance en cuanto a asegurar que la empresa tenga la información que necesita. Para esto, hay que llevar a cabo ciertas acciones adicionales para asegurar que los datos en las bases de datos organizacionales sean precisos y permanezcan confiables.
Antes de implementar una nueva base de datos, las organizaciones necesitan identificar y corregir sus datos incorrectos y establecer mejores rutinas para editar los datos una vez que su base este en operación. El análisis de la calidad de los datos empieza con una auditoria de calidad de los datos, que es una encuesta estructurada de la precisión y el nivel de su integridad en un sistema de información.
La limpieza de datos, conocida en inglés como data scrubbing, consiste en actividades para detectar y corregir datos en una base que sean incorrectos, incompletos, que tengan un formato inapropiado o que sean redundantes. También impone la consistencia entre los distintos conjuntos de datos que se originan en sistemas de información separados.