Tópicos de Base de Datos

miércoles, 12 de octubre de 2011

Datawarehouse

Actividad 1

Datawarehouse

Iván Herrera Evangelista

1. ¿CUAL ES LA FUNCIONALIDAD DE USAR UN DATA-WAREHOUSE EN BUSINESS INTELLIGENT?

Business Intelligence se refiere principalmente al equipo basado en las técnicas utilizadas en la identificación, extracción, y el análisis de los datos de negocio, tales como los ingresos por ventas de productos y/o departamentos, o por los costos asociados y los ingresos y con esto datamart hará el almacenamiento de los datos el cual tiene como propósito de ayudar a que un área específica dentro del negocio pueda tomar mejores decisiones.

2. ¿QUE RELACIÓN TIENE CON LOS TÉRMINOS OLTP Y OLAP?

Es consultado mediante herramientas OLAP (On line Analytical Processing - Procesamiento Analítico en Línea) que ofrecen una visión multidimensional de la información. Sobre estas bases de datos se pueden construir EIS (Executive Information Systems, Sistemas de Información para Directivos) y DSS (Decision Support Systems, Sistemas de Ayuda a la toma de Decisiones). Y OLTP de un negocio, realizan el proceso de transformación al almacén de datos (filtración, adaptación, cambios de formato, etc.) y escriben en el almacén.

3. ¿COMO ESTA ESTRUCTURADO EL DATA-WAREHOUSE DE ACUERDO A LOS SIGUIENTES PUNTOS?

- DATOS OPERACIONALES

o Con el objetivo preciso de convertir los datos operacionales en información relacionada y estructurada, homogénea y de mayor calidad, identificada convenientemente. Este conjunto de datos sobre los datos se denomina Metadatos y que se mantengan en el tiempo, es decir, los datos más recientes no sustituyen a los precedentes, pero tampoco se acumulan de cualquier manera, sino que se suele mantener con un mayor nivel de detalle, mientras que los datos anteriores se mantienen en línea de manera agregada pudiéndose acceder en diferido a su detalle.

- EXTRACCIÓN Y TRASFORMACIÓN DE DATOS

o Es el proceso que permite a las organizaciones mover datos desde múltiples fuentes, reformatearlos y limpiarlos, y cargarlos en otra base de datos, datamart, o data warehouse para analizar, o en otro sistema operacional para apoyar un proceso de negocio.

- CARGA DE DATOS

o Carga de Datos: inserción sistemática de datos en el componente de almacenamiento físico DTM.

- DATA-WAREHOUSE

o Es una base de datos corporativa que se caracteriza por integrar y depurar información de una o más fuentes distintas, para luego procesarla permitiendo su análisis desde infinidad de perspectivas y con grandes velocidades de respuesta. La creación de un datawarehouse representa en la mayoría de las ocasiones el primer paso, desde el punto de vista técnico, para implantar una solución completa y fiable de Business Intelligence.

- HERRAMIENTAS DE ACCESO

o Herramientas de acceso al almacenamiento físico DTM: herramientas que proveen acceso a los datos. Estas herramientas pueden ser herramientas específicas de mercado para visualización de bases multidimensionales como MS-EXCEL.

o PowerCenter accede a los datos y los entrega en el momento y en la forma en que el negocio lo exige. La plataforma ofrece un acceso a los datos en tiempo real o por lotes, o bien empleando la captura de cambios (CDC, Change Data Capture).

4. ¿DE ACUERDO A LO MOSTRADO EN LA PAGINA CUALES SON LAS VENTAJAS AL UTILIZAR DATA-WAREHOUSE?

§ Los almacenes de datos hacen más fácil el acceso a una gran variedad de datos a los usuarios finales

§ Facilitan el funcionamiento de las aplicaciones de los sistemas de apoyo a la decisión tales como informes de tendencia', por ejemplo: obtener los ítems con la mayoría de las ventas en un área en particular dentro de los últimos dos años; informes de excepción, informes que muestran los resultados reales frente a los objetivos planteados a priori.

§ Los almacenes de datos pueden trabajar en conjunto y, por lo tanto, aumentar el valor operacional de las aplicaciones empresariales, en especial la gestión de relaciones con clientes.

5. ¿QUE SOFTWARE DE LICENCIA O LIBRE NECESITA?

· Cognos ReportNet

· Red Brick Warehouse

· Essbase

· Pilot Decission Support Suite

· Microsoft SQL Server

REFERENCIA.

· http://www.stratebi.com/

· http://www.todobi.com/

martes, 27 de septiembre de 2011

ATAQUES CIBERNÉTICO Y SISTEMAS DE AUTENTICACION

ATAQUES CIBERNÉTICO

- Ataques URL de tipo semántico

o Replican el aspecto de la página web (diseño, contenido, estructura, etc), por ejemplo si en vez de poner GOOGLE pones GOGLE te abrirá una página o buscador muy parecido a la página principal de GOOGLE.

- Ataques al subir archivos

o Al momento de subir archivos a internet te da la opción de examinar el equipo y en ese momento le das permiso para acceder a los archivos, lo cual es un riesgo ya que podrían robarte o hacerle daño a tu información personal.

- Ataques CROSS SITE SCRIPTING

o Consiste en que el atacante ingresa código HTML o javascript en los formularios y si estos no está filtrados correctamente mostrarán este código en nuestra página alterando el contenido original.

- Envió de formas falsificadas

o Este tipo de ataque intenta adquirir información confidencial de forma fraudulenta (como puede ser una contraseña o información detallada sobre tarjetas de crédito u otra información bancaria). Por ejemplo, en una página que te dice que eres el 9999 usuario y que eres ganador de tal premio pero necesita que le pases tus datos personales para entregarte el premio.

- Peticiones http falsificadas

o Estas falsas alertas se aprovechan de los temores de los usuarios en temas de seguridad y, por lo general, aparece en forma de pop-up en páginas web con publicidad o descargas. También se ha utilizado con trucos de ingeniería social, engañando a los usuarios para que hagan click en los archivos adjuntos o en un enlace.

SISTEMAS DE AUTENTICACIÓN

El problema de la autorización a menudo, es idéntico a la de autenticación; muchos protocolos de seguridad extensamente adoptados estándar, regulaciones obligatorias, y hasta estatutos están basados en esta asunción. Sin embargo, el uso más exacto describe la autenticación como el proceso de verificar la identidad de una persona, mientras la autorización es el proceso de verificación que una persona conocida tiene la autoridad para realizar una cierta operación. La autenticación, por lo tanto, debe preceder la autorización.

Características de autenticación

Cualquier sistema de identificación ha de poseer unas determinadas características para ser viable:

- Ha de ser fiable con una probabilidad muy elevada (podemos hablar de tasas de fallo de en los sistemas menos seguros).

- Económicamente factible para la organización (si su precio es superior al valor de lo que se intenta proteger, tenemos un sistema incorrecto).

- Soportar con éxito cierto tipo de ataques.

- Ser aceptable para los usuarios, que serán al fin y al cabo quienes lo utilicen.

Métodos de autenticación

Los métodos de autenticación están en función de lo que utilizan para la verificación y estos se dividen en tres categorías:

- Sistemas basados en algo conocido. Ejemplo, un password (Unix) o passphrase (PGP).

- Sistemas basados en algo poseído. Ejemplo, una tarjeta de identidad, una tarjeta inteligente (smartcard), dispositivo usb tipo epass token, smartcard o dongle criptográfico.

- Sistemas basados en una característica física del usuario o un acto involuntario del mismo: Ejemplo, verificación de voz, de escritura, de huellas, de patrones oculares.

lunes, 26 de septiembre de 2011

Mapa de E-Bussiness y E-Learning

lunes, 5 de septiembre de 2011

Bases de Datos Paralelas

Bases de Datos Paralelas

¿Por qué tener bases de datos paralelas?

· Tipos de arquitecturas:

· Memoria Compartida

· Disco Compartido

· Sin Compartimento

· Jerárquica

Paralelismo de I/O

División de las relaciones en varios discos (particiones)

Aumento de la velocidad en el acceso a los datos

Técnicas de división

Asegura distribución homogénea

División por Asociación: Definir una función

División por Rangos: Dado un atributo partirlo en rangos y cada rango se almacena en un disco.

Sesgo

La división entre los discos no es equitativa

Clasificación:

- Sesgo de valores de los atributos: Un determinado valor para un atributo es más frecuente que otro.

- Sesgo de la división: Desequilibrio en la carga de la distribución aunque no haya sesgo en los atributos. La operación más larga en paralelo es la que determina el tiempo total de la operación

Paralelismo entre Consultas

Varias transacciones al tiempo

El tiempo de una transacción es el mismo pero se incrementa la productividad (throughput)

Consideraciones de implementación:

Coherencia del cache y evitar que dos procesadores modifiquen al tiempo un mismo dato (Protocolos de Bloqueo).

Paralelismo en Consultas

Los conjuntos son parte constitutiva de las bases de datos y por tanto son susceptibles a ser paralelizables. Se pueden hacer en paralelo cada uno de los nodos del árbol de operaciones y Puede presentare paralelismo en o entre operaciones

Paralelismo en Operaciones

Ordenamiento: Realizar una partición de los datos para cada procesador (depende del esquema de particionamiento utilizado). Hacer merge de cada una de las partes ordenadas

Reunión:

Por división: Solo para equireuniones y los atributos de reunión deben ser los mismos del particionamiento. Las dos relaciones deben particionarse con la misma función o rango. Cada procesador se encarga de seleccionar las tuplas que concuerdan

Reunión con fragmentos y replicas: Para reuniones con condiciones de desigualdad Se parte una de las relaciones y se replica la otra en cada procesador. La relación pequeña suele replicarse. En general, se pueden dividir ambas relaciones y construir una “matriz de procesadores”

Paralelismo en otras Operaciones

Selección: Si la condición es una condición de particionamiento, cada procesador puede seleccionar algunas tuplas y luego reunirlas.

- Eliminación de duplicados: Utilizar un ordenamiento paralelo y luego realizar la eliminación

- Agregación: Calcular resultados parciales y luego calcular el resultado total

Paralelismo entre operaciones

Paralelismo de encauzamiento: Una operación consume el resultado de otra

No siempre es útil pues una operación puede requerir la totalidad de las tuplas y no bastarle resultados parciales. No siempre las operaciones son tan largas para esperar

Paralelismo Independiente:

Cada operación se realiza por separado y luego otra operación las reúne

- Tiempo de ejecución en Paralelo

- Problemas del Paralelismo

- Sesgo

- Cuello de botella en los recursos

- Costo de reunión y de inicio

- Tiempo de ejecución

Ventajas

- Mejoramiento del Throughput y la velocidad de procesamiento “Visualización” del cluster como si fuera una ´única maquina

- Escalabilidad: Adición de nuevos nodos para mejorar el desempeño

- Alta disponibilidad: Rápida recuperación ante fallos y redistribución de la carga para seguir funcionando

- Transparencia: Las aplicaciones “ve” el OPS como una ´única instancia de base de datos

- Manejo del Buffer de Cache: Control del cache de cada uno de los nodos sin perder las ventajas de los mismos

- Escrituras diferidas: Solo escribe cuando:

Los bloques en memoria ppal no se han utilizado frecuentemente o se termina el espacio

Durante los puntos de chequeo

Cuando otra instancia necesita dichos bloques

Control multiversión de los datos por registro

Arquitecturas de Hardware Paralelas

- Nodo: Equipo de cómputo con CPU, memoria, almacenamiento e intercomunicación.

- Uniform Menor Access: Todos los procesadores acceden a la memoria a la misma velocidad. (Symmetric Multi-Processing System)

- Non-Uniform Memory Access: El acceso a memoria tiene un costo dependiendo del nodo

Acceso a Disco en Clusters

- Uniform Disk Access: o Acceso a disco compartido, el costo de acceso es igual para todos los nodos (granjas de discos)

Los datos son compartidos y están disponibles así un nodo falle

Pueden crecer fácilmente

Non-Uniform Disk Access: El costo de los accesos varía entre los nodos

Los requerimientos de lectura pasan por una capa de software que se encarga del control

Conocidos como sin-compartimento y una ventaja es el número de nodos no está limitado

Tendencia

La tendencia es disminuir el número de nodos del cluster, cada nodo con un potente sistema SMP y el acceso a disco compartido

Cluster Manager

- Control de los miembros del cluster

- Visión global del cluster

- Provisto por otros proveedores

- Detecta fallas en los nodos y termina todos los procesos asociados al mismo (lo marca como inactivo)

Node Monitor

- Informa el estado de los recursos de un nodo

- Informa al Oracle Server cuando se inician y apagan instancias de Oracle

- Detecta cambios en el estado de los nodos

Escalabilidad del OPS

Aumento de la velocidad distribuyendo los procesos en los diferentes nodos

Más procesos por unidad de tiempo (throughput) y aumentar y disminuir el número de instancias de acuerdo al número de usuarios concurrentes sobre el sistema

Medidas de la Eficiencia

Scale-Up: Cuanto trabajo puede ser hecho en el mismo tiempo por un sistema más potente Scale − Up = Vol Paralelo/Vol Original

Speed-up: El sistema puede realizar la tarea en menos tiempo

Aplicaciones apropiadas para el OPS

- Data Warehousing: Muchas consultas concurrentes y los bloques pueden residir en los buffers

- Departmentalized Application: Cada nodo puede tomar a cargo un departamento de la compañía (importante que las tablas a actualizar no sean comunes)

Niveles de Escalabilidad

- Escalabilidad de HW y RED: La interconexión entre los nodos es de vital importancia (latencia en el B.W. Y en el I/O)

- Escalabilidad del S.O: Manejo de la memoria compartida, sincronización y acceso a los recursos

- Escalabilidad del DBMS: El motor paraleliza las consultas o un agente externo

Base de datos multidimensional

Las bases de datos multidimensionales se utilizan principalmente para crear aplicaciones OLAP y pueden verse como bases de datos de una sola tabla, su peculiaridad es que por cada dimensión tienen un campo (o columna), y otro campo por cada métrica o hecho, es decir estas tablas almacenan registros cuyos campos son de la forma:

Bases de datos multidimensionales vs. Cubos OLAP

Cada una de estas tablas puede asimilarse a un hipercubo o -más concretamente si de herramientas OLAP se trata- a un cubo OLAP, donde las dimensiones del mismo se corresponden los campos de dimensiones de la tabla (campos 'd_i...'), y el valor almacenado en cada celda del cubo equivale a la métrica o métricas (campos 'f_i...') almacenadas en la tabla.

Implementación

Lo más importante a tener en cuenta para implementar esta estructura de datos es que la tabla contiene todas las n-tuplas, con los valores de las dimensiones, o índice del cubo, y los valores de las métricas previamente calculados para el cruce de valores del índice en cuestión.

Ejemplo

Dada la siguiente especificación para una tabla (o hipercubo) en una base de datos multidimensional:

Dimensión (Tiempo, Productos)

Jerarquía (Año->Semestre->Mes->Semana),(Categoría->Línea->Marca)

Elementos (2006, 2007, ..., S1-06, ..., Ene-06, ..., 200625....),

(Todos, Máquinas, Refacciones, Máquinas caras, Máquinas Baratas, Máquina 1,...)

Hechos (Ventas, Inventario, Defectos, Devoluciones)

Métricas (PD:=Devoluciones/Ventas, %Defectos)

La tabla resultante podría tener la forma siguiente:

Tabla

Tiempo Productos Ventas Inventario Defectos Devoluciones P/D %Defectos

2006 Todos 1000 200 50 10 1/100 5%

Ene06 Máquina 1 10 100 10 10 10/10 100%

...

Base de datos Multivaluada

Las bases de datos Multivaluadas (multivalue database) son un tipo especial de base de datos multidimensionales, también llamadas bases de datos PICK por el primer desarrollo que se realizó de este tipo, la aplicación "Pick operating system".

Concepto

El modelo de datos más extendido es el modelo relacional, este modelo se basa en las leyes de la normalización de bases de datos; según estás normas, y concretamente, según la primera forma normal, un campo de una base de datos no puede contener valores múltiples. En una base de datos multivaluada no se aplica la regla de la primera forma normal, es decir, se permite que un campo pueda tener más de un valor almacenado.