Vistas de página en total

miércoles, 12 de octubre de 2011

Datawarehouse

Actividad 1
Datawarehouse
Iván Herrera Evangelista

1.      ¿CUAL ES LA FUNCIONALIDAD   DE USAR UN DATA-WAREHOUSE EN BUSINESS INTELLIGENT?
Business Intelligence se refiere principalmente al equipo basado en las técnicas utilizadas en la identificación, extracción, y el análisis de los datos de negocio, tales como los ingresos por ventas de productos y/o departamentos, o por los costos asociados y los ingresos y con esto datamart hará el almacenamiento de los datos el cual tiene como propósito de ayudar a que un área específica dentro del negocio pueda tomar mejores decisiones.
2.      ¿QUE RELACIÓN TIENE CON LOS TÉRMINOS OLTP Y OLAP?

Es consultado mediante herramientas OLAP (On line Analytical Processing - Procesamiento Analítico en Línea) que ofrecen una visión multidimensional de la información. Sobre estas bases de datos se pueden construir EIS (Executive Information Systems, Sistemas de Información para Directivos) y DSS (Decision Support Systems, Sistemas de Ayuda a la toma de Decisiones). Y OLTP de un negocio, realizan el proceso de transformación al almacén de datos (filtración, adaptación, cambios de formato, etc.) y escriben en el almacén.

3.      ¿COMO ESTA ESTRUCTURADO EL DATA-WAREHOUSE DE ACUERDO A LOS SIGUIENTES PUNTOS?

-          DATOS OPERACIONALES
o   Con el objetivo preciso de convertir los datos operacionales en información relacionada y estructurada, homogénea y de mayor calidad, identificada convenientemente. Este conjunto de datos sobre los datos se denomina Metadatos y que se mantengan en el tiempo, es decir, los datos más recientes no sustituyen a los precedentes, pero tampoco se acumulan de cualquier manera, sino que se suele mantener con un mayor nivel de detalle, mientras que los datos anteriores se mantienen en línea de manera agregada pudiéndose acceder en diferido a su detalle.

-          EXTRACCIÓN Y TRASFORMACIÓN DE DATOS
o   Es el proceso que permite a las organizaciones mover datos desde múltiples fuentes, reformatearlos y limpiarlos, y cargarlos en otra base de datos, datamart, o data warehouse para analizar, o en otro sistema operacional para apoyar un proceso de negocio.

-          CARGA DE DATOS
o   Carga de Datos: inserción sistemática de datos en el componente de almacenamiento físico DTM.

-          DATA-WAREHOUSE
o   Es una base de datos corporativa que se caracteriza por integrar y depurar información de una o más fuentes distintas, para luego procesarla permitiendo su análisis desde infinidad de perspectivas y con grandes velocidades de respuesta. La creación de un datawarehouse representa en la mayoría de las ocasiones el primer paso, desde el punto de vista técnico, para implantar una solución completa y fiable de Business Intelligence.

-          HERRAMIENTAS DE ACCESO
o   Herramientas de acceso al almacenamiento físico DTM: herramientas que proveen acceso a los datos. Estas herramientas pueden ser herramientas específicas de mercado para visualización de bases multidimensionales como MS-EXCEL.
o   PowerCenter accede a los datos y los entrega en el momento y en la forma en que el negocio lo exige. La plataforma ofrece un acceso a los datos en tiempo real o por lotes, o bien empleando la captura de cambios (CDC, Change Data Capture).

4.      ¿DE ACUERDO A LO MOSTRADO EN LA PAGINA CUALES SON LAS VENTAJAS AL UTILIZAR DATA-WAREHOUSE?
§  Los almacenes de datos hacen más fácil el acceso a una gran variedad de datos a los usuarios finales
§  Facilitan el funcionamiento de las aplicaciones de los sistemas de apoyo a la decisión tales como informes de tendencia', por ejemplo: obtener los ítems con la mayoría de las ventas en un área en particular dentro de los últimos dos años; informes de excepción, informes que muestran los resultados reales frente a los objetivos planteados a priori.
§  Los almacenes de datos pueden trabajar en conjunto y, por lo tanto, aumentar el valor operacional de las aplicaciones empresariales, en especial la gestión de relaciones con clientes.

5.      ¿QUE SOFTWARE DE LICENCIA O LIBRE NECESITA?


·         Cognos ReportNet
·         Red Brick Warehouse
·         Essbase
·         Pilot Decission Support Suite
·         Microsoft SQL Server

REFERENCIA.
·         http://www.stratebi.com/
·         http://www.todobi.com/

martes, 27 de septiembre de 2011

ATAQUES CIBERNÉTICO Y SISTEMAS DE AUTENTICACION

ATAQUES CIBERNÉTICO
-          Ataques URL de tipo semántico
o   Replican el aspecto de la página web (diseño, contenido, estructura, etc), por ejemplo si en vez de poner GOOGLE pones GOGLE te abrirá una página o buscador muy parecido a la página principal de GOOGLE.

-          Ataques al subir archivos
o   Al momento de subir archivos a internet te da la opción de examinar el equipo y en ese momento le das permiso para acceder a los archivos, lo cual es un riesgo ya que podrían robarte o hacerle daño a tu información personal.

-          Ataques CROSS SITE SCRIPTING
o   Consiste en que el atacante ingresa código HTML o javascript en los formularios y si estos no está filtrados correctamente mostrarán este código en nuestra página alterando el contenido original.

-          Envió de formas falsificadas
o   Este tipo de ataque intenta adquirir información confidencial de forma fraudulenta (como puede ser una contraseña o información detallada sobre tarjetas de crédito u otra información bancaria). Por ejemplo, en una página que te dice que eres el 9999 usuario y que eres ganador de tal premio pero necesita que le pases tus datos personales para entregarte el premio.

-          Peticiones http falsificadas
o   Estas falsas alertas se aprovechan de los temores de los usuarios en temas de seguridad y, por lo general, aparece en forma de pop-up en páginas web con publicidad o descargas. También se ha utilizado con trucos de ingeniería social, engañando a los usuarios para que hagan click en los archivos adjuntos o en un enlace.

SISTEMAS DE AUTENTICACIÓN
El problema de la autorización a menudo, es idéntico a la de autenticación; muchos protocolos de seguridad extensamente adoptados estándar, regulaciones obligatorias, y hasta estatutos están basados en esta asunción. Sin embargo, el uso más exacto describe la autenticación como el proceso de verificar la identidad de una persona, mientras la autorización es el proceso de verificación que una persona conocida tiene la autoridad para realizar una cierta operación. La autenticación, por lo tanto, debe preceder la autorización.
Características de autenticación
Cualquier sistema de identificación ha de poseer unas determinadas características para ser viable:
-          Ha de ser fiable con una probabilidad muy elevada (podemos hablar de tasas de fallo de en los sistemas menos seguros).
-          Económicamente factible para la organización (si su precio es superior al valor de lo que se intenta proteger, tenemos un sistema incorrecto).
-          Soportar con éxito cierto tipo de ataques.
-          Ser aceptable para los usuarios, que serán al fin y al cabo quienes lo utilicen.

Métodos de autenticación
Los métodos de autenticación están en función de lo que utilizan para la verificación y estos se dividen en tres categorías:
-          Sistemas basados en algo conocido. Ejemplo, un password (Unix) o passphrase (PGP).
-          Sistemas basados en algo poseído. Ejemplo, una tarjeta de identidad, una tarjeta inteligente (smartcard), dispositivo usb tipo epass token, smartcard o dongle criptográfico.
-          Sistemas basados en una característica física del usuario o un acto involuntario del mismo: Ejemplo, verificación de voz, de escritura, de huellas, de patrones oculares.

lunes, 5 de septiembre de 2011

Bases de Datos Paralelas

Bases de Datos Paralelas

¿Por qué tener bases de datos paralelas?
·         Tipos de arquitecturas:
·         Memoria Compartida
·         Disco Compartido
·         Sin Compartimento
·         Jerárquica

Paralelismo de I/O
División de las relaciones en varios discos (particiones)
Aumento de la velocidad en el acceso a los datos
Técnicas de división
Asegura distribución homogénea
División por Asociación: Definir una función
División por Rangos: Dado un atributo partirlo en rangos y cada rango se almacena en un disco.


Sesgo
La división entre los discos no es equitativa

Clasificación:
-          Sesgo de valores de los atributos: Un determinado valor para un atributo es más frecuente que otro.
-          Sesgo de la división: Desequilibrio en la carga de la distribución aunque no haya sesgo en los atributos. La operación más larga en paralelo es la que determina el tiempo total de la operación


Paralelismo entre Consultas
Varias transacciones al tiempo
El tiempo de una transacción es el mismo pero se incrementa la productividad (throughput)

Consideraciones de implementación:
Coherencia del cache y evitar que dos procesadores modifiquen al tiempo un mismo dato (Protocolos de Bloqueo).

Paralelismo en Consultas
Los conjuntos son parte constitutiva de las bases de datos y por tanto son susceptibles a ser paralelizables. Se pueden hacer en paralelo cada uno de los nodos del árbol de operaciones y Puede presentare paralelismo en o entre operaciones


Paralelismo en Operaciones

Ordenamiento: Realizar una partición de los datos para cada procesador (depende del esquema de particionamiento utilizado). Hacer merge de cada una de las partes ordenadas

Reunión:
Por división: Solo para equireuniones y los atributos de reunión deben ser los mismos del particionamiento. Las dos relaciones deben particionarse con la misma función o rango. Cada procesador se encarga de seleccionar las tuplas que concuerdan

Reunión con fragmentos y replicas: Para reuniones con condiciones de desigualdad Se parte una de las relaciones y se replica la otra en cada procesador. La relación pequeña suele replicarse. En general, se pueden dividir ambas relaciones y construir una “matriz de procesadores”

Paralelismo en otras Operaciones
Selección: Si la condición es una condición de particionamiento, cada procesador puede seleccionar algunas tuplas y luego reunirlas.

-          Eliminación de duplicados: Utilizar un ordenamiento paralelo y luego realizar la eliminación

-          Agregación: Calcular resultados parciales y luego calcular el resultado total

Paralelismo entre operaciones
Paralelismo de encauzamiento: Una operación consume el resultado de otra
No siempre es útil pues una operación puede requerir la totalidad de las tuplas y no bastarle resultados parciales. No siempre las operaciones son tan largas para esperar

Paralelismo Independiente:
Cada operación se realiza por separado y luego otra operación las reúne

-          Tiempo de ejecución en Paralelo
-          Problemas del Paralelismo
-          Sesgo
-          Cuello de botella en los recursos
-          Costo de reunión y de inicio
-          Tiempo de ejecución

Ventajas
-       Mejoramiento del Throughput y la velocidad de procesamiento “Visualización” del cluster como si fuera una ´única maquina
-       Escalabilidad: Adición de nuevos nodos para mejorar el desempeño
-       Alta disponibilidad: Rápida recuperación ante fallos y redistribución de la carga para seguir funcionando
-       Transparencia: Las aplicaciones “ve” el OPS como una ´única instancia de base de datos
-       Manejo del Buffer de Cache: Control del cache de cada uno de los nodos sin perder las ventajas de los mismos
-       Escrituras diferidas: Solo escribe cuando:
Los bloques en memoria ppal no se han utilizado frecuentemente o se termina el espacio
Durante los puntos de chequeo
Cuando otra instancia necesita dichos bloques
Control multiversión de los datos por registro

Arquitecturas de Hardware Paralelas
-       Nodo: Equipo de cómputo con CPU, memoria, almacenamiento e intercomunicación.
-       Uniform Menor Access: Todos los procesadores acceden a la memoria a la misma velocidad. (Symmetric Multi-Processing System)
-       Non-Uniform Memory Access: El acceso a memoria tiene un costo dependiendo del nodo


Acceso a Disco en Clusters
-       Uniform Disk Access: o Acceso a disco compartido, el costo de acceso es igual para todos los nodos (granjas de discos)
Los datos son compartidos y están disponibles así un nodo falle
Pueden crecer fácilmente
Non-Uniform Disk Access: El costo de los accesos varía entre los nodos
Los requerimientos de lectura pasan por una capa de software que se encarga del control
Conocidos como sin-compartimento y una ventaja es el número de nodos no está limitado

Tendencia
La tendencia es disminuir el número de nodos del cluster, cada nodo con un potente sistema SMP y el acceso a disco compartido

Cluster Manager
-          Control de los miembros del cluster
-          Visión global del cluster
-          Provisto por otros proveedores
-          Detecta fallas en los nodos y termina todos los procesos asociados al mismo (lo marca como inactivo)

Node Monitor
-          Informa el estado de los recursos de un nodo
-          Informa al Oracle Server cuando se inician y apagan instancias de Oracle
-          Detecta cambios en el estado de los nodos


Escalabilidad del OPS
Aumento de la velocidad distribuyendo los procesos en los diferentes nodos
Más procesos por unidad de tiempo (throughput) y aumentar y disminuir el número de instancias de acuerdo al número de usuarios concurrentes sobre el sistema

Medidas de la Eficiencia
Scale-Up: Cuanto trabajo puede ser hecho en el mismo tiempo por un sistema más potente Scale − Up = Vol Paralelo/Vol Original

Speed-up: El sistema puede realizar la tarea en menos tiempo

Aplicaciones apropiadas para el OPS
-          Data Warehousing: Muchas consultas concurrentes y los bloques pueden residir en los buffers
-          Departmentalized Application: Cada nodo puede tomar a cargo un departamento de la compañía (importante que las tablas a actualizar no sean comunes)

Niveles de Escalabilidad
-          Escalabilidad de HW y RED: La interconexión entre los nodos es de vital importancia (latencia en el B.W. Y en el I/O)
-          Escalabilidad del S.O: Manejo de la memoria compartida, sincronización y acceso a los recursos
-          Escalabilidad del DBMS: El motor paraleliza las consultas o un agente externo
Base de datos multidimensional

Las bases de datos multidimensionales se utilizan principalmente para crear aplicaciones OLAP y pueden verse como bases de datos de una sola tabla, su peculiaridad es que por cada dimensión tienen un campo (o columna), y otro campo por cada métrica o hecho, es decir estas tablas almacenan registros cuyos campos son de la forma:

Bases de datos multidimensionales vs. Cubos OLAP    
Cada una de estas tablas puede asimilarse a un hipercubo o -más concretamente si de herramientas OLAP se trata- a un cubo OLAP, donde las dimensiones del mismo se corresponden los campos de dimensiones de la tabla (campos 'di...'), y el valor almacenado en cada celda del cubo equivale a la métrica o métricas (campos 'fi...') almacenadas en la tabla.

Implementación
Lo más importante a tener en cuenta para implementar esta estructura de datos es que la tabla contiene todas las n-tuplas, con los valores de las dimensiones, o índice del cubo, y los valores de las métricas previamente calculados para el cruce de valores del índice en cuestión.

Ejemplo
Dada la siguiente especificación para una tabla (o hipercubo) en una base de datos multidimensional:
 Dimensión (Tiempo, Productos)
 Jerarquía (Año->Semestre->Mes->Semana),(Categoría->Línea->Marca)
 Elementos (2006, 2007, ..., S1-06, ..., Ene-06, ..., 200625....),
           (Todos, Máquinas, Refacciones, Máquinas caras, Máquinas Baratas, Máquina 1,...)
 Hechos    (Ventas, Inventario, Defectos, Devoluciones)
 Métricas  (PD:=Devoluciones/Ventas, %Defectos)
La tabla resultante podría tener la forma siguiente:
 Tabla
 Tiempo  Productos  Ventas  Inventario  Defectos  Devoluciones      P/D  %Defectos
 2006    Todos        1000         200        50            10    1/100         5%
 Ene06   Máquina 1      10         100        10            10    10/10       100%
 ...

Base de datos Multivaluada
Las bases de datos Multivaluadas (multivalue database) son un tipo especial de base de datos multidimensionales, también llamadas bases de datos PICK por el primer desarrollo que se realizó de este tipo, la aplicación "Pick operating system".

Concepto
El modelo de datos más extendido es el modelo relacional, este modelo se basa en las leyes de la normalización de bases de datos; según estás normas, y concretamente, según la primera forma normal, un campo de una base de datos no puede contener valores múltiples. En una base de datos multivaluada no se aplica la regla de la primera forma normal, es decir, se permite que un campo pueda tener más de un valor almacenado.

Ejemplo
Supongamos una base de datos en la que queremos almacenar información de clientes; se supone que cada cliente puede tener más de un teléfono. En el modelo relacional habría que crear dos tablas o relaciones como estas:
Tabla 'Cliente'
ID Cliente
Nombre
Apellido
123
Rachel
Ingram
456
James
Wright
789
Maria
Fernández

Tabla 'Teléfono cliente'
ID Cliente
Teléfono
123
555-861-2025
456
555-403-1659
456
555-776-4100
789
555-808-9633
En el modelo multivaluado la siguiente tabla (que no cumple la primera forma normal) es perfectamente válida:
Tabla 'Cliente'
ID Cliente
Nombre
Apellido
Teléfono
123
Rachel
Ingram
555-861-2025
456
James
Wright
555-403-1659
555-776-4100
789
Maria
Fernández
555-808-9633