lunes, 29 de junio de 2009

Gestionar y controlar la gran cantidad de datos

Gestionar y controlar la gran cantidad de datos.

Os habéis parado a pensar en la gran cantidad de datos que se mueven hoy en día en vuestras compañías? Hoy he leído un artículo con relación a la gestión de la duplicidad de datos que me he quedado con varios conceptos.

Cuando comento cantidad de datos es sin contar con las copias de seguridad, las copias incrementales, las copias de las copias por seguridad, la copia que me dejo en mi pc por si pasa algo en el servidor, etc.

Llega un momento que por mucho que cargues el servidor de discos duros te quedaras sin espacio, en este articulo hablaban de una manera para intentar frenar la gran acumulación de datos, hablaban sobre la duplicidad de datos.

Esta técnica de respaldo elimina los datos redundantes almacenados, guardando una única copia idéntica de los datos, y reemplazando las copias redundantes por indicadores que apuntan a esa única copia. Un ejemplo. Pongamos una empresa con 50 empleados que reciben un correo enviado a toda la empresa de 1MB. Si cada usuario guarda el archivo adjunto en su ordenador, la copia se replicará 50 veces cuando se realice el respaldo de los puestos de trabajo, lo que consumirá 49MB más de espacio de lo necesario.

Un sistema de copias de seguridad que utilice la técnica de la deduplicación guarda sólo una vez el archivo y reemplaza las demás por un enlace a dicho archivo, o un indicador que apunta a esta única copia.

Depende del sistema que tengamos montado podemos optar por distintos tipos de soluciones de deduplicación:

1. Deduplicación en destino o a nivel de fuente de datos a los que estamos aplicando el backup. Con esto ahorramos espacio fundamentalmente en las cintas de seguridad y tiempo en la restauración de las copias.

2. Deduplicación en fuente cuando lo aplicamos en el servidor, con lo cual ahorramos espacio también en los discos del servidor y tendremos más ordenados los datos. Además del ahorro en cintas añadimos también ahorro en ampliación de discos duros en el servidor.

Dentro de este segundo nivel se pueden dividir también en el momento en el que se produce el procesamiento de deduplicación de datos, que lógicamente llevará un tiempo. Hay soluciones que calculan y buscan archivos comunes en segundo plano o fuera de banda, dirigiendo estos cálculos hacia la memoria intermedia y ejecutándose de forma que no interfieren en el proceso del servidor y la copia. Otras soluciones lo realizan en tiempo real, lo que puede provocar cierto retardo.

Todas estas optimización del espacio que ocupan nuestros datos suelen venir en los paquetes de copias de seguridad, aunque no únicamente y existe distinto software específico para el servidor

Seguro que una empresa pequeña y bien organizada con una buena gestión documental seguro que puede llegar a emular esta funcionalidad, pero en una gran empresa aunque tenga un sistema gestor de documentos, llega un momento que es imposible controlar toda la duplicidad que se genera.

En conclusión, creo que es un buen sistema para poder llevar un control y una gestión de los documentos y sobretodo para conseguir reducir los espacios en los servidores y tener que comprar menos ‘hierro’ y así llegar a una reducción de costes.

No hay comentarios:

Publicar un comentario