Un data lake es un repositorio de almacenamiento
que contienen una gran cantidad de datos en bruto y que se mantienen allí hasta
que sea necesario. A diferencia de un data warehouse
jerárquico que almacena datos en ficheros o carpetas, un data lake utiliza una arquitectura plana para almacenar
los datos.
A cada elemento de un data lake se le asigna
un identificador único y se etiqueta con un conjunto de etiquetas de metadatos
extendidas. Cuando se presenta una cuestión de negocios que debe ser
resuelta, podemos solicitarle a la data lake los datos que estén relacionados
con esa cuestión. Una vez obtenidos podemos analizar ese conjunto de datos más
pequeño para
ayudar a obtener una respuesta.
El data lake se asocia a menudo con el almacenamiento de
objetos orientado a Hadoop. En este escenario, los datos de una
organización se cargan primero en la plataforma Hadoop y, a continuación, se
aplican las herramientas de análisis y de minería de datos a los datos que
residen en los nodos clúster de Hadoop
¿Cuáles
son los beneficios de un data lake?
El
principal beneficio de un data lake es la centralización de fuentes de
contenido dispares. Una vez reunidas estas fuentes pueden ser combinadas y procesadas utilizando big data, búsquedas
y análisis que de otro modo hubieran sido imposibles. Las fuentes de contenido dispares a menudo contienen
información confidencial que requerirá la implementación de las medidas de
seguridad apropiadas en
el data lake.
Las medidas de seguridad en el data lake
pueden ser asignadas de manera que se otorga acceso a cierta información a los usuarios de la
data lake que
no tienen acceso a la fuente de contenido original. Estos usuarios tienen
derecho a la información, pero no pueden acceder a ella en su fuente por alguna
razón.
Es posible que algunos usuarios no necesiten trabajar con
los datos en el origen de contenido original, sino
consumir los datos resultantes de los procesos incorporados a dichos orígenes. Puede haber un límite
de licencias para el origen de contenido original que
impide que algunos usuarios obtengan sus propias credenciales. En algunos casos, la
fuente de contenido original se ha bloqueado, está obsoleta o se desactivará en
breve, sin embargo, su contenido sigue siendo valioso para los
usuarios de la data lake.
Una vez que el contenido
está en el data lake, puede normalizarse y enriquecerse. Esto puede incluir
extracción de metadatos, conversión de formatos, aumento, extracción de
entidades, reticulación, agregación, desnormalización o indexación.
Los datos se preparan "según sea necesario", lo
que reduce los costos de preparación sobre el procesamiento inicial (tal como
sería requerido por los data warehouses. Una estructura de big data permite
escalar este procesamiento para incluir los conjuntos de datos más grandes
posibles.

Redactado por Roni José García Martínez - Inteligencia de Negocios I
ResponderBorrar