Almacén de datos
Nel contestu de la informática, un almacén de datos (del inglés data warehouse) ye una coleición de datos empobinada a un determináu ámbitu (empresa, organización, etc.), integráu, non volátil y variable nel tiempu, qu'ayuda a tomar de decisiones na entidá na que s'utiliza. Usar por reportaxes y analís de datos[1] y considérase un componente megollu de la intelixencia empresarial.[2] Trátase, sobremanera, d'un espediente completu d'una organización, más allá de la información transaccional y operacional, almacenáu nuna base de datos diseñada pa favorecer l'analís y la divulgación eficiente de datos (especialmente OLAP, procesamientu analíticu en llinia). L'almacenamientu de los datos nun tien d'usar se con datos d'usu actual. Los almacenes de datos contienen de cutiu grandes cantidaes d'información que se subdividen dacuando n'unidaes lóxiques más pequeñes dependiendo del subsistema de la entidá del que procedan o pal que sían necesariu. Definiciones d'almacén de datosDefinición de Bill InmonBill Inmon foi unu de los primeros autores n'escribir sobre la tema de los almacenes de datos, define un data warehouse (almacén de datos) en términos de les carauterístiques del repositorio de datos:
Inmon defende una metodoloxía descendente (top-down) a la de diseñar un almacén de datos, yá que d'esta forma van considerase meyor tolos datos corporativos. Nesta metodoloxía los Data marts van crease dempués de terminar el data warehouse completu de la organización. Definición de Ralph KimballRalph Kimball ye otru conocíu autor na tema de datar warehouse, define un almacén de datos como: "Ye una almacén de datos qu'estrayi, llimpia, conforma y apurre una fonte de datos dimensional pa la consulta y l'analís".[3] Tamién foi Kimball quien determinó qu'un data warehouse nun yera más que: "la unión de tolos Data marts d'una entidá". Defende por tanto una metodoloxía ascendente (bottom-up) a la de diseñar un almacén de datos. Una definición más ampliaLes definiciones anteriores centrar nos datos en sí mesmos. Sicasí, los medios pa llograr esos datos, pa estrayelos, tresformalos y cargalos, les téuniques p'analizalos y xenerar información, según les distintes formes pa realizar la xestión de datos son componentes esenciales d'un almacén de datos. Munches referencies a un almacén de datos utilicen esta definición más amplia. Poro, nesta definición inclúyense ferramientes pa estrayer, tresformar y cargar datos, ferramientes pal analís (intelixencia empresarial) y ferramientes pa xestionar y recuperar los metadatos. Función d'un almacén de datosNun almacén de datos lo que se quier ye contener datos que son necesarios o preseos pa una organización, esto ye, que s'utiliza como un repositorio de datos pa darréu tresformalos n'información útil pal usuariu. Un almacén de datos tien d'apurrir la información correuta a la xente indicao nel momentu óptimo y nel formatu fayadizu. L'almacén de datos da respuesta a les necesidaes d'usuarios espertos, utilizando Sistemes de Soporte a Decisiones (DSS), Sistemes d'información executiva (EIS) o ferramientes pa faer consultes o informes. Los usuarios finales pueden faer fácilmente consultes sobre los sos almacenes de datos ensin tocar o afectar la operación del sistema. Nel funcionamientu d'un almacén de datos son bien importantes les siguientes idees:
Dacuando, impórtense datos al almacén de datos de los distintos sistemes de planiamientu de recursos de la entidá (ERP) y d'otros sistemes de software rellacionaos col negociu pal tresformamientu posterior. Ye práutica común normalizar los datos antes de combinalos nel almacén de datos por aciu ferramientes d'estraición, tresformamientu y carga (ETL). Estes ferramientes lleen los datos primarios (de cutiu bases de datos OLTP d'un negociu), realicen el procesu de tresformamientu al almacén de datos (filtración, adautación, cambeos de formatu, etc.) y escriben nel almacén. Data martsLos Data marts son subconxuntos de datos d'un data warehouse pa árees específiques. Ente les carauterístiques d'un data mart destaquen:
Cubos d'informaciónLos cubos d'información o cubos OLAP funcionen como los cubos de ruempecabeces nos xuegos, nel xuegu tratar d'armar los colores y nel data warehouse tratar d'entamar los datos por tables o rellaciones; los primeres (el xuegu) tienen 3 dimensiones, los cubos OLAP tienen un númberu indefiníu de dimensiones, razón pola cual tamién reciben el nome de hipercubos. Un cubu OLAP va contener datos d'una determinada variable que se desea analizar, apurriendo una vista lóxica de los datos provistos pol sistema d'información escontra'l data warehouse, esta vista va tar dispuesta según unes dimensiones y va poder contener información calculada. L'analís de los datos ta basáu nes dimensiones del hipercubo, poro, trátase d'un analís multidimensional. A la información d'un cubu puede aportar l'executivu por aciu "tables dinámiques" nuna fueya de cálculu o al traviés de programes personalizaos. Les tables dinámiques déxen-y manipoliar les vistes (cruces, peneraos, organización, totales) de la información con muncha facilidá. Les distintes operaciones que pueden realizase con cubos d'información producir con muncha rapidez. Llevando estos conceutos a un data warehouse, ésti ye una coleición de datos que ta formada por dimensiones» y «variables», entendiendo como dimensiones a aquellos elementos que participen nel analís y variables a los valores que se deseyen analizar. DimensionesLes dimensiones d'un cubu son atributos relativos a les variables, son les perspeutives d'analises de les variables (formen parte de la tabla de dimensiones). Son catálogos d'información complementaria necesaria pa la presentación de los datos a los usuarios, como por casu: descripciones, nomes, zones, rangos de tiempu, etc. Esto ye, la información xeneral complementaria a cada unu de los rexistros de la tabla de fechos. VariablesTamién llamaes “indicadores de xestión”, son los datos que tán siendo analizaos. Formen parte de la tabla de fechos. Más formalmente, les variables representen dalgún aspeutu cuantificable o medible de los oxetos o eventos a analizar. De normal, les variables son representaes por valores detallaos y numbéricos pa cada instancia del oxetu o eventu midíu. En forma contraria, les dimensiones son atributos relativos a les variables, y son utilizaes pa indexar, ordenar, arrexuntar o embrivir los valores de les mesmes. Les dimensiones tienen una granularidad menor, tomando como valores un conxuntu d'elementos menor que'l de les variables; exemplos de dimensiones podríen ser: “productos”, “llocalidaes” (o zones), “el tiempu” (midíu en díes, hores, selmanes, etc.), ... ExemplosExemplos de variables podríen ser:
Ejemplo de dimensiones podríen ser:
llocalidá o provincia, o rexones, o zones xeográfiques
colores d'una pieza coloráu, azul, blancu Según lo anterior, podríamos construyir un cubu d'información sobre l'índiz de ventes (variable a estudiar) en función del productu vendíu, la provincia, el mes del añu y si el veceru ta casáu o solteru (dimensiones). Tendríamos un cubu de 4 dimensiones. Elementos qu'integren un almacén de datosMetadatosUnu de los componentes más importantes de l'arquiteutura d'un almacén de datos son los metadatos. Defínese comúnmente como "datos alrodiu de los datos", nel sentíu de que se trata de datos que describen cuál ye la estructura de los datos que se van a almacenar y cómo se rellacionen. El metadato documenta, ente otres coses, qué tables esisten nuna base de datos, qué columnes tien caúna de les tables y qué tipu de datos pueden almacenase. Los datos son d'interés pal usuariu final, el metadato ye d'interés pa los programes que tienen que remanar estos datos. Sicasí, el rol que cumple'l metadato nuna redolada d'almacén de datos ye bien distintu al rol que cumple nos ambientes operacionales. Nel ámbitu de datar warehouse el metadato xuega un papel fundamental, la so función consiste en recoyer toles definiciones de la organización y el conceutu de los datos nel almacén de datos, tien de contener tola información tocante a:
Entidá y Rellaciones Funciones ETLLos procesos d'Extract, transform and aponderái (ETL)[4] son importantes yá que son la forma en que los datos guardar nun almacén de datos (o en cualquier base de datos). Impliquen les siguientes operaciones:
MiddlewareMiddleware ye un términu xenéricu que s'utiliza pa referise a tou tipu de software de conectividad qu'ufierta servicios o operaciones que faen posible'l funcionamientu d'aplicaciones distribuyíes sobre plataformes heteroxénees. Estos servicios funcionen como una capa d'astraición de software distribuyida, que s'asitia ente les capes d'aplicaciones y les capes inferiores (sistema operativu y rede). El middleware puede trate como una capa API, que sirve como base a los programadores por que puedan desenvolver aplicaciones que trabayen en distintes redolaes ensin esmolecese de los protocolos de rede y comunicaciones en que se van executar. D'esta manera ufiértase una meyor rellación costu/rendimientu que pasa pol desarrollu d'aplicaciones más complexes, en menos tiempu. La función del middleware nel contestu de datar warehouse ye la d'asegurar la conectividad ente tolos componentes de l'arquiteutura d'un almacén de datos. Diseñu d'un almacén de datosPa construyir un Data Warehouse precísense ferramientes p'ayudar a la migración y al tresformamientu de los datos escontra l'almacén. Una vegada construyíu, ríquense medios pa remanar grandes volúmenes d'información. Diséñase la so arquiteutura dependiendo de la estructura interna de los datos del almacén y especialmente del tipu de consultes a realizar. Con esti criteriu los datos tienen de ser partíos ente numberosos data marts. Pa encetar un proyeutu de data warehouse ye necesariu faer un estudiu de delles temes xenerales de la organización o empresa, que descríbense de siguío:
Almacén de datos espacialAlmacén de datos espacial ye una coleición de datos empobinaos a la tema, integraos, non volátiles, variantes nel tiempu y qu'añaden la xeografía de los datos, pa tomar de decisiones. Sicasí la componente xeográfica nun ye un datu agregáu, sinón que ye una dimensión o variable na teunoloxía de la información, de tal manera que dexe modelar tol negociu como un ente holístico, y qu'al traviés de ferramientes de procesamientu analíticu en llinia (OLAP), non solamente téngase un altu desempeñu en consultes multidimensionales sinón qu'adicionalmente puedan visualizase espacialmente los resultaos. L'almacén de datos espacial forma parte d'un estensivu Sistema d'Información Xeográfica pa la toma de decisiones, ésti al igual que los SIG, dexen qu'un gran númberu d'usuarios apuerten a información integrada, a diferencia d'un simple almacén de datos que ta empobináu a la tema, el Data warehouse espacial adicionalmente ye Geo-Relacional, ye dicir que n'estructures relacionales combina ya integra los datos espaciales colos datos descriptivos. Anguaño ye geo-oxetos, esto ye que los elementos xeográficos manifiéstense como oxetos con toles sos propiedaes y comportamientos, y qu'adicionalmente tán almacenaos nuna única base de datos Oxeto-Relacional. Datar Warehouse Espaciales son aplicaciones basaes nun altu desempeñu de les bases de datos, qu'utilicen arquitectures Vecera-Servidor pa integrar diversos datos en tiempu real. Mientres los almacenes de datos trabayen con munchos tipos y dimensiones de datos, munchos de los cualos nun referencien allugamientu espacial, a pesar de tener intrínsecamente, y sabiendo qu'un 80% de los datos tienen representación y allugamientu nel espaciu, nos Data warehouse espaciales, la variable xeográfica desempeña un papel importante na base d'información pa la construcción del analís, y d'igual manera que pa un Data warehouse, la variable tiempu ye imprescindible nos analises, pa Datar warehouse espaciales la variable xeográfica ten de ser almacenada direutamente nella. Ventayes ya inconvenientes de los almacenes de datosVentayesHai munches ventayes poles que ye recomendable usar un almacén de datos. Dalgunes d'elles son:
InconvenientesUtilizar almacenes de datos tamién plantega dellos inconvenientes, dalgunos d'ellos son:
Ver tamién
Notes y referencies
|
Portal di Ensiklopedia Dunia