Funcionalidad SAP HANA como base de datos para SAP HANA Data Management Suite

Continuamos con nuestra serie de artículos sobre SAP HANA Data Management Suite, un híbrido de tecnologías locales y en la nube que incluye cuatro componentes del producto: SAP Data Hub, SAP HANA, SAP Enterprise Architecture Designer y SAP Cloud Platform Big Data Services .

La combinación de estas soluciones le permite crear una estructura holística de gestión de datos con las siguientes funciones:

  • seguimiento del origen de datos
  • seguimiento de cambios en los datos y su estructura
  • comprensión integral de metadatos
  • apoyar el nivel de seguridad requerido
  • monitoreo centralizado

Pero hoy hablaremos sobre el "núcleo" de este sistema: la plataforma SAP HANA.

SAP ha realizado y continúa realizando investigaciones, invierte grandes recursos y fondos en el desarrollo del procesamiento de datos. El resultado es la plataforma SAP HANA: el dispositivo analítico de alto rendimiento. Nuestra empresa ya ha acumulado muchos años de experiencia única en el desarrollo de tecnologías y servicios para empresas, y SAP la utilizó para crear una plataforma comercial para el procesamiento de datos en tiempo real. Como resultado, surgió SAP HANA, que se convirtió en la base y el núcleo del desarrollo y la construcción de empresas inteligentes de un nuevo tipo (empresa inteligente). La plataforma se utiliza para desarrollar aplicaciones tanto en SAP como en nuestros clientes y socios.



SAP HANA es una solución multipropósito para almacenar y procesar información. Una de las características de SAP HANA es el motor de cálculo incorporado, que le permite transferir operaciones de planificación desde el nivel de la aplicación al nivel de la base de datos de SAP HANA. Utilizando la arquitectura moderna de la plataforma de hardware, los cálculos son más eficientes: toda la "avalancha" de datos procesados ​​se divide en un número estrictamente definido de subprocesos, cuyo número es igual al número total de núcleos de la plataforma. Este enfoque permite el uso más eficiente de la potencia de procesamiento de cada núcleo de cada procesador.

SAP HANA también proporciona tecnología para almacenar y procesar datos en memoria. SAP HANA como base de datos le permite almacenar datos en una fila por línea y en formato por lotes. La tecnología de almacenamiento y procesamiento de datos en memoria proporciona un procesamiento de transacciones rápido y, junto con la tecnología de análisis de datos, Vista de cálculo garantiza un alto rendimiento al realizar consultas analíticas.

Los analistas de Forrester comenzaron a utilizar un nuevo concepto: "base de datos traslacional". Según su definición, dicha plataforma "admite muchos tipos de usos, incluida información en tiempo real, aprendizaje automático, análisis en línea y procesamiento de transacciones extremas".

Un informe reciente de Forrester establece lo siguiente : “SAP HANA es una plataforma en memoria compartida, nada compartido (sin uso compartido de recursos). Esta es la base de la plataforma SAP para transacciones y análisis de datos, admite muchos escenarios de aplicaciones: aplicaciones de procesamiento de datos en tiempo real, análisis, aplicaciones de traducción y sistemas de análisis profundos y avanzados. Las empresas usan la plataforma para organizar marts de datos en memoria, para trabajar con el almacenamiento de datos en tiempo real de SAP Business Warehouse, así como cuando trabajan con SAP S / 4HANA y SAP Business Suite ".

Las plataformas de traducción son adecuadas para soportar aplicaciones y servicios en tiempo real: para negociar acciones, detectar fraudes, combatir el terrorismo, monitorear la salud del paciente, analizar datos de varios sensores, monitorear terremotos y mucho más. Mediante una plataforma de traducción, las aplicaciones pueden intercambiar datos en tiempo real, garantizar la coherencia y precisión de la información almacenada en la empresa.

Otra área de aplicación para SAP HANA es el soporte de aprendizaje automático, que le permite aplicar modelos analíticos complejos a los datos para predecir con mayor precisión las operaciones, los procesos comerciales, el comportamiento del cliente, etc.

¿Cómo soporta SAP HANA esta funcionalidad?


Comencemos con el servicio de base de datos. Si consideramos HANA en términos de arquitectura y tecnología, existen dos formas de almacenar datos: línea por línea y línea por línea.

El almacenamiento de datos en filas en una tabla permite el registro de datos a alta velocidad. Si desea agregar una nueva fila a la tabla, entonces solo necesita encontrar espacio libre en la memoria para esta fila y escribir nuevos datos allí. Sin embargo, el almacenamiento fila por fila plantea un problema con el análisis de datos: debe usar la indexación o una representación materializada de los datos en una forma que sea conveniente para el análisis. Al mismo tiempo, la indexación genera demoras debido al hecho de que se requiere tiempo adicional para reconstruir el índice, materializando los datos en un formato diferente durante la inserción de la fila.

Si los datos se almacenan unidad por unidad, para agregar una nueva fila, es necesario pasar tiempo clasificando los valores de las filas en columnas, luego esperar hasta que los datos se publiquen en diferentes lugares de la memoria. Todo esto conduce a un bajo rendimiento durante la grabación de datos.

La base de datos con almacenamiento masivo le permite procesar solicitudes mucho más rápido, porque en este caso los datos de las columnas solicitadas son compactos y están comprimidos en la memoria. Es decir al realizar consultas, no es necesario escanear toda la tabla; solo observe las columnas utilizadas en la consulta. Dicha base de datos está optimizada para la lectura, y el almacenamiento masivo de información permite organizar los datos en la RAM de cierta manera, utilizando la agrupación. Con este enfoque, es posible utilizar varias técnicas de compresión con mayor eficiencia, lo que conduce a una compresión múltiple de la información de origen.

Para resolver este problema, se desarrolló el enfoque de tablas unificadas, que proporciona una alta velocidad de lectura y escritura de datos en la tabla de almacenamiento. Este mecanismo le permite realizar transacciones rápidamente (es decir, registrar nuevas líneas), analizar datos a alta velocidad debido al almacenamiento en filas en forma comprimida, procesamiento de datos en paralelo y también almacenar todos los datos en la memoria de acceso aleatorio (en memoria).

Al grabar, los cambios no se realizan inmediatamente en la ubicación de almacenamiento principal de las tablas. En cambio, todas las ediciones se registran en una estructura de datos separada: el almacenamiento delta (en la imagen L1-delta). Aquí, los datos se almacenan en un formato optimizado para la grabación. Cuando es necesario transferir cambios desde el almacenamiento delta, se inicia un proceso especial de fusión Delta: la fusión delta. Primero, los datos de L1-delta se convierten a un formato de diseño en L2-delta, y luego se combinan con el almacén de datos principal (almacén principal). Y para el mecanismo de lectura de datos, las tres áreas de almacenamiento de información (L1-delta, L2-delta y almacén principal) proporcionan datos en forma integral. Gracias a este proceso, resulta proporcionar un registro y análisis de datos de alta velocidad.



Una de las ventajas significativas de SAP HANA es que todos los cálculos de datos agregados se realizan directamente durante la formación de una consulta analítica y se muestran inmediatamente como resultado. La capacidad de almacenar datos detallados o de origen en RAM (en lugar de valores agregados) le permite abandonar el cálculo preliminar y el almacenamiento de tablas agregadas, que son una parte integral de los sistemas analíticos clásicos.

SAP HANA también admite varios lenguajes de programación internos: R para crear modelos predictivos, SQL Script para escribir lógica de cálculo. En el nivel del servidor de aplicaciones XSA integrado en SAP HANA 2.0, puede desarrollar en muchos otros idiomas si admite el concepto Bring Your Own Language (y utilizando Cloud Foundry) . Con estos idiomas, puede realizar los cálculos y pronósticos necesarios directamente en el nivel de almacenamiento de datos. Esto le permite deshacerse de las etapas innecesarias de la transferencia de grandes cantidades de datos y dar el resultado final del cálculo al nivel de la aplicación.

Ahora considere los servicios de la plataforma SAP HANA.

Servicios de plataforma SAP HANA





SAP HANA no solo tiene una base de datos, sino también un conjunto completo de servicios para el desarrollo de aplicaciones, integración y herramientas de limpieza de datos, bibliotecas para el procesamiento de datos analíticos, incluido Machine Learning, así como la capacidad de almacenar y procesar tipos especiales de datos. SAP HANA le permite descargar datos de varias fuentes sin herramientas adicionales, para desarrollar varios formularios para ingresar, editar y analizar datos. Las herramientas también están disponibles para el procesamiento complejo de datos intelectuales: transformación, transformación, búsqueda de patrones, investigación. Y, por supuesto, la plataforma está abierta para el análisis visual de datos a través de varias herramientas.

Para hablar sobre todas las características de SAP HANA, deberá escribir algunos artículos adicionales. Muchos de ellos ya están descritos en nuestro blog.



Veamos algunos de los servicios disponibles:

SAP HANA incluye un motor para almacenar y procesar geodatos, datos que describen la posición, la forma y la orientación de los objetos en el espacio. SAP HANA admite tipos de datos espaciales y sus métodos de procesamiento. Existe un método especial para procesar dicha estructura: un gráfico. SAP HANA en este caso proporciona la capacidad de procesar datos hipervinculados y sus relaciones. El motor de procesamiento de datos tiene algoritmos integrados para encontrar vecindarios, caminos más cortos, componentes fuertemente acoplados, coincidencia de patrones y mucho más.

SAP HANA también tiene cientos de algoritmos de aprendizaje automático y pronóstico preempaquetados con capacidades tales como agregación, agrupación, clasificación, regresión, distribución de probabilidad, series de tiempo y más. Además, puede usar la biblioteca TensorFlow y R.

SAP HANA tiene capacidades integradas para procesar y analizar archivos de texto, incluidas varias funciones para la minería de texto, por ejemplo, lógica difusa, búsqueda de sinónimos, análisis semántico, etc.

SAP HANA Streaming Analytics puede capturar, filtrar, analizar e impactar millones de eventos por segundo en tiempo real almacenando datos o resultados en una base de datos SAP HANA y dirigiendo datos menos críticos a soluciones de almacenamiento más baratas como Hadoop. SAP HANA Streaming Analytics también está integrado con el sistema de mensajería de Apache Kafka.

Materiales y recursos útiles para comenzar con SAP HANA:
Una versión de prueba gratuita de SAP HANA , edición express está disponible para descargar en nuestro sitio web oficial. Además, al comienzo del trabajo, puede estudiar el conjunto de tutoriales antes de comenzar a trabajar con SAP HANA:
- Versión de la máquina virtual y las aplicaciones Server + XSA para SAP HANA e instrucciones de instalación de video
- El conjunto de tutoriales tiene una amplia selección. Por ejemplo, para trabajar con datos espaciales: el primero y el segundo

Source: https://habr.com/ru/post/es426503/


All Articles