🙏🏿 🥜 👩🏼‍🚀 Équilibrage d'écriture et de lecture de base de données 🛫 💂🏼 ☀️

Dans un article précédent , j'ai décrit le concept et l'implémentation d'une base de données construite sur la base de fonctions, pas de tables et de champs comme dans les bases de données relationnelles. Il a donné de nombreux exemples montrant les avantages de cette approche par rapport au classique. Beaucoup les ont trouvés pas assez convaincants.

Dans cet article, je montrerai comment ce concept vous permet d'équilibrer rapidement et commodément l'écriture et la lecture dans la base de données sans aucun changement dans la logique de travail. Ils ont essayé d'implémenter des fonctionnalités similaires dans des SGBD commerciaux modernes (en particulier, Oracle et Microsoft SQL Server). À la fin de l'article, je montrerai ce qui leur est arrivé, pour le dire légèrement, pas très.

La description

Comme précédemment, pour une meilleure compréhension, je vais commencer la description par des exemples. Supposons que nous ayons besoin d'implémenter une logique qui retournera une liste de départements avec le nombre d'employés en eux et leur salaire total.

Dans une base de données fonctionnelle, cela ressemblera à ceci:

CLASS Department '';
name '' = DATA STRING [ 100 ] (Department);

CLASS Employee '';
department '' = DATA Department (Employee);
salary '' = DATA NUMERIC [ 10 , 2 ] (Employee);

countEmployees '- ' (Department d) =
GROUP SUM 1 IF department(Employee e) = d;
salarySum ' ' (Department d) =
GROUP SUM salary(Employee e) IF department(e) = d;

SELECT name(Department d), countEmployees(d), salarySum(d);

La complexité de l'exécution de cette requête dans n'importe quel SGBD sera équivalente à O (nombre d'employés) , car pour ce calcul, vous devez analyser l'intégralité du tableau des employés, puis les regrouper par service. Il y aura également quelques petits ajouts (nous pensons qu'il y a beaucoup plus d'employés que de départements) en fonction du plan choisi O (nombre de salariés journaliers) ou O (nombre de départements) pour le regroupement, etc.

Il est clair que la surcharge d'exécution peut être différente dans différents SGBD, mais la complexité ne changera en aucune façon.

Dans l'implémentation proposée, le SGBD fonctionnel formera une sous-requête, qui calculera les valeurs nécessaires pour le département, puis fera un JOIN avec la table department pour obtenir le nom. Cependant, pour chaque fonction, lors de la déclaration, il est possible de spécifier un marqueur MATERIALIZED spécial. Le système crée automatiquement un champ approprié pour chacune de ces fonctions. Lorsqu'une valeur de fonction change, la valeur du champ change dans la même transaction. Lors de l'accès à cette fonction, un appel sera déjà fait au champ calculé.

En particulier, si vous définissez MATERIALIZED pour les fonctions countEmployees et salaireSum , alors dans le tableau avec la liste des départements, deux champs seront ajoutés dans lesquels le nombre d'employés et leur salaire total seront stockés. Avec tout changement d'employé, de salaire ou d'affiliation avec les services, le système changera automatiquement les valeurs de ces champs. La requête ci-dessus commencera à accéder directement à ces champs et sera exécutée pour O (nombre de départements) .

Quelles sont les limitations? Une seule chose: une telle fonction doit avoir un nombre fini de valeurs d'entrée pour lesquelles sa valeur est définie. Sinon, il sera impossible de construire une table qui stocke toutes ses valeurs, car il ne peut pas y avoir de table avec un nombre infini de lignes.

Un exemple:

employeesCount ' > N' (Department d, NUMERIC [ 10 , 2 ] N) =
GROUP SUM salary(Employee e) IF department(e) = d AND salary(e) > N;

Cette fonction est définie pour un nombre infini de valeurs du nombre N (par exemple, toute valeur négative convient). Par conséquent, il ne peut pas être mis MATÉRIALISÉ. Il s'agit donc d'une limitation logique et non technique (c'est-à-dire pas parce que nous n'avons pas pu l'implémenter). Sinon, aucune restriction. Vous pouvez utiliser le regroupement, le tri, ET et OU, PARTITION, récursivité, etc.

Par exemple, dans la tâche 2.2 de l'article précédent, vous pouvez mettre MATERIALIZED sur les deux fonctions:

bought '' (Customer c, Product p, INTEGER y) =
GROUP SUM sum(Detail d) IF
customer(order(d)) = c AND
product(d) = p AND
extractYear(date(order(d))) = y MATERIALIZED ;
rating '' (Customer c, Product p, INTEGER y) =
PARTITION SUM 1 ORDER DESC bought(c, p, y), p BY c, y MATERIALIZED ;
SELECT contactName(Customer c), name(Product p) WHERE rating(c, p, 1997 ) < 3 ;

Le système lui-même créera une table avec des clés de types Client , Produit et INTEGER , y ajoutera deux champs et y mettra à jour les valeurs de champ avec toutes les modifications. Lors d'appels ultérieurs à ces fonctions, ils ne seront pas calculés, mais les valeurs des champs correspondants seront lues.

En utilisant ce mécanisme, vous pouvez, par exemple, vous débarrasser de la récursivité (CTE) dans les requêtes. En particulier, considérez les groupes qui composent l'arbre en utilisant la relation enfant / parent (chaque groupe a un lien vers son parent):

parent = DATA Group (Group);

Dans une base de données fonctionnelle, la logique de récursivité peut être définie comme suit:

level (Group child, Group parent) = RECURSION 1l IF child IS Group AND parent == child
STEP 2l IF parent == parent($parent);
isParent (Group child, Group parent) = TRUE IF level(child, parent) MATERIALIZED ;

Puisque MATERIALIZED est apposé pour la fonction isParent , une table avec deux clés (groupes) sera créée pour elle, dans laquelle le champ isParent ne sera vrai que si la première clé est un descendant de la seconde. Le nombre d'entrées dans ce tableau sera égal au nombre de groupes multiplié par la profondeur moyenne de l'arbre. S'il est nécessaire, par exemple, de calculer le nombre de descendants d'un certain groupe, vous pouvez accéder à cette fonction:

childrenCount (Group g) = GROUP SUM 1 IF isParent(Group child, g);

Il n'y aura pas de CTE dans la requête SQL. Au lieu de cela, il y aura un simple GROUP BY.

En utilisant ce mécanisme, vous pouvez également dénormaliser facilement la base de données si nécessaire:

CLASS Order '' ;
date '' = DATA DATE (Order);

CLASS OrderDetail ' ' ;
order '' = DATA Order (OrderDetail);
date '' (OrderDetail d) = date(order(d)) MATERIALIZED INDEXED ;

Lorsque vous appelez la fonction date pour la ligne de commande, la lecture se fera à partir de la table avec les lignes de commande du champ pour lequel il existe un index. Lors de la modification de la date de commande, le système lui-même recalcule automatiquement la date dénormalisée dans la ligne.

Les avantages

Pourquoi tout ce mécanisme est-il nécessaire? Dans les SGBD classiques, sans réécrire les requêtes, un développeur ou un administrateur de base de données ne peut que modifier les index, déterminer les statistiques et indiquer au planificateur de requêtes comment les exécuter (en outre, les HINT ne sont disponibles que dans les SGBD commerciaux). Peu importe leurs efforts, ils ne pourront pas répondre à la première demande de l'article pour O (nombre de départements) sans modifier les demandes et ajouter des déclencheurs. Dans le schéma proposé, au stade du développement, vous n'avez pas à penser à la structure du stockage des données et aux agrégations à utiliser. Tout cela peut être facilement modifié à la volée, directement en fonctionnement.

En pratique, ceci est le suivant. Certaines personnes développent une logique directement basée sur la tâche. Ils ne connaissent ni les algorithmes ni leur complexité, ni les plans d'exécution, ni les types de join'ov, ni aucun autre composant technique. Ces personnes sont plus des analystes commerciaux que des développeurs. Ensuite, tout est mis en test ou en fonctionnement. La journalisation des requêtes longues est activée. Lorsqu'une longue demande est détectée, d'autres personnes (plus techniques - en fait DBA) décident d'inclure MATERIALIZED sur une fonction intermédiaire. L'enregistrement est ainsi un peu ralenti (car la mise à jour d'un champ supplémentaire dans une transaction est nécessaire). Cependant, non seulement cette demande est considérablement accélérée, mais aussi toutes les autres qui utilisent cette fonction. Dans le même temps, il est relativement simple de décider de la fonction particulière à matérialiser. Deux paramètres principaux: le nombre de valeurs d'entrée possibles (exactement combien d'enregistrements seront dans le tableau correspondant) et la fréquence à laquelle il est utilisé dans d'autres fonctions.

Analogues

Les SGBD commerciaux modernes ont des mécanismes similaires: MATERIALIZED VIEW avec FAST REFRESH (Oracle) et INDEXED VIEW (Microsoft SQL Server). Dans PostgreSQL, MATERIALIZED VIEW ne peut pas être mis à jour dans une transaction, mais uniquement sur demande (et même avec des restrictions très strictes), nous ne le considérons donc pas. Mais ils ont plusieurs problèmes, ce qui limite grandement leur utilisation.

Tout d'abord, vous ne pouvez activer la matérialisation que si vous avez déjà créé une VUE régulière. Sinon, vous devrez réécrire les demandes restantes pour accéder à la vue nouvellement créée afin d'utiliser cette matérialisation. Ou tout laisser tel quel, mais il sera au moins inefficace s'il existe certaines données déjà calculées, mais de nombreuses requêtes ne les utilisent pas toujours, mais les calculent à nouveau.

Deuxièmement, ils ont un grand nombre de restrictions:

Oracle

5.3.8.4 Restrictions générales sur l'actualisation rapide

La requête de définition de la vue matérialisée est limitée comme suit:
La vue matérialisée ne doit pas contenir de références à des expressions non répétitives telles que SYSDATE et ROWNUM .
La vue matérialisée ne doit pas contenir de références aux types de données RAW ou LONG RAW .
Il ne peut pas contenir de sous-requête de liste SELECT .
Il ne peut pas contenir de fonctions analytiques (par exemple, RANK ) dans la clause SELECT .
Il ne peut pas référencer une table sur laquelle un index XMLIndex est défini.
Il ne peut pas contenir de clause MODEL .
Il ne peut pas contenir de clause HAVING avec une sous-requête.
Il ne peut pas contenir de requêtes imbriquées dont ANY , ALL ou NOT EXISTS .
Il ne peut pas contenir de clause [START WITH …] CONNECT BY .
Il ne peut pas contenir plusieurs tables de détail sur différents sites.
ON vues matérialisées ON COMMIT ne peuvent pas avoir de tables de détail distantes.
Les vues matérialisées imbriquées doivent avoir une jointure ou un agrégat.
Les vues de jointure matérialisées et les vues agrégées matérialisées avec une clause GROUP BY ne peuvent pas sélectionner dans une table organisée par index.

5.3.8.5 Restrictions sur l'actualisation rapide des vues matérialisées avec jointures uniquement

La définition de requêtes pour des vues matérialisées avec des jointures uniquement et sans agrégats a les restrictions suivantes sur l'actualisation rapide:
Toutes les restrictions de " Restrictions générales sur l'actualisation rapide ".
Ils ne peuvent pas avoir de clauses GROUP BY ou d'agrégats.
Les Rowids de toutes les tables de la liste FROM doivent apparaître dans la liste SELECT de la requête.
Les journaux de vue matérialisée doivent exister avec des ID de ligne pour toutes les tables de base dans la liste FROM de la requête.
Vous ne pouvez pas créer une vue matérialisée actualisable rapidement à partir de plusieurs tables avec des jointures simples qui incluent une colonne de type d'objet dans l' SELECT .

De plus, la méthode de rafraîchissement que vous choisissez ne sera pas optimale de manière optimale si:
La requête de définition utilise une jointure externe qui se comporte comme une jointure interne. Si la requête de définition contient une telle jointure, envisagez de réécrire la requête de définition pour qu'elle contienne une jointure interne.
La liste SELECT de la vue matérialisée contient des expressions sur les colonnes de plusieurs tables.

5.3.8.6 Restrictions sur l'actualisation rapide des vues matérialisées avec agrégats

La définition de requêtes pour des vues matérialisées avec des agrégats ou des jointures a les restrictions suivantes pour une actualisation rapide:
Toutes les restrictions de " Restrictions générales sur l'actualisation rapide ".

L'actualisation rapide est prise en charge pour les vues matérialisées ON COMMIT et ON DEMAND , mais les restrictions suivantes s'appliquent:
Toutes les tables de la vue matérialisée doivent avoir des journaux de vues matérialisées et les journaux de vues matérialisées doivent:
Contient toutes les colonnes de la table référencée dans la vue matérialisée.
Précisez avec ROWID et INCLUDING ROWID NEW VALUES .
Spécifiez la clause SEQUENCE si la table doit avoir un mélange d'insertions / charges directes, suppressions et mises à jour.

Seuls SUM , COUNT , AVG , VARIANCE , VARIANCE , MIN et MAX sont pris en charge pour une actualisation rapide.
COUNT(*) doit être spécifié.
Les fonctions d'agrégation ne doivent apparaître que comme la partie la plus externe de l'expression. Autrement dit, les agrégats tels que AVG(AVG(x)) ou AVG(x) + AVG(x) ne sont pas autorisés.
Pour chaque agrégat tel que AVG(expr) , le COUNT(expr) doit être présent. Oracle recommande de spécifier SUM(expr) .
Si VARIANCE(expr) ou STDDEV(expr ) est spécifié, COUNT(expr) et SUM(expr) doivent être spécifiés. Oracle recommande de spécifier SUM(expr *expr) .
La colonne SELECT dans la requête de définition ne peut pas être une expression complexe avec des colonnes de plusieurs tables de base. Une solution de contournement possible consiste à utiliser une vue matérialisée imbriquée.
La liste SELECT doit contenir toutes les colonnes GROUP BY .
La vue matérialisée n'est pas basée sur une ou plusieurs tables distantes.
Si vous utilisez un type de données CHAR dans les colonnes de filtre d'un journal de vues matérialisées, les jeux de caractères du site maître et de la vue matérialisée doivent être identiques.
Si la vue matérialisée présente l'un des éléments suivants, l'actualisation rapide n'est prise en charge que sur les insertions DML conventionnelles et les charges directes.
Vues matérialisées avec des agrégats MIN ou MAX
Vues matérialisées qui ont SUM(expr) mais pas COUNT(expr)
Vues matérialisées sans COUNT(*)

Une telle vue matérialisée est appelée une vue matérialisée insérée uniquement.
Une vue matérialisée avec MAX ou MIN est rapidement actualisable après suppression ou instructions DML mixtes si elle n'a pas de clause WHERE .
L'actualisation rapide max / min après suppression ou DML mixte n'a pas le même comportement que le cas d'insertion uniquement. Il supprime et recalcule les valeurs max / min pour les groupes concernés. Vous devez être conscient de son impact sur les performances.
Les vues matérialisées avec des vues ou sous-requêtes nommées dans la clause FROM peuvent être actualisées rapidement à condition que les vues puissent être complètement fusionnées. Pour plus d'informations sur les vues à fusionner, reportez-vous à Oracle Database SQL Language Reference .
S'il n'y a pas de jointures externes, vous pouvez avoir des sélections et des jointures arbitraires dans la clause WHERE .
Les vues agrégées matérialisées avec jointures externes sont rapidement actualisables après les charges DML conventionnelles et directes, à condition que seule la table externe ait été modifiée. En outre, des contraintes uniques doivent exister sur les colonnes de jointure de la table de jointure interne. S'il existe des jointures externes, toutes les jointures doivent être connectées par des AND et doivent utiliser l'opérateur d'égalité ( = ).
Pour les vues matérialisées avec CUBE , ROLLUP , les ensembles de regroupement ou leur concaténation, les restrictions suivantes s'appliquent:
La liste SELECT doit contenir un différenciateur de regroupement qui peut être une fonction GROUPING_ID sur toutes les expressions GROUP BY ou des fonctions GROUPING une pour chaque expression GROUP BY . Par exemple, si la clause GROUP BY de la vue matérialisée est " GROUP BY CUBE(a, b) ", la liste SELECT doit contenir soit " GROUPING_ID(a, b) " ou " GROUPING(a) AND GROUPING(b) "pour que la vue matérialisée soit rapidement actualisable.
GROUP BY ne doit pas entraîner de doublons. Par exemple, « GROUP BY a, ROLLUP(a, b) » n'est pas actualisable rapidement car il en résulte des regroupements en double « (a), (a, b), AND (a) ».

5.3.8.7 Restrictions sur l'actualisation rapide des vues matérialisées avec UNION ALL

Les vues matérialisées avec l'opérateur UNION ALL set prennent en charge l'option REFRESH FAST si les conditions suivantes sont remplies:
La requête de définition doit avoir l'opérateur UNION ALL au niveau supérieur.

L'opérateur UNION ALL ne peut pas être incorporé dans une sous-requête, à une exception près: L' UNION ALL peut être dans une sous-requête dans la clause FROM condition que la requête de définition soit de la forme SELECT * FROM (afficher ou sous-requête avec UNION ALL ) comme dans l'exemple suivant exemple:
  CRÉER UNE VUE view_with_unionall AS
 (SELECT c.rowid crid, c.cust_id, 2 umarker
  DE la part des clients c OERE c.cust_last_name = 'Smith'
  UNION ALL
  SELECT c.rowid crid, c.cust_id, 3 umarker
  DES clients c OERE c.cust_last_name = 'Jones');

 CRÉER UNE VUE MATÉRIALISÉE unionall_inside_view_mv
 RAFRAÎCHISSEMENT RAPIDE SUR DEMANDE
 SELECT * FROM view_with_unionall;
Notez que la vue view_with_unionall satisfait aux exigences de rafraîchissement rapide.
Chaque bloc de requête de la requête UNION ALL doit satisfaire aux exigences d'une vue matérialisée à régénération rapide avec agrégats ou d'une vue matérialisée à régénération rapide avec jointures.

Les journaux de vue matérialisée appropriés doivent être créés sur les tables comme requis pour le type correspondant de vue matérialisée à régénération rapide.
Notez que la base de données Oracle autorise également le cas particulier d'une vue matérialisée à table unique avec jointures uniquement à condition que la colonne ROWID ait été incluse dans la liste SELECT et dans le journal des vues matérialisées. Ceci est illustré dans la requête de définition de la vue view_with_unionall .
La liste SELECT de chaque requête doit inclure un marqueur UNION ALL et la colonne UNION ALL doit avoir une valeur numérique ou chaîne constante distincte dans chaque branche UNION ALL . En outre, la colonne de marqueur doit apparaître dans la même position ordinale dans la liste SELECT de chaque bloc de requête. Reportez-vous à la section " Réécriture des marqueurs et requêtes UNION ALL " pour plus d'informations sur les marqueurs UNION ALL .
Certaines fonctionnalités telles que les jointures externes, les requêtes de vue matérialisée agrégée par insertion uniquement et les tables distantes ne sont pas prises en charge pour les vues matérialisées avec UNION ALL . Notez cependant que les vues matérialisées utilisées dans la réplication, qui ne contiennent pas de jointures ou d'agrégats, peuvent être actualisées rapidement lorsque UNION ALL ou des tables distantes sont utilisées.
Le paramètre d'initialisation de compatibilité doit être défini sur 9.2.0 ou supérieur pour créer une vue matérialisée rapidement actualisable avec UNION ALL .

Je ne veux pas offenser les fans d'Oracle, mais à en juger par leur liste de limitations, il semble que ce mécanisme n'a pas été écrit dans le cas général en utilisant une sorte de modèle, mais des milliers d'Indiens, où tout le monde était autorisé à écrire leur propre fil, et chacun d'entre eux pouvait et l'a fait. Utiliser ce mécanisme pour une vraie logique, c'est comme marcher dans un champ de mines. À tout moment, vous pouvez obtenir une mine, atteignant l'une des limitations non évidentes. Comment cela fonctionne est également un problème distinct, mais il sort du cadre de cet article.

Microsoft SQL Server

Exigences supplémentaires

Outre les options SET et les exigences des fonctions déterministes, les exigences suivantes doivent être remplies:
L'utilisateur qui exécute CREATE INDEX doit être le propriétaire de la vue.
Lorsque vous créez l'index, l'option IGNORE_DUP_KEY doit être définie sur OFF (le paramètre par défaut).
Les tables doivent être référencées par des noms en deux parties, schéma . nom_table dans la définition de la vue.
Les fonctions définies par l'utilisateur référencées dans la vue doivent être créées à l'aide de l'option WITH SCHEMABINDING .
Toutes les fonctions définies par l'utilisateur référencées dans la vue doivent être référencées par des noms en deux parties, <schéma> . <fonction> .
La propriété d'accès aux données d'une fonction définie par l'utilisateur doit être NO SQL et la propriété d'accès externe doit être NO .
Les fonctions Common Language Runtime (CLR) peuvent apparaître dans la liste de sélection de la vue, mais ne peuvent pas faire partie de la définition de la clé d'index cluster. Les fonctions CLR ne peuvent pas apparaître dans la clause WHERE de la vue ou la clause ON d'une opération JOIN dans la vue.
Les fonctions et méthodes CLR des types définis par l'utilisateur CLR utilisés dans la définition de la vue doivent avoir les propriétés définies comme indiqué dans le tableau suivant.
Biens Remarque
DÉTERMINISTIQUE = VRAI Doit être déclaré explicitement en tant qu'attribut de la méthode Microsoft .NET Framework.
PRÉCIS = VRAI Doit être déclaré explicitement en tant qu'attribut de la méthode .NET Framework.
ACCÈS AUX DONNÉES = AUCUN SQL Déterminé en définissant l'attribut DataAccess sur DataAccessKind.None et l'attribut SystemDataAccess sur SystemDataAccessKind.None.
ACCÈS EXTERNE = NON Cette propriété est définie par défaut sur NO pour les routines CLR.
La vue doit être créée à l'aide de l'option WITH SCHEMABINDING .
La vue doit référencer uniquement les tables de base qui se trouvent dans la même base de données que la vue. La vue ne peut pas référencer d'autres vues.
L'instruction SELECT dans la définition de la vue ne doit pas contenir les éléments Transact-SQL suivants:
COUNT Fonctions ROWSET ( OPENDATASOURCE , OPENQUERY , OPENROWSET ET OPENXML ) OUTER ( LEFT , RIGHT ou FULL )
Table dérivée (définie en spécifiant une SELECT dans la clause FROM ) Auto-jointures Spécification de colonnes à l'aide de SELECT * ou SELECT <table_name>.*
DISTINCT STDEV , STDEVP , VAR , VARP ou AVG Expression de table commune (CTE)
colonnes float ¹ , texte , ntext , image , XML ou filestream Sous-requête Clause OVER , qui inclut des fonctions de classement ou d'agrégation de fenêtres
Prédicats de texte intégral ( CONTAINS , FREETEXT ) Fonction SUM qui fait référence à une expression nullable ORDER BY
Fonction d'agrégation définie par l'utilisateur CLR TOP ROLLUP CUBE , ROLLUP ou GROUPING SETS
MIN , MAX Opérateurs UNION , EXCEPT ou INTERSECT TABLESAMPLE
Variables de table OUTER APPLY ou CROSS APPLY PIVOT , UNPIVOT
Ensembles de colonnes épars Fonctions en ligne (TVF) ou multi-instructions (MSTVF) OFFSET
CHECKSUM_AGG

¹ La vue indexée peut contenir des colonnes flottantes ; toutefois, ces colonnes ne peuvent pas être incluses dans la clé d'index cluster.
Si GROUP BY est présent, la définition VIEW doit contenir COUNT_BIG(*) et ne doit pas contenir HAVING . Ces restrictions GROUP BY ne s'appliquent qu'à la définition de vue indexée. Une requête peut utiliser une vue indexée dans son plan d'exécution même si elle ne satisfait pas à ces restrictions GROUP BY .
Si la définition de la vue contient une clause GROUP BY , la clé de l'index cluster unique peut référencer uniquement les colonnes spécifiées dans la clause GROUP BY .

Biens	Remarque
DÉTERMINISTIQUE = VRAI	Doit être déclaré explicitement en tant qu'attribut de la méthode Microsoft .NET Framework.
PRÉCIS = VRAI	Doit être déclaré explicitement en tant qu'attribut de la méthode .NET Framework.
ACCÈS AUX DONNÉES = AUCUN SQL	Déterminé en définissant l'attribut DataAccess sur DataAccessKind.None et l'attribut SystemDataAccess sur SystemDataAccessKind.None.
ACCÈS EXTERNE = NON	Cette propriété est définie par défaut sur NO pour les routines CLR.


`COUNT`	Fonctions ROWSET ( `OPENDATASOURCE` , `OPENQUERY` , `OPENROWSET` ET `OPENXML` )	`OUTER` ( `LEFT` , `RIGHT` ou `FULL` )
Table dérivée (définie en spécifiant une `SELECT` dans la clause `FROM` )	Auto-jointures	Spécification de colonnes à l'aide de `SELECT ` ou `SELECT <table_name>.`
`DISTINCT`	`STDEV` , `STDEVP` , `VAR` , `VARP` ou `AVG`	Expression de table commune (CTE)
colonnes float ¹ , texte , ntext , image , XML ou filestream	Sous-requête	Clause `OVER` , qui inclut des fonctions de classement ou d'agrégation de fenêtres
Prédicats de texte intégral ( `CONTAINS` , `FREETEXT` )	Fonction `SUM` qui fait référence à une expression nullable	`ORDER BY`
Fonction d'agrégation définie par l'utilisateur CLR	`TOP`	`ROLLUP` `CUBE` , `ROLLUP` ou `GROUPING SETS`
`MIN` , `MAX`	Opérateurs `UNION` , `EXCEPT` ou `INTERSECT`	`TABLESAMPLE`
Variables de table	`OUTER APPLY` ou `CROSS APPLY`	`PIVOT` , `UNPIVOT`
Ensembles de colonnes épars	Fonctions en ligne (TVF) ou multi-instructions (MSTVF)	`OFFSET`
`CHECKSUM_AGG`

Ici, vous pouvez voir que les Indiens n'étaient pas attirés, comme ils ont décidé de le faire selon le schéma "nous ferons peu, mais bien". Autrement dit, ils ont plus de mines sur le terrain, mais leur emplacement est plus transparent. La chose la plus pénible est cette limitation:

La vue doit référencer uniquement les tables de base qui se trouvent dans la même base de données que la vue. La vue ne peut pas référencer d'autres vues.

Dans notre terminologie, cela signifie qu'une fonction ne peut pas accéder à une autre fonction matérialisée. Cela coupe toute l'idéologie dans l'œuf.
De plus, cette limitation (et plus loin dans le texte) réduit considérablement les cas d'utilisation:

L'instruction SELECT dans la définition de la vue ne doit pas contenir les éléments Transact-SQL suivants:
COUNT Fonctions ROWSET ( OPENDATASOURCE , OPENQUERY , OPENROWSET ET OPENXML ) OUTER ( LEFT , RIGHT ou FULL )
Table dérivée (définie en spécifiant une SELECT dans la clause FROM ) Auto-jointures Spécification de colonnes à l'aide de SELECT * ou SELECT <table_name>.*
DISTINCT STDEV , STDEVP , VAR , VARP ou AVG Expression de table commune (CTE)
colonnes float ¹ , texte , ntext , image , XML ou filestream Sous-requête Clause OVER , qui inclut des fonctions de classement ou d'agrégation de fenêtres
Prédicats de texte intégral ( CONTAINS , FREETEXT ) Fonction SUM qui fait référence à une expression nullable ORDER BY
Fonction d'agrégation définie par l'utilisateur CLR TOP ROLLUP CUBE , ROLLUP ou GROUPING SETS
MIN , MAX Opérateurs UNION , EXCEPT ou INTERSECT TABLESAMPLE
Variables de table OUTER APPLY ou CROSS APPLY PIVOT , UNPIVOT
Ensembles de colonnes épars Fonctions en ligne (TVF) ou multi-instructions (MSTVF) OFFSET
CHECKSUM_AGG


`COUNT`	Fonctions ROWSET ( `OPENDATASOURCE` , `OPENQUERY` , `OPENROWSET` ET `OPENXML` )	`OUTER` ( `LEFT` , `RIGHT` ou `FULL` )
Table dérivée (définie en spécifiant une `SELECT` dans la clause `FROM` )	Auto-jointures	Spécification de colonnes à l'aide de `SELECT ` ou `SELECT <table_name>.`
`DISTINCT`	`STDEV` , `STDEVP` , `VAR` , `VARP` ou `AVG`	Expression de table commune (CTE)
colonnes float ¹ , texte , ntext , image , XML ou filestream	Sous-requête	Clause `OVER` , qui inclut des fonctions de classement ou d'agrégation de fenêtres
Prédicats de texte intégral ( `CONTAINS` , `FREETEXT` )	Fonction `SUM` qui fait référence à une expression nullable	`ORDER BY`
Fonction d'agrégation définie par l'utilisateur CLR	`TOP`	`ROLLUP` `CUBE` , `ROLLUP` ou `GROUPING SETS`
`MIN` , `MAX`	Opérateurs `UNION` , `EXCEPT` ou `INTERSECT`	`TABLESAMPLE`
Variables de table	`OUTER APPLY` ou `CROSS APPLY`	`PIVOT` , `UNPIVOT`
Ensembles de colonnes épars	Fonctions en ligne (TVF) ou multi-instructions (MSTVF)	`OFFSET`
`CHECKSUM_AGG`

OUTER JOINS, UNION, ORDER BY et autres sont interdits. Il était peut-être plus facile d'indiquer ce qui peut être utilisé que ce qui ne l'est pas. La liste serait probablement beaucoup plus petite.

Pour résumer: un énorme ensemble de restrictions dans chaque (je note commercial) SGBD vs aucun (à l'exception d'un logique plutôt que technique) dans la technologie LGPL. Cependant, il convient de noter que la mise en œuvre de ce mécanisme dans la logique relationnelle est un peu plus compliquée que dans la fonctionnalité décrite.

Implémentation

Comment ça marche? PostgreSQL est utilisé comme une «machine virtuelle». À l'intérieur, il y a un algorithme complexe qui construit des requêtes. Voici le code source . Et il n'y a pas seulement un grand ensemble d'heuristiques avec un tas d'if. Donc, si vous avez quelques mois pour étudier, vous pouvez essayer de comprendre l'architecture.

Fonctionne-t-il efficacement? Effectivement. Malheureusement, prouver cela est difficile. Je peux seulement dire que si vous considérez les milliers de demandes qui se trouvent dans de grandes applications, elles sont en moyenne plus efficaces qu'un bon développeur. Un excellent programmeur SQL peut écrire n'importe quelle requête plus efficacement, mais avec mille requêtes, il n'aura tout simplement ni la motivation ni le temps de le faire. La seule chose que je peux maintenant donner comme preuve d'efficacité est que, sur la base de la plate-forme construite sur ce SGBD, plusieurs projets de système ERP fonctionnent dans lesquels il existe des milliers de fonctions MATERIALISÉES diverses, avec des milliers d'utilisateurs et des bases de données terrabytes avec des centaines de millions d'enregistrements fonctionnant. sur un serveur ordinaire à double processeur. Cependant, n'importe qui peut tester / réfuter l'efficacité en téléchargeant la plate - forme et PostgreSQL, en activant la journalisation des requêtes SQL et en essayant de modifier la logique et les données.

Dans les articles suivants, je parlerai également de la façon dont vous pouvez bloquer les restrictions sur les fonctions, travailler avec des sessions de modification et bien plus encore.

Équilibrage d'écriture et de lecture de base de données

La description

Les avantages

Analogues

5.3.8.4 Restrictions générales sur l'actualisation rapide

5.3.8.5 Restrictions sur l'actualisation rapide des vues matérialisées avec jointures uniquement

5.3.8.6 Restrictions sur l'actualisation rapide des vues matérialisées avec agrégats

5.3.8.7 Restrictions sur l'actualisation rapide des vues matérialisées avec UNION ALL

Exigences supplémentaires

Implémentation

More articles: