Comment utiliser UNION ALL BY NAME dans BigQuery pour fusionner des résultats SQL ?

UNION ALL BY NAME dans BigQuery permet de fusionner les résultats de plusieurs requêtes SQL en associant les colonnes par nom, pas par position. Cela corrige un problème courant et simplifie les opérations sur des schémas similaires avec colonnes désordonnées.

3 principaux points à retenir.

UNION ALL BY NAME fusionne les résultats SQL en associant les colonnes par leur nom, et non leur position.
Facilite le traitement de données avec colonnes similaires désordonnées ou provenant de sources différentes.
Réduit les erreurs de type et de correspondance dans les union classiques, augmentant la flexibilité et la robustesse des requêtes.

Qu’est-ce que UNION ALL BY NAME et pourquoi est-ce utile en SQL BigQuery ?

UNION ALL BY NAME est une fonctionnalité relativement récente dans BigQuery qui se révèle être un véritable atout pour quiconque gère des ensembles de données complexes. Elle permet de fusionner les résultats de plusieurs requêtes SQL en associant les colonnes par leur nom plutôt que par leur position. Sur le papier, cela peut sembler une simple variante de UNION ALL, mais dans la pratique, cela corrige un certain nombre d’erreurs récurrentes.

Dans un usage traditionnel de UNION ALL, la position des colonnes est primordiale. Si deux requêtes ont des colonnes dans un ordre différent mais avec des noms similaires, une fusion avec UNION ALL échouera inévitablement. En effet, elle va combiner les valeurs selon leur position dans la requête, ce qui peut causer des erreurs de données et de type. Par exemple :

SELECT id, name FROM table_a
UNION ALL
SELECT name, id FROM table_b;

Ce code produira un résultat qui associe les identifiants avec des noms de manière désordonnée. Impossible de savoir si chaque nom correspond réellement à son identifiant sans une analyse manuelle fastidieuse.

Avec UNION ALL BY NAME, cette confusion disparaît. En utilisant la même structure précédente, les valeurs seront correctement fusionnées par nom :

SELECT id, name FROM table_a
UNION ALL BY NAME
SELECT id, name FROM table_b;

Ici, même si l’ordre des colonnes est altéré, les résultats seront alignés correctement grâce à l’association par nom. Cela simplifie la maintenance des requêtes, réduit le risque d’erreurs et permet de gagner un temps précieux dans le développement de rapports ou d’analyses complexes.

Cette fonctionnalité est particulièrement appréciée dans les environnements où les données proviennent de sources hétérogènes, ce qui est souvent le cas dans le Big Data. En 2021, Google a intégré cette option dans BigQuery, la rendant disponible pour les analystes et développeurs qui en ont grand besoin. Pour plus d’informations sur les différences entre UNION et UNION ALL, vous pouvez consulter cet article.

Comment écrire une requête avec UNION ALL BY NAME dans BigQuery et quels pièges éviter ?

Pour utiliser UNION ALL BY NAME dans BigQuery, il est crucial de comprendre la syntaxe exacte et ses exigences. Voici comment cela fonctionne.

Syntaxe :


SELECT column1, column2 FROM table1
UNION ALL BY NAME
SELECT column2, column1 FROM table2;

Dans cet exemple, imaginons que nous avons deux tables, table1 et table2, qui contiennent des données sur les employés. Les colonnes sont organisées différemment dans chaque table, mais nous voulons les fusionner. Voici le code complet :


SELECT name AS employee_name, age AS employee_age FROM employees_2021
UNION ALL BY NAME
SELECT age AS employee_age, name AS employee_name FROM employees_2022;

Les exigences sont simples : les colonnes doivent avoir les mêmes noms et des types compatibles dans chaque SELECT. Par exemple, si vous avez employee_name comme chaîne de caractères dans employees_2021, il doit aussi être une chaîne de caractères dans employees_2022. Sinon, vous obtiendrez une erreur.

Attention aux colonnes absentes ! Si une colonne est manquante dans l’un des SELECT, cela peut causer des problèmes. Par exemple, si employee_age n’existe pas dans employees_2022, BigQuery ne saura pas comment interpréter cela. Utiliser NULL ou des alias pour gérer les colonnes manquantes est une bonne pratique :


SELECT name AS employee_name, age AS employee_age FROM employees_2021
UNION ALL BY NAME
SELECT name AS employee_name, NULL AS employee_age FROM employees_2022;

Voici un tableau qui résume les différences entre UNION ALL classique et UNION ALL BY NAME :

Critères	UNION ALL	UNION ALL BY NAME
Ordre des colonnes	Doit correspondre	Peut être désordonné
Colonnes absentes	Erreur si absente	Prévoir NULL ou alias
Complexité de la syntaxe	Plus simple	Plus flexible

Enfin, pour plus de détails sur le traitement de SQL dans BigQuery, n’hésitez pas à consulter la documentation officielle.

Comment UNION ALL BY NAME optimise-t-il l’automatisation et l’analyse de données dans BigQuery ?

Dans un environnement d’entreprise où chaque seconde compte, l’automatisation des workflows de requêtes SQL est un enjeu crucial. C’est là qu’intervient UNION ALL BY NAME dans BigQuery, qui révolutionne la façon dont les données hétérogènes sont traitées et analysées. Imaginez que vous devez fusionner des données provenant de plusieurs sources, chacune ayant son propre schéma. Au lieu de passer des heures à réorganiser manuellement les colonnes, ce qui engendre non seulement des pertes de temps mais aussi des erreurs humaines, UNION ALL BY NAME fait le travail pour vous. Le processus devient fluide, rapide, et fonctionnel.

Considérons un cas d’usage concret avec Google Analytics exporté vers BigQuery. Dans un tel scénario, il n’est pas rare que les schémas changent au fil du temps – des colonnes ajoutées ou supprimées, l’ordre des colonnes modifié selon les mises à jour de la plateforme. Avec UNION ALL BY NAME, vous pouvez agréger ces données sans tracas. Par exemple, même si votre première table a les colonnes A, B, C et la seconde B, C, A, la syntaxe de BigQuery vous permet de les fusionner sans réorganiser manuellement chaque colonne, puisque la fonction s’assure que les colonnes sont alignées par leur nom plutôt que par leur position. Cela vous permet d’intégrer sans effort les nouvelles sources de données dans vos analyses.

Cette fonctionnalité s’intègre parfaitement dans les pipelines ETL modernes. Imaginez un pipeline qui doit ingérer des données de plusieurs plateformes SaaS en temps réel. Si chaque source a potentiellement un schéma légèrement différent, l’utilisation de UNION ALL BY NAME vous évite de réécrire régulièrement votre logique de ingestion. De plus, cette approche est cruciale pour les outils de BI (Business Intelligence) qui dépendent d’une structuration fiable pour générer des rapports. Sans cela, la qualité des analyses souffre.

En réduisant la nécessité d’une réorganisation manuelle des colonnes et en évitant les erreurs potentielles, UNION ALL BY NAME rend les équipes plus productives et leur permet de se concentrer sur des tâches à forte valeur ajoutée. Dans un monde où les données sont le nouveau pétrole, chaque goutte compte, et cette fonction se révèle être un atout indéniable.source

UNION ALL BY NAME est-il le nouveau standard pour fusionner vos données SQL en toute sécurité ?

UNION ALL BY NAME révolutionne la manière dont on réalise des opérations UNION dans BigQuery. En associant les colonnes par nom, non par position, cette fonction élimine les tracas de la réorganisation manuelle et les erreurs fréquentes lors de la fusion de datasets aux schémas similaires mais désordonnés. Son adoption facilite la maintenance des scripts SQL, accélère les processus d’intégration de données et diminue les risques d’erreur, surtout dans des environnements d’analyse de données complexes comme Google Analytics. Cette fonction s’impose comme un outil indispensable pour quiconque veut un SQL plus robuste, flexible et fiable.

FAQ

Quelles différences clés entre UNION ALL et UNION ALL BY NAME ?

UNION ALL fusionne les résultats en associant les colonnes par position, ce qui peut causer des erreurs si l’ordre ou les types diffèrent. UNION ALL BY NAME associe les colonnes par nom, ce qui rend la fusion plus fiable lorsque les colonnes ne sont pas dans le même ordre.

Puis-je utiliser UNION ALL BY NAME si mes colonnes n’ont pas exactement le même nom ?

Non. Les colonnes doivent avoir le même nom et des types compatibles dans chaque requête pour que UNION ALL BY NAME fonctionne correctement. Sinon, des erreurs surviendront.

UNION ALL BY NAME est-il supporté dans tous les SQL ?

Non, ce feature est spécifique à Google BigQuery et quelques autres plateformes récentes. Les bases SQL classiques comme MySQL ou PostgreSQL ne le supportent pas encore.

Peut-on utiliser UNION ALL BY NAME avec des colonnes absentes dans une des requêtes ?

Non directement. Toutes les colonnes nommées dans une requête doivent être présentes dans l’autre avec types compatibles. Vous devez ajouter des colonnes NULL ou des alias pour uniformiser les schémas.

Quels avantages pour l’automatisation de la data avec UNION ALL BY NAME ?

Cette fonction réduit les erreurs liées aux changements de schéma et à l’ordre des colonnes, rendant les pipelines ETL/ELT plus fiables et moins coûteux en maintenance, particulièrement pour des datasets évolutifs comme ceux de Google Analytics.

Franck Scandolera

⭐ Analytics engineer, Data Analyst et Automatisation IA indépendant ⭐

Ref clients : Logis Hôtel, Yelloh Village, BazarChic, Fédération Football Français, Texdecor…

Mon terrain de jeu :

Data Analyst & Analytics engineering : tracking avancé (GTM server, e-commerce, CAPI, RGPD), entrepôt de données (BigQuery, Snowflake, PostgreSQL, ClickHouse), modèles (Airflow, dbt, Dataform), dashboards décisionnels (Looker, Power BI, Metabase, SQL, Python).
Automatisation IA des taches Data, Marketing, RH, compta etc : conception de workflows intelligents robustes (n8n, App Script, scraping) connectés aux API de vos outils et LLM (OpenAI, Mistral, Claude…).
Engineering IA pour créer des applications et agent IA sur mesure : intégration de LLM (OpenAI, Mistral…), RAG, assistants métier, génération de documents complexes, APIs, backends Node.js/Python.