Types of Teradata Joins
Teradata joins
当我们在一列或者多个列上join两个或者多个表的时候,就发生了joining。这将会获取两个表中匹配的记录。这个通用概念对所有的数据库都是统一的。
在Teradata中,Optimizer(一个智能的解释器)用于根据用户输入决定采用的join策略以达到更高的性能。
在Teradata中,包含一些通用的join类型:
- Inner join(某些情况下是self join)
- Outer Join(Left,Right,Full)
-Cross Join(笛卡尔积)
当用户发出join查询时,optimizer会选择join计划。这些join策略包括:
- Merge Join
- Nested Join
- Hash Join
- Product Join
- Exclusion Join
Merge Join(归并连接)
Merge Join中被连接的行必须在同一AMP中。如果被连接的行不在同一AMP中,Teradata会基于where子句中涉及的列来重新分布数据或者复制spool中的数据。
如果被连接的两个表有相同的primary index,则records(记录)会在相同的AMP中,就不需要重新分布记录了。
Merge Join在下列4中情况下会发生重分布(redistribution):
情况1:如果连接的列是UPI = UPI,则被连接的列在相同AMP中,不需要重分布。这是最快速高效的join策略
情况2:如果连接的列是UPI = Non Index column,则必须根据与第一个表的关系将第二个表中的记录重新分布到AMP
情况3:如果连接的列是Non Index column = Non Index column,则两个表都必须重新分布,使皮匹配的数据位于同一AMP上。由于两个表的完全重新分布遍历所有AMP,因此这种策略非常耗时。
情况4:对于发生在Primary Index上的join,如果参照表(join中的第二个表)很小,则这张表被拷贝到所有AMP上。
Nested Join(嵌套连接)
Nested Join是Optimizer推荐的最精确连接策略的一种。Nested Join工作在Join语句中使用的UPI/USI上,并用于从第一个表中检索单条记录。然后从第二个表中根据join中使用的index(primary或secondary)查询出匹配记录并返回匹配结果。
示例SQL:
Select EMP.Ename , DEP.Deptno, EMP.salary
from
EMPLOYEE EMP ,
DEPARTMENT DEP
Where EMP.Enum = DEP.Enum
and EMp.Enum= 2345; -- this results in nested join
Hash Join(哈希连接)
Hash Join是Optimizer基于连接条件建议的策略之一。在功能上,Hash Join与Merge Join紧密相关。Merge Join中连接发生在同一AMP中。Hash Join中,在同一AMP中的一个或两个表完全在内存中。AMP将小表保持在其内存中用于发生在Row hash上的join。
Hash Join的优势:
1.比Merge join更快速,因为大表不需要排序。
2.由于join发生的两张表一个在APM内存中,一个在不需排序的spool中,因此join速度非常快。
Exclusion Join
当查询语句中包含以下关键字时,Optimizer建议使用Exclusion Join:
-NOT IN
-EXCEPT
-MINUS
-SET 差集操作
Select EMP.Ename , DEP.Deptno, EMP.salary
from
EMPLOYEE EMP
WHERE EMP.Enum NOT IN
( Select Enum from
DEPARTMENT DEP
where Enum is NOT NULL );
请确保添加一个额外的WHERE过滤“where Enum is NOT NULL ”,因为在NOT IN中使用NULL不会返回结果。
对NOT IN查询的Exclusion Join有3种情况:
情况1:与NOT IN子查询结果匹配的行将被忽略
情况2:不匹配的将被使用
情况3:NOT IN中的任何未知结果将被忽略(NULL是这种情况的一个典型例子)。
原文链接:Types of Teradata Joins
分享到:
相关推荐
TERADATA JOIN的实现机制.docx
teradata常见问题及优化分享,常见问题,脚本优化,实用教程。 表属性不对: Set / Multiset 问题:INSERT操作慢 主索引(PI)设置不合理 问题1:数据倾斜度大,空间爆满。 问题2:JOIN操作,数据需要重分布。 ...
teradata-参考资料,terdata入门基础讲解,teradata优化
1.6 TERADATA的出现 10 1.7 如何衡量数据仓库引擎 11 1.7.1 TPC-D 12 1.7.2 TPC-H/R 20 1.8 NCR可扩展数据仓库方法论与实施框架 22 1.8.1 NCR可扩展数据仓库方法论 22 1.8.2 NCR可扩展数据仓库框架 27 1.8.3 NCR可...
Teradata架构 常见问题,及解决方法 Teradata工具实用小技巧 JOIN的实现机制 JOIN的优化
1.6 TERADATA的出现 6 1.7 如何衡量数据仓库引擎 7 1.7.1 TPC-D 7 1.7.2 TPC-H/R 14 1.8 NCR可扩展数据仓库方法论与实施框架 15 1.8.1 NCR可扩展数据仓库方法论 15 1.8.2 NCR可扩展数据仓库框架 18 1.8.3 NCR可扩展...
Teradata语法迁移Teradata语法迁移Teradata语法迁移Teradata语法迁移Teradata语法迁移
Teradata在整体上是按Shared Nothing 架构体系进行组织的(关于Shared Nothing及其它并行数据库体系结构请参考我的另一篇文章“并行数据库的基本体系结构”),由于Teradata通常被用于OLAP应用,因此单机的Teradata...
Teradata认证考试题库
teradata 学习文档 teradata 学习文档 teradata 学习文档 teradata 学习文档 teradata 学习文档 teradata 学习文档
Teradata SQL基础教程,想学习或者正在学习的同学可以看看。
The locking of Teradata
Teradata_数据模型基础知识整理.全面讲述三范式的标准
Teradata jdbc驱动 ,使用java连接Teradata数据库需要jdbc驱动。 Teradata jdbc驱动 ,使用java连接Teradata数据库需要jdbc驱动。
teradata教程
Teradata QueryGrid Teradata16.1 Database-to-Hadoop3.x
teradata jdbc连接包
Teradata SQL 基础教程 介绍Teradata SQL实施,过程等
teradata manager user guide
1.6 TERADATA的出现 10 1.7 如何衡量数据仓库引擎 11 1.7.1 TPC-D 12 1.7.2 TPC-H/R 20 1.8 NCR可扩展数据仓库方法论与实施框架 22 1.8.1 NCR可扩展数据仓库方法论 22 1.8.2 NCR可扩展数据仓库框架 26 1.8.3 NCR可...