6. Query Execution

6.1. Query

6.2. Sorting

思想是分治，就是把大数据分成独立的 *runs* 再分别 sort 它们。它们可以写回到硬盘，也可以读出来。这个算法包含两步： Phase #1 - Sorting： 首先算法会 sort 可以放在内存的小 chunk，然后写回到硬盘中。 Phase #2 - Merge： 然后合并这些子文件到一个大的单独文件中。

6.3. Aggregation

aggregation 就是对一组 tuples 的某些值做统计，转化成一个标量，如平均值、最大值、最小值等，aggregation 的实现通常有两种方案：

CMU 15-445: 6. Query Execution

6. Query Execution

6.1. Query

6.2. Sorting

6.3. Aggregation

Hashing
- 不需要排序
- 在 DBMS 扫描的时候填冲一个暂时的 hash table，对于每一个 record，检查它是否已经存在于 hash table
- DISTINCT：丢弃
- GROUP BY：进行聚合计算

CMU 15-445: 6. Query Execution

6. Query Execution

6.1. Query

6.2. Sorting

6.3. Aggregation

Hashing- 不需要排序- 在 DBMS 扫描的时候填冲一个暂时的 hash table，对于每一个 record，检查它是否已经存在于 hash table - DISTINCT：丢弃 - GROUP BY：进行聚合计算

Hashing
- 不需要排序
- 在 DBMS 扫描的时候填冲一个暂时的 hash table，对于每一个 record，检查它是否已经存在于 hash table
- DISTINCT：丢弃
- GROUP BY：进行聚合计算