窗口函数是在不聚合行的前提下,基于“窗口”内相关行对每行数据进行计算的强大工具,其核心是OVER()子句定义的窗口范围。与传统聚合函数(如SUM、*G配合GROUP BY)不同,窗口函数保留原始数据的每一行,同时为每行生成一个基于窗口计算的新值,适用于需保留细节并进行复杂分析的场景。典型结构为:函数(表达式) OVER ([PARTITION BY 列名] [ORDER BY 列名]),其中PARTITION BY将数据分组,ORDER BY确定窗口内行的顺序。常见排名函数包括ROW_NUMBER()(唯一连续编号,无并列)、RANK()(并列后排名跳跃,如1,2,2,4)和DENSE_RANK()(并列后排名连续,如1,2,2,3),选择依据业务对并列的处理需求。窗口函数广泛应用于累计求和、移动平均、前后行比较(LAG/LEAD)、分组极值获取等高级分析场景,显著简化复杂查询,减少子查询与连接操作,提升可读性和执行效率。但其性能受排序开销、内存使用、索引支持和窗口框架影响较大,尤其在大数据集上需合理设计索引、优化分区与排序逻辑,避免不必要的开销。

SQL中的窗口函数,简单来说,就是一种在不聚合行的情况下,对与当前行相关的行集执行计算的强大工具。它允许你在每行数据上,根据一个“窗口”内的其他行来计算一个值,比如排名、累计总和或者移动平均。RANK、ROW_NUMBER等就是这类函数中的佼佼者,它们让复杂的数据分析变得前所未有的简单和高效。
在我看来,理解窗口函数的关键在于那个
OVER()子句。它定义了你的“窗口”——也就是哪些行会参与到当前行的计算中。不像传统的
GROUP BY会把多行数据折叠成一行聚合结果,窗口函数在计算完成后,依然会返回原始数据集的每一行,只是多了一个基于窗口计算出来的新列。这对于需要保留原始数据细节,同时又想进行复杂分析的场景来说,简直是神来之笔。
一个典型的窗口函数结构是这样的:
窗口函数(表达式) OVER ([PARTITION BY 列名] [ORDER BY 列名 [ASC|DESC]])
这里的
PARTITION BY是可选的,它将数据集分成独立的组(或称“分区”),每个分区内部独立进行窗口计算。这就像是你把一个大班的学生按班级分组,然后每个班级内部再进行排名。而
ORDER BY则定义了窗口内行的排序顺序,这对于像排名、累积求和这类依赖顺序的计算至关重要。
这真的是一个非常核心的问题,也是很多人初学时会感到困惑的地方。说白了,传统聚合函数(比如
SUM(),
*G(),
COUNT()配合
GROUP BY)的目的是“汇总”。它们把一组行压缩成一个单一的摘要值。比如,你想知道每个部门的总销售额,
GROUP BY department_id然后
SUM(sales),结果就是每个部门一行数据,显示总销售额。原始的每笔销售记录就看不到了。
但窗口函数则完全不同。它们执行的是“行级计算”。它们在计算时确实会考虑一组行(那个“窗口”),但最终结果是为每一行都生成一个值。这意味着你既能看到每笔交易的详细信息,又能在这笔交易旁边看到它在某个特定分组(比如同部门)中的排名,或者它到目前为止的累计销售额。
为什么选择它们?原因很多,但最主要的有以下几点:
RANK()或
ROW_NUMBER(),这变得异常简单。
举个例子,假设我们有销售数据: | 订单ID | 部门ID | 销售额 | |---|---|---| | 1 | A | 100 | | 2 | A | 150 | | 3 | B | 200 | | 4 | A | 50 |
如果用传统聚合:
SELECT 部门ID, SUM(销售额) FROM 销售表 GROUP BY 部门ID;结果: | 部门ID | SUM(销售额) | |---|---| | A | 300 | | B | 200 |
如果用窗口函数计算部门内累计销售额:
SELECT 订单ID, 部门ID, 销售额, SUM(销售额) OVER (PARTITION BY 部门ID ORDER BY 订单ID) AS 部门累计销售额 FROM 销售表;结果: | 订单ID | 部门ID | 销售额 | 部门累计销售额 | |---|---|---|---| | 1 | A | 100 | 100 | | 2 | A | 150 | 250 | | 4 | A | 50 | 300 | | 3 | B | 200 | 200 |
看,每一行都还在,但又多了一个有用的分析字段。
这三个函数是窗口函数家族中最常用的“排名”函数,但它们处理“并列”情况的方式各不相同,因此适用场景也不同。我常常觉得,理解它们的核心就在于你如何看待并列名次。
这个函数是最直接的。它为分区中的每一行分配一个唯一的、连续的序号,从1开始。 特点: 绝不会出现并列。即使两行在排序条件上完全相同,它们也会得到不同的
ROW_NUMBER。至于哪一行先得到较小的数字,取决于数据库内部的物理存储顺序或者未指定的排序规则。 何时使用:
ROW_NUMBER()排序,然后只保留
rn = 1的记录。
ROW_NUMBER()结合子查询或CTE可以很方便地实现。
示例:
AI Surge Cloud
低代码数据分析平台,帮助企业快速交付深度数据
87
查看详情
SELECT
product_id,
sale_date,
sale_amount,
ROW_NUMBER() OVER (PARTITION BY product_id ORDER BY sale_date DESC) AS rn
FROM
sales_data;这会给每个产品的销售记录按日期倒序编号,最新的销售记录
rn为1。
RANK()函数为分区中的行分配排名。如果有多行在排序条件上具有相同的值,它们会得到相同的排名。但请注意,下一个不同的值会跳过相应数量的排名。 特点: 有并列,且并列后的排名会有“跳跃”。比如,1, 2, 2, 4(如果两个并列是第2名,那么下一个名次就是第4名)。 何时使用:
示例:
SELECT
student_id,
score,
RANK() OVER (ORDER BY score DESC) AS student_rank
FROM
exam_results;如果两个学生都考了90分,他们可能都得到
rank = 2,而下一个学生如果考88分,他的
rank就会是
4。
DENSE_RANK()函数也为分区中的行分配排名,与
RANK()类似,并列的行会得到相同的排名。但它与
RANK()的关键区别在于,并列后的排名是连续的,不会有跳跃。 特点: 有并列,但并列后的排名是“紧密的”,没有跳跃。比如,1, 2, 2, 3。 何时使用:
示例:
SELECT
product_category,
sales_amount,
DENSE_RANK() OVER (PARTITION BY product_category ORDER BY sales_amount DESC) AS category_sales_rank
FROM
product_sales;这会给每个产品类别内的销售额进行排名。如果两个产品销售额并列第一,它们都得到
rank = 1,下一个销售额的产品就会得到
rank = 2。
总的来说,选择哪个函数取决于你对“并列”的业务理解和排名需求的精确定义。
窗口函数远不止排名这么简单,它们在实际业务中有着极其广泛且强大的应用,有时候我甚至觉得它们是SQL分析能力的“核武器”。
计算累计总和 (Running Totals): 比如,计算每天的累计销售额。
SELECT
sale_date,
daily_sales,
SUM(daily_sales) OVER (ORDER BY sale_date ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) AS cumulative_sales
FROM
daily_sales_report;这里的
ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW定义了窗口框架,表示从分区开始到当前行。
计算移动平均 (Moving Averages): 比如,计算过去7天的平均销售额,用于趋势分析。
SELECT
sale_date,
daily_sales,
*G(daily_sales) OVER (ORDER BY sale_date ROWS BETWEEN 6 PRECEDING AND CURRENT ROW) AS seven_day_moving_*g
FROM
daily_sales_report;ROWS BETWEEN 6 PRECEDING AND CURRENT ROW表示窗口包含当前行和它之前的6行。
比较当前行与前/后一行 (LAG/LEAD): 比如,计算相邻两次交易之间的时间间隔,或者与前一天的销售额进行比较。
SELECT
order_id,
customer_id,
order_date,
LAG(order_date, 1, NULL) OVER (PARTITION BY customer_id ORDER BY order_date) AS previous_order_date,
DATEDIFF(day, LAG(order_date, 1, NULL) OVER (PARTITION BY customer_id ORDER BY order_date), order_date) AS days_since_last_order
FROM
customer_orders;LAG(order_date, 1, NULL)获取前一行(偏移量为1)的
order_date,如果没有前一行则返回
NULL。
查找每个分组的最高/最低值 (FIRST_VALUE/LAST_VALUE): 比如,找出每个部门销售额最高的员工姓名。
SELECT
department_id,
employee_name,
sales_amount,
FIRST_VALUE(employee_name) OVER (PARTITION BY department_id ORDER BY sales_amount DESC) AS top_seller_in_dept
FROM
employee_sales;窗口函数虽然强大,但并非没有代价。它们在处理大数据集时,可能会带来显著的性能开销。
OVER()子句中的
ORDER BY操作是性能瓶颈的主要来源。数据库需要对数据进行排序才能执行窗口计算。如果
PARTITION BY子句将数据分成大量小分区,或者分区内的数据量巨大,排序的开销就会很高。
ORDER BY子句中没有
PARTITION BY,或者
PARTITION BY只分成了少数几个大分区时,整个数据集可能需要在内存中进行排序,这会消耗大量内存。如果数据量超出内存,数据库会使用磁盘进行溢出排序,导致I/O操作增加,性能急剧下降。
PARTITION BY和
ORDER BY子句中使用的列有合适的索引。这将大大加速数据的分区和排序过程。一个复合索引,例如
(partition_column, order_column),通常效果最佳。
ROWS或
RANGE子句定义了窗口的范围。如果窗口范围很小(比如
ROWS BETWEEN 1 PRECEDING AND 1 FOLLOWING),数据库可能能更有效地处理。而
UNBOUNDED PRECEDING或
UNBOUNDED FOLLOWING则意味着窗口可能包含整个分区,计算量更大。
GROUP B或子查询就能满足需求,就不要强行使用窗口函数。虽然它们很酷,但不是万能药。Y
在实际项目中,我通常会先用窗口函数写出逻辑清晰的查询,然后在测试环境用真实数据量进行性能测试。如果发现性能瓶颈,我会检查索引、调整窗口框架,甚至考虑是否可以通过分阶段处理(比如先聚合部分数据,再应用窗口函数)来优化。性能优化是一个迭代的过程,没有一劳永逸的解决方案。
以上就是SQL中的窗口函数是什么?RANK、ROW_NUMBER等详解的详细内容,更多请关注其它相关文章!
相关文章:
钉钉视频会议声音异常如何处理 钉钉会议音频修复技巧
sublime如何只显示或隐藏特定类型文件_sublime侧边栏文件过滤
如何有效阻止外部脚本意外修改内联样式的高度属性
J*aScript中赋值与自增运算符的复杂交互与执行机制
Gmail邮箱申请注册直达_Gmail邮箱免费注册PC版官网入口2025
2025年云电脑操作系统体验 | 无需本地硬件,随时随地使用高性能PC
J*a 递归快速排序中静态变量的状态管理与陷阱
Win11网速慢怎么解决 Win11网络设置优化解除限速
J*a如何实现并发下载文件_J*a多线程IO性能优化案例
UC浏览器如何安装插件 UC浏览器添加扩展程序详细教程【进阶】
京东京造J1和网易云音乐氧气真无线有什么不同_国产电商蓝牙耳机音质对比
响应式CSS Grid布局:优化网格项在小屏幕下的堆叠与宽度适配
如何高效处理PHP中的Excel数据导入导出?PortPHP/Spreadsheet助你轻松搞定!
php源码怎么在电脑上测试_电脑测试php源码方法步骤【教程】
html两个JS只运行一个怎么办_让双JS在html中都运行方法【技巧】
冬*霸灯泡不亮怎么办_浴霸取暖灯一盏不亮的灯座清洁修复法
Composer中的^和~符号代表什么_精通Composer版本号语义化约束
Composer的 "check-platform-reqs" 命令有什么用_在部署前检查生产环境是否满足Composer依赖需求
解决Bootstrap卡片顶部边距导致背景图下移的问题
邮编格式怎么匹配地址_根据邮编格式快速匹配详细地址的技巧
微信网页版官方快速登录入口 微信网页版网页版账号直达
微博网页版首页入口 微博电脑端官网登录链接
利用5118提升短视频内容效果_5118短视频关键词优化方法
谷歌浏览器怎么给标签页静音_Chrome标签静音快捷操作
J*aScript中正确使用querySelectorAll与复杂CSS选择器
抖音怎么赚钱_抖音创作者变现方法与途径指南
迅雷下载到U盘速度很慢怎么办_迅雷U盘下载慢优化方法
C++如何生成随机数_C++ random库使用方法与范围设置
新手怎么开始学化妆 零基础化妆入门教程
J*aScript对象创建方式_J*aScript设计模式应用
怎样把文件彻底粉碎无法恢复_Windows下安全删除敏感数据【隐私保护】
在J*a中如何捕获IndexOutOfBoundsException_索引越界异常防护方法说明
微信网页版扫码登录入口 微信网页版二维码登录入口
Yandex官网搜索引擎免登录_俄罗斯Yandex一键直达入口
QQ邮箱登录官网首页 腾讯QQ邮箱网页入口
Composer的 "conflict" 字段有什么用_如何声明不兼容的包以避免依赖冲突
CSS布局:解决全屏元素100%尺寸与外边距导致的页面溢出问题
优化Log4j2控制台输出性能:解决异步日志瓶颈
腾讯QQ邮箱官方网站_QQ邮箱网页版在线登录
腾讯视频怎么使用多账号家庭管理_腾讯视频家庭多账号统一管理与权限分配教程
Pyrogram与g4f集成:异步编程实践与常见错误解决
网易大神怎么保存别人动态的图片_网易大神动态图片保存方法
Win11怎么开启省电模式_Win11电池节电模式自动开启
高德地图公交到站提醒失败如何解决 高德提醒权限设置
小米Civi 4录制视频过暗_小米Civi 4亮度优化
怎么搭建一个php网站源码_搭php网站源码搭建教程
Archive of Our Own官网直达 AO3最新可用地址一览
Composer的 COMPOSER_PROCESS_TIMEOUT 配置项有什么用_解决因执行时间过长而失败的Composer脚本
魅族17怎样用浏览器译外语网页_iPhone魅族17浏览器译外语网页【即时翻译】
支付宝解绑银行卡步骤_支付宝如何解除绑定银行卡