坟墓里寂静无比,埋葬你的是你所有没说出口的话
本文由AI整理自凌青老师课程。因看视频太耗时间,故而整理,仅供个人参考。
第一课:引言(一)
核心摘要 (Key Takeaways)
- 凸优化是“简单的优化问题”:课程聚焦于凸优化,因其结构良好、可高效求解,而一般优化问题(非凸)通常难以处理。
- 优化问题的三要素:可行解集合、最优性准则(目标函数)、求解方法;缺一不可。
- 标准优化问题的数学形式:最小化目标函数 f0(x),满足不等式约束 fi(x)≤bi(i=1,…,M)。
- 优化无处不在:从日常生活决策、物流调度、通信功率控制到图像去噪、电路设计,均涉及优化建模。
- 课程考核结构:20% 平时成绩(课堂小测验)、80% 期末考试,另设最高10分的可选课程论文(极难获得高分)。
1. 课程介绍与安排
1.1 课程基本信息
- 课程名称:凸优化(原名“最优化理论”,因非凸优化太难,故聚焦于凸优化——即简单的优化问题)。
- 授课时间:第2周至第16周,共60学时;第17周期末考试。
- 助教:王浩、侍卫。
- 联系方式:可通过邮件联系教师或助教。
1.2 考核方式
- 平时成绩(20%):通过2–3次课堂小测验完成(非课后作业),提前一节课通知。
- 期末考试(80%)。
- 课程论文(额外0–10分,非强制):
- 面向研究生,需将自身研究与凸优化结合。
- 要求使用凸优化方法取得实质性成果。
- 极难拿高分:去年最高仅3分。
1.3 参考教材
- 主教材:Convex Optimization by Stephen Boyd(免费电子版可在作者主页下载)。
- 补充教材(算法方向):两本由 Bertsekas(巴萨卡斯)所著的优化算法书籍(电子版较难获取)。
建议:无需购买 Boyd 的书,重点掌握基本内容即可。
2. 优化问题的基本定义
2.1 什么是优化?
优化(或称数学规划)是从一个可行解集合中寻找最优元素的过程。
三要素:
- 可行解集合(Feasible Set):所有满足约束条件的解构成的集合。
- 最优性准则:通过目标函数定义“最优”。
- 求解方法:算法或策略,用于找到最优解。
例子(贾宝玉找老婆):
- 可行集:大观园中所有适龄女性。
- 最优准则:贾宝玉的喜好(主观目标函数)。
- 求解方法:逐一试探。
- 问题:最优性准则模糊 → 最终出家。说明三要素缺一不可。
2.2 数学形式
任一优化问题可表示为:
xmins.t.f0(x)fi(x)≤bi,i=1,…,M
- x∈Rn:优化变量(n维向量)。
- f0(x):目标函数(从 Rn→R)。
- fi(x)≤bi:不等式约束(共 M 个)。
- 可行集:{x∣fi(x)≤bi,∀i}。
- 最优解:记为 x∗,满足对任意可行 z,有 f0(x∗)≤f0(z)。
注:等式约束 h(x)=c 可等价转化为两个不等式约束:h(x)≤c 且 −h(x)≤−c。为简化,课程仅讨论不等式形式。
3. 简单示例分析
3.1 一维无约束优化(带界约束)
- 目标函数:f0(x)(如二次函数)。
- 约束:−A≤x≤A,等价于:
- x≤A
- −x≤A
可行集:区间 [−A,A]。
最优解:通常为单点(如抛物线顶点),但不一定唯一。
3.2 多最优解情形
- 若目标函数在可行域内有多个极小值点(如双谷函数),则最优解集为多个点的集合。
- 关键结论:
- 最优解不一定唯一。
- 唯一最优解的问题通常更简单;多解或连续解集的问题更复杂。
4. 优化的实际应用案例
4.1 日常生活中的优化
- 个人预算分配:在有限工资下,最大化生活满意度(食物、衣物等支出分配)。
- 国家资源分配:在国防、经济建设、对外援助间分配有限财政资源。
共性:在资源约束下,最大化效用或最小化成本。
4.2 数据拟合(最小二乘法)
- 背景:物理实验获得离散数据点 (xi,yi),需拟合曲线(如二次函数 y=ax2+bx+c)。
- 目标:估计参数 a,b,c,使测量误差最小。
- 最小二乘准则:
mina,b,c∑i=1Nei2=∑i=1N(yi−(axi2+bxi+c))2
- 约束扩展:若已知 c>0,则增加约束 c≥0,形成有约束优化问题。
4.3 线性二次调节器(LQR)
- 系统模型(离散线性系统):
xk=Axk−1+Buk
- xk:k时刻系统状态。
- uk:控制输入。
- A,B:状态转移与输入矩阵。
- 目标函数:
min{uk}∑k=1N(xk⊤Qxk+uk⊤Ruk)
- 第一项:状态偏差惩罚(希望状态接近目标)。
- 第二项:控制能量惩罚(希望输入不过大)。
- 性质:这是一个标准的凸优化问题,可通过求解 Riccati 方程求解。
4.4 通信中的多用户功率控制
- 场景:多个发射端(TX)与接收端(RX)共存,相互干扰。
- 变量:每个用户 i 的发射功率 pi,满足 0≤pi≤bi。
- 干扰模型:
- αij:用户 j 对用户 i 的单位功率干扰。
- δi2:用户 i 的高斯白噪声方差。
- 信干噪比(SINR):
SINRi=δi2+∑j=iαijpjpi
- 用户速率:fi∝log(1+SINRi)。
- 优化目标(运营商视角):
max{pi}∑i=1Nfi(p1,…,pN)s.t.0≤pi≤bi
- 挑战:全局流量最大可能导致部分用户速率极低 → 需引入公平性约束(如均衡速率)。
4.5 图像去噪(TV-L2 模型)
- 问题:从带噪图像 f0(x,y) 恢复干净图像 f(x,y)。
- 先验知识:自然图像具有分片光滑性(piecewise smoothness)。
- 全变分(Total Variation, TV)正则项:
∥f∥TV=∑x,y(∂x∂f)2+(∂y∂f)2
(离散形式为相邻像素差分的 ℓ2 范数之和)
- 优化模型(TV-L2):
minfλ∥f∥TV+∥f−f0∥F2
- 第一项:鼓励分片光滑。
- 第二项(Frobenius 范数):保证与观测图像接近。
- λ>0:平衡两项的权重。
- 极端情况分析:
- 若 λ=0 → f=f0(无去噪)。
- 若无第二项 → f=0(全黑图像,TV 最小)。
4.6 超大规模集成电路(VLSI)设计
- 任务:连接 N 个门电路(D1,…,DN)以实现特定逻辑功能。
- 目标:在满足功能约束下,优化性能指标(如能耗、成本)。
- 数学抽象:
- 可行连接方案集合:{T1,…,TM}。
- 选择一个方案 x∈{T1,…,TM} 以最小化性能指标 P(x)。
- 难点:此类问题通常是 NP-hard(计算复杂度极高),属于难优化问题。
4.7 网络最短路径问题(计算机领域)
- 场景:互联网路由、导航系统。
- 模型:在无向图中,寻找两点间代价最小的路径。
- 本质:一类特殊的组合优化问题,可用图算法(如 Dijkstra)高效求解(属于“简单”优化问题)。
5. 问题难度与课程定位
- 核心观点:凸优化 = 简单优化问题;非凸/组合优化 = 难问题。
- 课程目标:
- 掌握凸优化的基本理论与建模方法。
- 学会识别哪些实际问题可转化为凸优化(从而高效求解)。
- 理解哪些问题本质上是难解的(如 VLSI 设计),避免盲目尝试。
flowchart TD
A[实际问题] --> B{能否建模为
凸优化问题?}
B -->|是| C[使用凸优化方法
高效求解]
B -->|否| D{是否为
组合/NP-hard问题?}
D -->|是| E[需启发式/近似算法
或问题简化]
D -->|否| F[可能需非凸优化技术
但无全局最优保证]
flowchart TD
A[实际问题] --> B{能否建模为
凸优化问题?}
B -->|是| C[使用凸优化方法
高效求解]
B -->|否| D{是否为
组合/NP-hard问题?}
D -->|是| E[需启发式/近似算法
或问题简化]
D -->|否| F[可能需非凸优化技术
但无全局最优保证]
flowchart TD
A[实际问题] --> B{能否建模为
凸优化问题?}
B -->|是| C[使用凸优化方法
高效求解]
B -->|否| D{是否为
组合/NP-hard问题?}
D -->|是| E[需启发式/近似算法
或问题简化]
D -->|否| F[可能需非凸优化技术
但无全局最优保证]
flowchart TD
A[实际问题] --> B{能否建模为
凸优化问题?}
B -->|是| C[使用凸优化方法
高效求解]
B -->|否| D{是否为
组合/NP-hard问题?}
D -->|是| E[需启发式/近似算法
或问题简化]
D -->|否| F[可能需非凸优化技术
但无全局最优保证]
流程图解释:
该流程图描述了面对一个实际优化问题时的决策路径。首先判断其是否可转化为凸优化问题(课程核心)。若可以,则有成熟高效算法;若不能,则进一步判断是否属于组合优化(如 VLSI、旅行商问题),此类问题通常 NP-hard,需特殊处理;否则可能涉及非凸优化,求解困难且无全局最优性保证。本课程重点训练第一步的建模与识别能力。
第二课:引言(二)——优化问题建模与分类
核心摘要 (Key Takeaways)
- 最短路径问题可以建模为一个优化问题,通过引入 0-1 决策变量 xij 和流量守恒约束,将其形式化为数学规划问题。
- 线性规划是凸优化的特例,其目标函数和约束均为线性,最优解总出现在可行域的顶点或边界上。
- 凸优化是“容易求解”的核心类别:只要问题可建模为凸优化(目标函数凸、可行域凸),就具备良好性质,可用高效算法求解。
- 优化问题有多种分类维度:线性/非线性、凸/非凸、光滑/非光滑、连续/离散、单目标/多目标,其中凸与非凸是最本质的区分。
- 课程目标是教会如何将实际问题转化为“容易的”凸优化问题,并理解其理论基础与求解思路。
一、最短路径问题的优化建模
1.1 问题背景
- 考虑一个无向图 G=(V,E):
- V:顶点集合(每个圆圈代表一个顶点)
- E:边集合(连接两个顶点的线段)
- 每条边 (i,j)∈E 有一个权重 wij≥0,表示从顶点 i 到 j 的“代价”(如时间、距离等)。
- 目标:给定起点(源点)s 和终点(汇点)t,找到一条从 s 到 t 的路径,使得路径上所有边的权重之和最小。
例子:访问网站时,希望数据包传输路径耗时最短。
1.2 数学建模
引入决策变量:
- xij∈{0,1}:若选择边 (i,j),则 xij=1;否则为 0。
目标函数
最小化总代价:
min(i,j)∈E∑wijxij约束条件(流量守恒)
为确保解构成一条从 s 到 t 的路径,需满足:
关键洞察:原始问题要求 xij∈{0,1}(整数规划),但对于最短路径问题,可将约束松弛为 xij≥0,问题仍能得到整数最优解。此时问题变为线性规划(Linear Programming, LP),属于“容易求解”的类别。
二、优化问题的分类体系
2.1 线性规划 vs. 非线性规划
- 线性规划(LP):
- 目标函数 f0(x) 和所有约束函数 fi(x)(i=1,…,m)均为线性函数。
- 线性函数定义:对任意 x,y 和标量 α,β,有
fi(αx+βy)=αfi(x)+βfi(y)
- 几何性质:可行域是由超平面围成的凸多面体;目标函数等高线为平行超平面。
- 最优解位置:必定出现在可行域的顶点(极点)或边界上。
- 经典算法:单纯形法(Simplex Method)。
例子:最短路径问题可转化为 LP。
- 非线性规划(NLP):
- 至少有一个函数(目标或约束)是非线性的。
- 求解难度显著增加,性质复杂。
2.2 凸规划 vs. 非凸规划(课程核心)
-
凸优化问题:
- 目标函数 f0(x) 是凸函数
- 可行域是凸集(即所有约束函数 fi(x)≤0 中的 fi 为凸函数)
- 关键性质:局部最优解 = 全局最优解;存在高效算法(如内点法)。
- 重要结论:所有线性规划都是凸优化问题(因为线性函数既是凸函数也是凹函数)。
-
非凸优化问题:
- 可能存在多个局部最优解,难以保证找到全局最优。
- 通常属于“难解”问题(NP-hard)。
直观理解:
- 凸函数:图像呈“碗状”,任意两点连线在函数图像上方。无法找到多个不相邻的“低谷”。
- 非凸函数:可能存在多个孤立的局部最小值点。
课程观点:现代优化理论认为,凸 vs. 非凸才是区分“易”与“难”的本质标准,而非传统的线性 vs. 非线性。
2.3 其他分类维度
(1)光滑 vs. 非光滑
- 光滑优化:目标函数 f0(x) 处处可微(如二次函数)。
- 非光滑优化:目标函数不可微(如含绝对值、最大值函数)。
- 注意:此分类非本质,难度差异远小于凸/非凸之分。
(2)连续 vs. 离散
- 连续优化:可行域为连续集合(如实数区间、凸多面体)。
- 离散优化:可行域为离散点集(如整数、组合选择)。
- 例子:集成电路设计、最短路径原始 0-1 模型。
- 特点:通常为非凸问题,属于“难解”类别。
重要说明:连续问题不一定容易——若非凸,仍难解。
(3)单目标 vs. 多目标优化
- 单目标:仅一个目标函数 f0(x),标准优化形式。
- 多目标:同时优化多个目标,如 min{f1(x),f2(x)}。
- 帕累托最优(Pareto Optimality):无法在不恶化其他目标的前提下改进任一目标。
- 帕累托前沿(Pareto Front):所有帕累托最优解在目标空间中的轨迹。
- 常用策略:加权求和 minλ1f1(x)+λ2f2(x),但不一定能覆盖整个帕累托前沿。
课程范围:仅简要介绍多目标概念,不深入讲解。
三、课程目标与哲学
3.1 核心目标
- 学会将实际问题建模为“容易的”优化问题(尤其是凸优化)。
- 理解:“只要能将问题转化为凸优化,就完成了90%的工作。”
- 掌握:
- 建模:如何根据任务构造目标函数与约束;
- 分析:理解凸问题的性质(如对偶性、KKT条件);
- 求解:了解基本算法思想(不深入复杂实现)。
3.2 “容易”与“难”的相对性
- 课程假设:目标函数 f(x) 及其导数(一阶、二阶)易于计算。
- 不讨论:目标函数本身难以评估的问题(如需实验测量、模拟耗时)。
- 例子:“找出教室里头发最少的同学”看似简单,实为离散优化 + 目标函数难计算,不属于本课程范畴。
四、优化发展简史(关键人物与贡献)
| 时期 |
人物 |
贡献 |
与优化的联系 |
| 17–18世纪 |
牛顿、拉弗森(Newton-Raphson) |
求解非线性方程 f(x)=0 |
可转化为优化问题:min∥f(x)∥2 |
| 19世纪 |
高斯、赛德尔、雅可比 |
求解线性方程组 |
可转化为最小二乘优化:min∑fi(x)2 |
| 18世纪末 |
拉格朗日(Lagrange) |
拉格朗日乘子法 |
将约束优化转化为无约束问题,核心理论基础 |
| 1939年 |
康托罗维奇(Kantorovich, 苏联) |
提出线性规划模型用于资源分配 |
首次将实际问题抽象为LP |
| 1947年 |
丹齐格(Dantzig) |
发明单纯形法 |
首个高效求解LP的算法(虽非多项式时间) |
| 1940s |
贝尔曼(Bellman) |
动态规划 |
通过“逆序递推”求解多阶段决策优化 |
| 1944年 |
冯·诺依曼(von Neumann) |
博弈论 |
多智能体优化,与多目标优化有本质区别 |
| 1950年 |
纳什(Nash) |
纳什均衡 |
博弈论核心概念 |
| 1979年 |
Khachiyan |
椭球法 |
首个多项式时间LP算法(理论突破,实践慢) |
| 1984年 |
Karmarkar |
内点法(Interior-point Method) |
高效多项式时间算法,适用于大规模LP及凸优化 |
| 1990s后 |
— |
内点法推广至非线性凸优化 |
成为主流求解框架 |
注:本课程聚焦建模与理论,不深入讲解内点法等复杂算法。
五、总结与展望
- 优化的本质:在约束下寻找最优决策。
- 本课程主线:凸优化——因其具备良好性质,是连接理论与应用的桥梁。
- 学习建议:重点掌握如何识别和构造凸问题,理解“为什么凸问题容易解”。
希尔伯特名言:“只要一个问题能被清晰描述,就等于解决了80%。”
本课程延伸:“只要一个问题能被转化为凸优化,就等于解决了90%。”
第三课:仿射集、凸集与凸包(1)
核心摘要 (Key Takeaways)
- 仿射集(Affine Set) 是指集合中任意两点的整条直线仍包含于该集合;等价地,任意有限个点的仿射组合(系数和为1的线性组合)仍在集合内。
- 线性方程组的解集 {x∣Ax=b} 是仿射集的典型例子;通过平移(减去一个特解 x0),可将其转化为零空间(Null Space),即一个过原点的子空间。
- 仿射包(Affine Hull) 是包含给定集合 C 的最小仿射集,由 C 中所有点的仿射组合构成。
- 仿射集是凸集的推广:所有仿射集都是凸集,但反之不成立(如线段是凸集但不是仿射集)。
- 子空间是过原点的仿射集,具有对任意线性组合封闭的性质(而仿射集仅对仿射组合封闭)。
1. 优化问题的标准形式与术语澄清
1.1 优化问题的一般形式
一个标准的单目标有约束优化问题可表示为:
x∈Rnmins.t.f0(x)fi(x)≤bi,i=1,…,m
其中:
- x∈Rn 是 优化变量
- f0(x) 是 目标函数
- fi(x)≤bi 是 不等式约束
- “s.t.” 是 “subject to” 的缩写
注:本课程聚焦于此类问题中的易解子类——即凸优化问题。
1.2 “优化” vs “数学规划”
- 历史插曲:二战期间,科学家向军方申请经费时,因“优化”一词被认为“太土”,改称“规划”(如“线性规划”、“非线性规划”),以显得更“酷”。
- 实质等价:“数学规划” = “优化”,二者指同一类问题。
关键区分:问题难易不取决于是否线性,而取决于是否凸——凸规划 = 易解,非凸规划 = 难解。
2. 仿射集(Affine Set)的定义与性质
2.1 直观定义:基于直线
例子(几何可视化):
- 在二维平面中,两点 x1,x2 确定一条无限延伸的直线。
- 两点之间的有限部分称为线段。
2.2 仿射集的正式定义
一个集合 C⊆Rn 是仿射集,当且仅当:
对任意 x1,x2∈C 和任意 θ∈R,都有
θx1+(1−θ)x2∈C
判断示例:
- 直线:是仿射集 (任意两点连线仍在直线上)
- 线段:不是仿射集 (取端点,其连线超出线段)
- 整个 R2 空间:是仿射集
- 正方形区域(含内部):不是仿射集 (取对角顶点,连线穿出边界)
2.3 仿射组合与广义定义
为处理多个点,引入仿射组合概念:
-
给定 k 个点 x1,…,xk∈Rn 和标量 θ1,…,θk∈R,若满足:
i=1∑kθi=1
则点:
i=1∑kθixi
称为 x1,…,xk 的一个仿射组合。
-
仿射集的等价定义:
集合 C 是仿射集 ⟺ 对任意 k≥1,任意 x1,…,xk∈C,其任意仿射组合仍属于 C。
证明思路(两定义等价):
- 从两点定义可归纳推广至 k 点(如三点组合可拆为两次两点组合)。
- 反之,取 k=2 即得原始定义。
3. 仿射集与子空间的关系
3.1 一般仿射集 vs 子空间
- 问题:仿射集仅对仿射组合封闭(系数和为1),但子空间应对任意线性组合封闭。
- 观察:某些特殊仿射集(如过原点的直线)满足更强性质。
反例:不过原点的直线 L={(1,0)+t(0,1)∣t∈R}
取 x1=(1,1),x2=(1,2)∈L,则 x1+x2=(2,3)∈/L,故不封闭于任意线性组合。
3.2 从仿射集构造子空间
对任意仿射集 C,任取一点 x0∈C,定义新集合:
V=C−x0={x−x0∣x∈C}
则 V 具有以下性质:
- V 是子空间(即对任意 α,β∈R 和 v1,v2∈V,有 αv1+βv2∈V)。
- V 过原点(因 x0−x0=0∈V)。
- x0 的选择不影响 V 的结构(不同 x0 生成同一子空间)。
几何意义:将仿射集 C 平移,使其经过原点,得到对应的方向子空间。
4. 仿射集的重要例子:线性方程组的解集
4.1 解集是仿射集
考虑线性方程组:
Ax=b
其中 A∈Rm×n, b∈Rm。其解集:
C={x∈Rn∣Ax=b}
是一个仿射集。
证明:
任取 x1,x2∈C,即 Ax1=b, Ax2=b。对任意 θ∈R,有:
A(θx1+(1−θ)x2)=θAx1+(1−θ)Ax2=θb+(1−θ)b=b
故 θx1+(1−θ)x2∈C,证毕。
4.2 对应的子空间:零空间(Null Space)
任取特解 x0∈C(即 Ax0=b),则平移后的集合:
V=C−x0={x−x0∣Ax=b}
满足:
A(x−x0)=Ax−Ax0=b−b=0
即:
V={y∈Rn∣Ay=0}
这正是矩阵 A 的零空间(Null Space),记作 N(A)。
结论:任何仿射集均可表示为“特解 + 齐次解”,即 C=x0+N(A)。
4.3 逆命题成立
任意仿射集都可表示为某个线性方程组的解集。
(证明略,但强调其重要性:仿射集与线性方程组一一对应)
5. 仿射包(Affine Hull)
5.1 动机
给定任意集合 C(可能非仿射),如何构造包含 C 的最小仿射集?
5.2 定义
集合 C 的仿射包(Affine Hull),记作 aff(C),定义为:
aff(C)={i=1∑kθixik∈N,xi∈C,i=1∑kθi=1}
即:所有由 C 中点构成的仿射组合的集合。
5.3 性质
- aff(C) 是包含 C 的最小仿射集。
- 若 C 已是仿射集,则 aff(C)=C。
- 例子:
- 若 C 是两个不重合点,则 aff(C) 是穿过这两点的直线。
- 若 C 是三个不共线点,则 aff(C) 是它们张成的平面。
6. 课程内容预告与学习资源
6.1 教材结构
本课程主要讲授以下章节(来自指定教材):
- 第二章:凸集(Convex Sets)
- 第三章:凸函数(Convex Functions)
- 第四章:凸优化问题(Convex Optimization Problems)
- 第五章:对偶理论(Duality)
- 第九、十章(部分):优化算法(无约束与有约束)
建议:仅打印相关章节,无需整本。
6.2 学习资源
- 教材最新版可在 Stephen Boyd 主页 获取。
- 配套视频与 PPT 亦可在线找到。
总结
本课从直线与线段的几何直观出发,严格定义了仿射集,并通过仿射组合推广至多点情形。核心发现是:线性方程组的解集是仿射集,且可通过平移转化为零空间(子空间)。进一步引入仿射包概念,为任意集合构造最小仿射超集。这些概念是理解凸集(下一课)和凸优化的基石——仿射集是凸集的特例,而凸集允许 θ∈[0,1](线段封闭),仿射集要求 θ∈R(直线封闭)。
第四课学习笔记:仿射集 / 凸集 / 凸锥 + 集合 / 组合 / 包(2)
核心摘要 (Key Takeaways)
- 仿射包 是包含给定集合的最小仿射集;凸包 是包含给定集合的最小凸集;凸锥包 是包含给定集合的最小凸锥。
- 仿射集 ⊆ 凸集,但反之不成立;凸锥一定是凸集,但凸集不一定是凸锥。
- 三种组合方式对应三种集合构造:
- 仿射组合:系数和为1(无符号限制)→ 仿射集
- 凸组合:系数和为1 且 所有系数 ∈ [0,1] → 凸集
- 凸锥组合:所有系数 ≥ 0(无和为1要求)→ 凸锥
- 单点集 是仿射集、凸集;仅当该点为原点时,才是凸锥。
- 空集 同时是仿射集、凸集、凸锥——因其“无反例”而满足所有定义。
1. 仿射集与仿射包(Affine Set & Affine Hull)
定义回顾
- 集合 C 是 仿射集,当且仅当对任意 x1,x2∈C,其整条直线 θx1+(1−θ)x2(θ∈R)都属于 C。
- 仿射组合:对 k 个点 x1,…,xk∈C,若 ∑i=1kθi=1(θi∈R),则 ∑i=1kθixi 称为仿射组合。
- 仿射集等价于:任意有限个点的仿射组合仍属于该集合。
仿射包(Affine Hull)
- 给定任意集合 C,其仿射包 aff(C) 是包含 C 的最小仿射集。
- 构造方式:取 C 中任意有限点的所有仿射组合构成的集合。
例子
- 两点集 {x1,x2}:仿射包是连接两点的整条直线。
- 三点不共线集 {x1,x2,x3}:仿射包是它们张成的二维平面。
- 若 C 本身是仿射集:则 aff(C)=C。
💡 关键理解:仿射包是“用直线和超平面把点撑开到最大仿射结构”。
2. 凸集与凸包(Convex Set & Convex Hull)
定义
- 集合 C 是 凸集,当且仅当对任意 x1,x2∈C,其线段 θx1+(1−θ)x2(θ∈[0,1])都属于 C。
- 凸组合:对 k 个点 x1,…,xk∈C,若:
∑i=1kθi=1且θi∈[0,1]∀i
则 ∑i=1kθixi 称为凸组合。
- 凸集等价于:任意有限个点的凸组合仍属于该集合。
凸包(Convex Hull)
- 给定任意集合 C,其凸包 conv(C) 是包含 C 的最小凸集。
- 构造方式:取 C 中任意有限点的所有凸组合构成的集合。
例子
- 六边形边界(无内部):不是凸集(两点连线可能穿出边界)。
- 填充六边形(含内部):是凸集。
- 正方形去掉两个内点:仍是凸集(只要不破坏“任意两点连线在内”)。
- 正方形去掉两个边界点(如对角):不是凸集 → 其凸包是完整正方形。
- 离散点集(如教室中的学生):非凸集;其凸包是最外层点构成的凸多边形(“用绳子绕一圈”)。
✅ 重要关系:所有仿射集都是凸集,因为直线包含线段。
3. 锥与凸锥(Cone & Convex Cone)
锥(Cone)的定义
- 集合 C 是 锥,若对任意 x∈C 和任意 θ≥0,都有 θx∈C。
- 锥必须包含从原点出发的射线(不一定连续)。
例子
- 三条从原点出发的射线:是锥(即使不连续)。
- Y 形结构(交点不在原点):不是锥(不满足 θx∈C)。
- 倾斜的冰淇淋形(顶点在原点):是锥。
凸锥(Convex Cone)的定义
- 集合 C 是 凸锥,若它既是锥又是凸集。
- 等价定义:对任意 x1,x2∈C 和 θ1,θ2≥0,有:
θ1x1+θ2x2∈C
- 推广到 k 点:凸锥组合 = ∑i=1kθixi,其中 θi≥0(不要求和为1)。
例子
- 倾斜冰淇淋形(顶点在原点):是凸锥(任意两点的非负线性组合仍在其中)。
- 过原点的直线:是凸锥(因 θx 覆盖正负方向,且满足凸性)。
⚠️ 注意:凸锥必须包含原点(取 θ=0 得 0∈C)。
4. 三种组合与三种包的对比
| 类型 |
组合形式 |
系数约束 |
对应集合 |
对应“包” |
| 仿射 |
∑θixi |
∑θi=1, θi∈R |
仿射集 |
仿射包 aff(C) |
| 凸 |
∑θixi |
∑θi=1, θi∈[0,1] |
凸集 |
凸包 conv(C) |
| 凸锥 |
∑θixi |
θi≥0(无和约束) |
凸锥 |
凸锥包 cone(C) |
🔁 包的构造逻辑:对集合 C,取所有对应组合的点,形成包含 C 的最小结构。
5. 特殊集合的性质分析
单点集 {x}
- 仿射集? ✅ 是。因任意仿射组合 θx+(1−θ)x=x∈{x}。
- 凸集? ✅ 是。线段退化为点。
- 凸锥?
- 若 x=0(原点)→ ✅ 是凸锥(θ⋅0=0)。
- 若 x=0 → ❌ 不是锥(因 0∈/{x},除非 x=0)。
空集 \emptyset
- 仿射集? ✅ 是(无反例)。
- 凸集? ✅ 是。
- 凸锥? ✅ 是。
🌌 空集是“平凡满足”所有集合定义的特例。
6. 凸锥包(Convex Cone Hull)
- 定义:包含集合 C 的最小凸锥,记为 cone(C)。
- 构造:取 C 中任意有限点的所有凸锥组合(系数 ≥0)。
例子
- 离散点集(不在原点):凸锥包是从原点出发、穿过这些点的“最小冰淇淋锥”。
- 两点连线过原点:凸锥包是两条射线张成的锥(不是整条直线!除非包含负方向)。
- 但注意:过原点的直线本身是凸锥(因包含 θx 对所有 θ∈R,而 R⊃[0,∞))。
❗ 易错点:两点连线过原点 → 凸锥包是整个直线(因直线满足凸锥定义)。
7. 集合包含关系总结
flowchart LR
A[仿射集] -->|是特例| B[凸集]
C[凸锥] -->|是特例| B
D[空集] --> A
D --> B
D --> C
E[单点集 x=0] --> C
E --> B
E --> A
flowchart LR
A[仿射集] -->|是特例| B[凸集]
C[凸锥] -->|是特例| B
D[空集] --> A
D --> B
D --> C
E[单点集 x=0] --> C
E --> B
E --> A
flowchart LR
A[仿射集] -->|是特例| B[凸集]
C[凸锥] -->|是特例| B
D[空集] --> A
D --> B
D --> C
E[单点集 x=0] --> C
E --> B
E --> A
flowchart LR
A[仿射集] -->|是特例| B[凸集]
C[凸锥] -->|是特例| B
D[空集] --> A
D --> B
D --> C
E[单点集 x=0] --> C
E --> B
E --> A
解释:该流程图展示了集合类别的包含与特例关系。仿射集和凸锥都是凸集的子类;空集和原点单点集具有多重身份。
关键术语强调
- 仿射包(Affine Hull)
- 凸包(Convex Hull)
- 凸锥包(Convex Cone Hull)
- 仿射组合 / 凸组合 / 凸锥组合
- 锥(Cone)必须过原点
- 空集是万能特例
本课核心在于通过组合方式理解集合构造,并掌握“包”的最小包含思想。后续课程将深入具体凸集(如多面体、范数球等)及其性质。
第5课:几种重要的凸集(1)——高质量学习笔记
核心摘要 (Key Takeaways)
- 组合思想是理解九类集合概念的核心:仿射组合、凸组合、凸锥组合分别对应仿射集、凸集、凸锥,以及它们的包(仿射包、凸包、凸锥包)。
- 凸锥的几何本质是“从原点出发的所有非负线性组合构成的集合”,其典型形状如“冰激凌锥”,必须包含原点。
- 超平面与半空间是基础且重要的凸集:超平面是仿射集(当过原点时也是凸锥),半空间总是凸集,但仅当边界过原点时才是凸锥。
- 球与椭球在欧氏空间中均为凸集,其凸性可通过三角不等式严格证明;椭球由对称正定矩阵 P 定义,其形状由 P 的特征值(或奇异值)决定半轴长度。
- 空集和单点集具有特殊性质:空集同时是仿射集、凸集和凸锥;单点集是仿射集和凸集,但仅当该点为原点时才是凸锥。
1. 九个核心概念的统一框架:组合思想
视频强调,理解以下九个概念的关键在于掌握三种组合(combinations):
1.1 三种组合的定义
设集合 C⊆Rn,从中任取 k 个点 x1,x2,…,xk,并取实数系数 θ1,θ2,…,θk,构造点:
θ1x1+θ2x2+⋯+θkxk根据系数 θi 的约束,该组合有三种类型:
-
仿射组合(Affine Combination):
∑i=1kθi=1
-
凸组合(Convex Combination):
∑i=1kθi=1 且 ∀i,θi≥0
-
凸锥组合(Conic Combination / Nonnegative Combination):
∀i,θi≥0(不要求和为1)
关键联系:凸组合 ⊂ 仿射组合 ∩ 凸锥组合;三者通过系数约束相互关联。
1.2 由组合定义的三类集合
-
仿射集(Affine Set):
集合中任意有限个点的仿射组合仍在集合内。
→ 几何意义:包含任意两点的整条直线。
-
凸集(Convex Set):
集合中任意有限个点的凸组合仍在集合内。
→ 几何意义:包含任意两点的线段。
-
凸锥(Convex Cone):
集合中任意有限个点的凸锥组合仍在集合内。
→ 几何意义:从原点出发,沿集合中任意向量方向无限延伸的“锥体”。
1.3 三类“包”(Hull)的定义
即使原集合不满足上述性质,也可通过组合生成最小的包含它的相应集合:
- 仿射包(Affine Hull):所有仿射组合构成的集合。
- 凸包(Convex Hull):所有凸组合构成的集合。
- 凸锥包(Conic Hull):所有凸锥组合构成的集合。
例子:一个不规则点集的凸锥包是包含该点集的“最小冰激凌锥”(即从原点出发,覆盖所有点方向的最小凸锥)。
2. 凸锥的几何解释(修正版)
上节课对凸锥的解释不够准确。正确理解如下:
2.1 二维凸锥的构造(“冰激凌锥”)
- 取两点 x1,x2(不在原点)。
- 凸锥组合为:θ1x1+θ2x2,其中 θ1,θ2≥0。
- θ1x1 位于从原点出发、经过 x1 的射线上;θ2x2 同理。
- 二者之和构成以 θ1x1 和 θ2x2 为邻边的平行四边形的对角顶点。
- 当 θ1,θ2 变化时,该顶点可覆盖整个由 x1,x2 张成的锥形区域。
结论:凸锥 = 所有非负线性组合的集合,必须包含原点。
2.2 凸锥包的直观理解
- 给定任意集合 S,其凸锥包是包含 S 的最小凸锥(即“最小冰激凌”)。
- 通过从 S 中任取点并做凸锥组合,可“填满”该锥。
3. 特殊集合的性质分析
| 集合类型 |
是否仿射集? |
是否凸集? |
是否凸锥? |
说明 |
| 空集 ∅ |
是 |
是 |
是 |
空集满足所有定义(无反例) |
| 单点集 {x0} |
是 |
是 |
仅当 x0=0 时是 |
单点无方向,但凸锥必须含原点 |
| Rn(全空间) |
是 |
是 |
是 |
最大仿射集、凸集、凸锥 |
| 子空间(如过原点的直线/平面) |
是 |
是 |
是 |
子空间对加法和数乘封闭,必含原点 |
| 任意直线 |
是 |
是 |
仅当过原点时是 |
直线是仿射集,但凸锥需含原点 |
| 线段 |
否(除非退化为点) |
是 |
仅当为原点单点时是 |
线段是凸集的基本例子 |
| 射线 {x0+θv∣θ≥0} |
否(除非 v=0) |
是 |
仅当 x0=0 时是 |
起点为 x0,方向为 v |
例子:射线 x0+θv(θ≥0)
- 若 v=0,退化为单点 {x0} → 是仿射集。
- 若 x0=0,则为 {θv∣θ≥0} → 是凸锥。
4. 超平面与半空间
4.1 超平面(Hyperplane)
定义:给定非零向量 a∈Rn 和标量 b∈R,
H={x∈Rn∣a⊤x=b}
- 几何意义:
- n=2:直线
- n=3:平面
- 一般:n−1 维仿射子空间
- 性质:
- 总是仿射集(因满足仿射组合封闭)
- 总是凸集
- 是凸锥 ⇔ b=0(即过原点,此时为子空间)
4.2 半空间(Halfspace)
由超平面划分空间得到:
-
闭半空间:
{x∣a⊤x≤b}或{x∣a⊤x≥b}
-
性质:
- 总是凸集
- 不是仿射集(两点连线可能跨越边界)
- 是凸锥 ⇔ b=0(此时关于原点对称)
例子:在 R2 中,a=[1,0]⊤,b=1,则 x1≥1 是右半平面,为凸集但非仿射集。
5. 球与椭球
5.1 球(Ball)
定义(欧氏空间):给定中心 xc∈Rn,半径 r≥0,
B(xc,r)={x∈Rn∣∥x−xc∥2≤r}
- 性质:
- 总是凸集
- 是仿射集 ⇔ r=0(退化为单点)
- 是凸锥 ⇔ r=0 且 xc=0
凸性证明(关键步骤)
任取 x1,x2∈B(xc,r),θ∈[0,1],需证:
∥θx1+(1−θ)x2−xc∥2≤r证明:
=≤≤∥θx1+(1−θ)x2−xc∥2∥θ(x1−xc)+(1−θ)(x2−xc)∥2θ∥x1−xc∥2+(1−θ)∥x2−xc∥2(三角不等式)θr+(1−θ)r=r
关键工具:三角不等式(∥a+b∥≤∥a∥+∥b∥)是证明凸性的常用技巧。
5.2 椭球(Ellipsoid)
定义:给定中心 xc∈Rn,对称正定矩阵 P∈S++n,
E(xc,P)={x∈Rn(x−xc)⊤P−1(x−xc)≤1}其中:
- S++n:n×n 对称正定矩阵集合
- 正定 ⇔ 所有特征值 >0
- 半正定(S+n)⇔ 特征值 ≥0
与球的关系
- 若 P=r2I(I 为单位阵),则:
(x−xc)⊤(r2I)−1(x−xc)=r2∥x−xc∥22≤1⇒∥x−xc∥2≤r
→ 椭球退化为球。
几何意义
- P 的特征值决定椭球各方向的半轴长度。
- 特征向量方向即主轴方向。
例子:设 P=[4001],则 P−1=[1/4001],椭球为:
>4x12+x22≤1>
→ 半长轴为 2(沿 x1),半短轴为 1(沿 x2)。
- 性质:椭球总是凸集(因是仿射变换下的球,而凸性在仿射变换下保持)。
6. 补充:特征值 vs 奇异值
- 特征值(Eigenvalues):仅对方阵定义,满足 Av=λv。
- 奇异值(Singular Values):对任意矩阵 A∈Rm×n,定义为 eigenvalues of A⊤A。
- A⊤A 对称半正定 ⇒ 特征值 ≥0 ⇒ 奇异值实数且 ≥0。
- 特殊情况:若 A 对称正定,则奇异值 = 特征值的绝对值 = 特征值(因特征值 > 0)。
此知识用于理解 P 的几何意义,但非本课核心。
总结提醒
- 核心思想:所有凸集概念源于组合方式。
- 证明凸性:优先尝试三角不等式。
- 凸锥必须含原点:这是判断的关键。
- 超平面/半空间/球/椭球是后续优化问题中最常用的凸集模型。
教师忠告:“除非你100%聪明,否则必须付出120%的努力。” —— 凸锥虽小,细节决定成败。
第6课:几种重要的凸集(2)——学习笔记
核心摘要 (Key Takeaways)
- 多面体是由有限个半空间(线性不等式)和超平面(线性等式)的交集构成的集合,一定是凸集,但不一定有界。
- 单纯形是由 k+1 个满足特定线性无关条件的点所构成的凸包,在 Rn 中最多包含 n+1 个顶点;例如:线段(1维)、三角形(2维)、四面体(3维)。
- 任意单纯形都是多面体,可通过构造线性不等式与等式系统严格证明。
- 对称半正定矩阵集合 S+n 是一个凸锥(从而也是凸集),而对称正定矩阵集合 S++n 是凸集但不是凸锥(因其不包含零矩阵)。
- 在高维抽象空间(如矩阵空间)中,需依赖逻辑推理而非几何直觉来判断凸性。
1. 多面体(Polyhedron)
定义
一个多面体是一个集合:
P={x∈Rnai⊤x≤bi,i=1,…,m;cj⊤x=dj,j=1,…,p}
- 由 m 个线性不等式(定义半空间)和 p 个线性等式(定义超平面)共同约束。
- 即:多面体 = 若干半空间 ∩ 若干超平面。
性质
- 一定是凸集:任取 x1,x2∈P,对任意 θ∈[0,1],有 θx1+(1−θ)x2∈P。
原因:线性不等式与等式在凸组合下保持封闭。
- 不一定有界:
- 例子:仅含一个不等式约束 x1≥0 的集合 {x∈Rn∣x1≥0} 是一个无界多面体。
- 有界多面体:若在每个坐标轴方向上取值均有界(即体积有限),则称为有界多面体(也称多胞形,polytope)。
2. 单纯形(Simplex)
定义
给定 k+1 个点 v0,v1,…,vk∈Rn,若向量组 {v1−v0,v2−v0,…,vk−v0} 线性无关,则这些点的凸包构成一个 k-维单纯形:
conv{v0,v1,…,vk}={i=0∑kλiviλi≥0, i=0∑kλi=1}几何直观与例子
- 1维单纯形(k=1):两个点 v0,v1 → 线段。
- 条件:v1−v0=0(自动线性无关)。
- 2维单纯形(k=2):三个不共线点 → 实心三角形(含内部)。
- 条件:v1−v0 与 v2−v0 线性无关(即不共线)。
- 3维单纯形(k=3):四个不共面点 → 四面体。
- 关键限制:在 Rn 中,单纯形最多有 n+1 个顶点(因最多有 n 个线性无关向量)。
- 例子:在 R2 中,不存在四边形是单纯形,因为无法找到4个点使得3个差向量线性无关。
💡 注意:单纯形法(Simplex Method)中的“单纯形”与此几何概念相关,但不等同。
3. 单纯形一定是多面体(证明概要)
目标
证明:任意单纯形可表示为多面体形式(即满足有限个线性等式与不等式)。
证明思路(构造法)
- 设单纯形由 v0,…,vk 生成,且 {vi−v0}i=1k 线性无关。
- 任一点 x 在单纯形中可写为:
x=∑i=0kλivi,λi≥0, ∑λi=1
- 令 y=[λ1,…,λk]⊤,则 x=v0+By,其中 B=[v1−v0,…,vk−v0]∈Rn×k。
- 由于 B 列满秩(秩为 k),存在可逆矩阵 A 使得:
AB=[Ik0]
- 左乘 A 得:
A(x−v0)=[y0]⇒{A1(x−v0)=yA2(x−v0)=0
- 利用 y≥0 且 1⊤y≤1(因 λ0=1−∑i=1kλi≥0),得到:
A1(x−v0)1⊤A1(x−v0)A2(x−v0)≥0≤1=0
这正是线性不等式 + 线性等式的形式。
✅ 结论:单纯形可表示为多面体,故单纯形 ⊆ 多面体。
4. 矩阵空间中的凸集
常用符号
- Sn:所有 n×n 对称矩阵集合,即 X=X⊤。
- S+n:所有 n×n 对称半正定矩阵集合,即 X⪰0(所有特征值 ≥0)。
- S++n:所有 n×n 对称正定矩阵集合,即 X≻0(所有特征值 >0)。
⚠️ 重要区别:
- X≥0:通常指元素非负(逐元素)。
- X⪰0:指半正定(特征值非负)。
视频中为书写简便,用 X≥0 表示半正定,但强调其含义为 ⪰0。
凸性分析
(1) \mathbb{S}^n_+:是凸锥(从而是凸集)
- 证明:任取 A,B∈S+n,θ1,θ2≥0,需证 θ1A+θ2B∈S+n。
- 对称性:显然成立。
- 半正定性:对任意 x∈Rn,
x⊤(θ1A+θ2B)x=θ1x⊤Ax+θ2x⊤Bx≥0+0=0
因 x⊤Ax≥0,x⊤Bx≥0(半正定定义)。
(2) \mathbb{S}^n_{++}:是凸集,但不是凸锥
- 是凸集:对 θ∈[0,1],若 A,B≻0,则
x⊤(θA+(1−θ)B)x=θx⊤Ax+(1−θ)x⊤Bx>0(∀x=0)
故 θA+(1−θ)B≻0。
- 不是凸锥:因凸锥要求对任意 θ1,θ2≥0 封闭,但若取 θ1=0,则 θ1A+θ2B=θ2B,当 θ2>0 时仍正定;问题在于零矩阵不在其中。
- 关键反例:凸锥必须包含原点(取 θ1=θ2=0),但 0∈/S++n(零矩阵非正定)。
(3) Sn:是凸锥(也是凸集)
低维例子辅助理解(n=1)
- S1=R(所有实数)。
- S+1={x∈R∣x≥0}(非负实数)→ 凸锥。
- S++1={x∈R∣x>0}(正实数)→ 凸集但非凸锥(不含0)。
可视化图表(Mermaid)
由于视频内容主要为定义与证明,未明确描述流程、时序或角色交互,不生成 Mermaid 图表。
总结与关键洞见
| 集合 |
是否凸集 |
是否凸锥 |
关键原因 |
| 多面体 |
✅ 是 |
❌ 不一定 |
由线性约束定义,天然凸;但未必含原点或对非负缩放封闭 |
| 单纯形 |
✅ 是 |
❌ 否 |
是多面体特例;有界,不含射线 |
| Sn |
✅ 是 |
✅ 是 |
对称性在线性组合下封闭,含零矩阵 |
| S+n |
✅ 是 |
✅ 是 |
半正定性在非负组合下封闭,含零矩阵 |
| S++n |
✅ 是 |
❌ 否 |
正定性在凸组合下封闭,但不含零矩阵,故非凸锥 |
🔑 核心思想:在抽象空间(如矩阵空间)中,凸性需通过定义严格验证,不能依赖几何直觉。半正定性通过二次型 x⊤Xx≥0 刻画,是分析矩阵凸集的关键工具。
第7课学习笔记:凸集的交集与保凸运算(1)
核心摘要 (Key Takeaways)
- 凸集的交集仍是凸集:任意多个凸集的交集依然是凸集,这是验证复杂约束集凸性的基础工具。
- 仿射映射保凸性:若集合 S 是凸集,则其在任意仿射映射 f(x)=Ax+b 下的像 f(S) 仍是凸集;其逆映射 f−1(S) 也保持凸性。
- 集合的和(Minkowski 和)保凸:两个凸集 S1 与 S2 的和 S1+S2={x+y∣x∈S1,y∈S2} 仍是凸集。
- 线性矩阵不等式(LMI)的解集是凸集:形如 A(x)=∑i=1nxiAi⪯B 的 LMI 的解集是凸集,可通过仿射映射与半正定锥的逆像证明。
- 椭球是单位球的仿射像:任何椭球均可表示为单位球经仿射变换(线性变换 + 平移)所得,因此是凸集。
1. 凸集的交集保凸性
核心结论
- 若 S1 和 S2 均为凸集,则其交集 S1∩S2 也是凸集。
- 此结论可推广至任意多个凸集的交集:
若 {Sα}α∈A 均为凸集,则 ⋂α∈ASα 也是凸集。
验证方法(基于定义)
任取 x,y∈S1∩S2,对任意 θ∈[0,1],有:
- θx+(1−θ)y∈S1(因 S1 凸)
- θx+(1−θ)y∈S2(因 S2 凸)
故该点也在交集中,证毕。
反例:并集不一定保凸
- 例子:两个分离的圆盘(均为凸集),其并集不是凸集——连接两圆盘中点的线段部分点不在并集中。
2. 仿射映射保凸性
仿射函数定义
函数 f:Rn→Rm 是仿射函数,当且仅当可表示为:
f(x)=Ax+b
其中 A∈Rm×n,b∈Rm。
保凸性定理
- 若 S⊆Rn 是凸集,则其像集 f(S)={Ax+b∣x∈S} 是 Rm 中的凸集。
- 同样,若 T⊆Rm 是凸集,则其原像集 f−1(T)={x∈Rn∣Ax+b∈T} 也是凸集。
直观例子
- 缩放:αS={αx∣x∈S}(α∈R)是仿射映射(A=αI,b=0),保凸。
- 平移:S+a={x+a∣x∈S}(a∈Rn)是仿射映射(A=I,b=a),保凸。
几何解释
仿射变换包括平移、旋转、缩放、剪切等线性操作,不改变集合的“无凹陷”性质。
3. 凸集的和(Minkowski 和)保凸
定义
两个集合 S1,S2⊆Rn 的和定义为:
S1+S2={x+y∣x∈S1, y∈S2}
⚠️ 注意:这不是并集,而是所有元素两两相加构成的新集合。
保凸性
若 S1 和 S2 均为凸集,则 S1+S2 也是凸集。
证明思路(通过仿射映射)
- 构造乘积集:S1×S2={(x,y)∣x∈S1,y∈S2}⊆R2n。
- 若 S1,S2 凸,则 S1×S2 也凸(可由凸组合定义直接验证)。
- 定义仿射映射:f(x,y)=x+y(即 A=[I I],b=0)。
- 则 S1+S2=f(S1×S2),由仿射映射保凸性,得证。
可视化例子
- 例子:两个二维圆盘的 Minkowski 和是一个更大的圆盘(或近似椭圆),仍是凸集。
补充说明
- 非凸 + 凸 可能为凸:例如,一个非凸集若“被凸集主导”,其和可能为凸。但不能保证,需具体分析。
4. 线性矩阵不等式(LMI)的解集是凸集
LMI 定义
给定对称矩阵 A1,A2,…,An,B∈Sm(对称矩阵空间),定义函数:
A(x)=i=1∑nxiAi
则线性矩阵不等式为:
A(x)⪯B
其中 ⪯ 表示半正定序,即:
B−A(x)⪰0(即 B−A(x) 是半正定矩阵)解集凸性
集合
S={x∈Rn∣A(x)⪯B}
是凸集。
证明(利用仿射映射与半正定锥)
- 定义仿射映射:
f(x)=B−A(x)=B−∑i=1nxiAi
这是从 Rn 到 Sm 的仿射映射。
- 已知:半正定锥 S+m={X∈Sm∣X⪰0} 是凸集(上节课结论)。
- 则 LMI 解集为:
S=f−1(S+m)
即半正定锥在仿射映射 f 下的原像。
- 由仿射映射的逆像保凸性,S 是凸集。
理解技巧
- 当矩阵概念复杂时,退化到标量情形思考:
- 若 Ai,B 为标量(即 1×1 矩阵),则 LMI 退化为线性不等式 ∑xiai≤b,其解集为半空间(凸集)。
- 此直觉可推广至矩阵情形。
5. 椭球是单位球的仿射像
椭球定义
椭球可表示为:
E={x∈Rn∣(x−xc)⊤P−1(x−xc)≤1}
其中 P∈S++n(对称正定矩阵),xc 为中心。
仿射构造
- 单位球:B={u∈Rn∣∥u∥2≤1}
- 定义仿射映射:
f(u)=P1/2u+xc
其中 P1/2 是 P 的对称平方根(满足 P1/2P1/2=P,且 P1/2≻0)。
- 则:
E=f(B)
推导验证
令 x=P1/2u+xc,则 u=P−1/2(x−xc)。代入 ∥u∥2≤1 得:
∥P−1/2(x−xc)∥22=(x−xc)⊤P−1(x−xc)≤1
即 x∈E。
结论
- 椭球是单位球经线性变换(P1/2)+ 平移(xc) 得到,属于仿射像。
- 因单位球凸,仿射映射保凸,故椭球是凸集。
附:关键概念辨析
| 概念 |
定义 |
是否保凸 |
| 交集 |
S1∩S2 |
✅ 是 |
| 并集 |
S1∪S2 |
❌ 否(反例:两个分离圆盘) |
| Minkowski 和 |
S1+S2={x+y} |
✅ 是(若两者均凸) |
| 仿射像 |
f(S)={Ax+b} |
✅ 是 |
| 仿射原像 |
f−1(T)={x∣Ax+b∈T} |
✅ 是(若 T 凸) |
💡 提示:面对复杂集合,优先尝试将其表示为已知凸集经保凸运算(交、仿射像/原像、和)所得,即可快速判断凸性。
第8课:凸集的交集与保凸运算(2)——透视函数与线性分数函数
核心摘要 (Key Takeaways)
- 透视函数是从 Rn+1 到 Rn 的映射,定义为 P(z,t)=tz(其中 t>0),它能将凸集映射为凸集。
- 反透视映射也能保持凸性:若 C⊆Rn 是凸集,则其反透视像 {(x,t)∣t>0,tx∈C} 也是凸集。
- 线性分数函数是仿射映射后接透视映射的复合函数,形式为:
f(x)=c⊤x+dAx+b,其中 c⊤x+d>0
它虽是非线性的,但保持凸性。
- 条件概率可视为联合概率向量的一个线性分数映射,因此在概率单纯形上具有保凸性质。
- 所有保凸运算(包括交集、仿射映射、透视映射、线性分数映射)都可用于构造和验证复杂凸集。
1. 透视函数(Perspective Function)
1.1 定义
透视函数 P:Rn+1→Rn 定义为:
P(z,t)=tz其中:
- 输入向量为 (z,t)∈Rn+1
- 定义域为:dom P=Rn×R++={(z,t)∣t>0}
关键点:最后一个分量 t 必须为正数,否则除法无定义或破坏凸性。
1.2 几何解释(针孔成像模型)
- 考虑二维情形:点 (x1,x2),其中 x2>0
- 连接该点与原点 (0,0),作直线
- 该直线与直线 x2=−1 相交于点 (−x2x1,−1)
- 忽略纵坐标(或取负号),横坐标即为 x2x1
例子:点 (2,4) 经透视函数映射为 42=0.5。这相当于从原点“看”该点在 x2=1 平面上的投影。
1.3 保凸性
结论:若 C⊆Rn+1 是凸集,则其透视像 P(C)={tz∣(z,t)∈C,t>0} 也是凸集。
证明思路(以线段为例)
- 设线段端点为 x=(xz,xt)、y=(yz,yt),其中 xt>0,yt>0
- 线段上任意点为:θx+(1−θ)y,θ∈[0,1]
- 其透视像为:
θxt+(1−θ)ytθxz+(1−θ)yz
- 令:
μ=θxt+(1−θ)ytθxt
则 μ∈[0,1],且上式可重写为:
μ⋅xtxz+(1−μ)⋅ytyz=μP(x)+(1−μ)P(y)
- 这是 P(x) 与 P(y) 的凸组合,故透视像仍是线段(凸集)
关键洞察:θ↦μ 是严格单调连续的一一映射(因 xt,yt>0),因此原线段被连续映射为新线段。
2. 反透视映射(Inverse Perspective Mapping)
2.1 定义
给定集合 C⊆Rn,其反透视像定义为:
P−1(C)={(x,t)∈Rn+1∣t>0,tx∈C}
注意:要求 t>0(有时可放宽为 t≥0,但需谨慎处理边界)
2.2 保凸性
结论:若 C 是凸集,则 P−1(C) 也是凸集。
证明
- 任取两点 (x,t),(y,s)∈P−1(C),即 tx∈C, sy∈C,且 t>0,s>0
- 对任意 θ∈[0,1],考虑凸组合:
(θx+(1−θ)y, θt+(1−θ)s)
- 需证:
θt+(1−θ)sθx+(1−θ)y∈C
- 令:
μ=θt+(1−θ)sθt∈[0,1]
- 则上式 = μ⋅tx+(1−μ)⋅sy,这是 C 中两点的凸组合
- 因 C 凸,故该点属于 C,证毕。
3. 线性分数函数(Linear-Fractional Function)
3.1 构造方式
线性分数函数是仿射映射 + 透视映射的复合:
-
仿射映射 g:Rn→Rm+1:
g(x)=[Ax+bc⊤x+d]
其中:
- A∈Rm×n
- b∈Rm
- c∈Rn
- d∈R
-
透视映射 P:Rm+1→Rm:
P(z,t)=tz,t>0
-
复合函数 f=P∘g:
f(x)=c⊤x+dAx+b
3.2 定义域
dom f={x∈Rn∣c⊤x+d>0}
注意:分母必须为正,以确保透视映射有定义且保凸。
3.3 保凸性
核心结论:线性分数函数保持凸性,即若 C⊆dom f 是凸集,则 f(C) 也是凸集。
理由
- 仿射映射保凸 → g(C) 凸
- 透视映射保凸 → P(g(C))=f(C) 凸
- 因此,两次保凸操作的复合仍保凸
重要提示:尽管 f(x) 是非线性函数(因含分式),但它在凸优化中极为有用,因其能将复杂非线性关系转化为保凸结构。
4. 应用案例:条件概率作为线性分数映射
4.1 背景设定
- 随机变量 U∈{1,…,n},V∈{1,…,m}
- 联合概率分布:pij=P(U=i,V=j)
- 联合概率向量:p=(p11,p12,…,pnm)∈Rnm
4.2 条件概率定义
固定 j,条件概率为:
fij=P(U=i∣V=j)=∑k=1npkjpij4.3 视为线性分数映射
- 对固定 j,考虑向量 p(j)=(p1j,p2j,…,pnj)∈Rn
- 定义映射:
fi(p(j))=1⊤p(j)ei⊤p(j)
其中:
- ei 是第 i 个标准基向量(分子:取第 i 个分量)
- 1 是全1向量(分母:求和)
例子:若 n=3,j 固定,p(j)=(0.2,0.3,0.1),则:
- P(U=2∣V=j)=0.2+0.3+0.10.3=0.60.3=0.5
- 这正是线性分数函数:分子 =[0,1,0]⋅p(j),分母 =[1,1,1]⋅p(j)
4.4 凸性意义
- 联合概率集合(概率单纯形)是凸集
- 条件概率是联合概率的线性分数映射
- 因此,条件概率集合也是凸集
遗留问题(视频结尾):联合概率集合是否为凸集?
提示:概率单纯形 {p≥0∣∑pij=1} 是标准凸集。
5. 总结:保凸运算家族
| 运算类型 |
形式 |
是否保凸 |
说明 |
| 交集 |
⋂iCi |
✅ |
任意多个凸集的交仍是凸集 |
| 仿射映射 |
Ax+b |
✅ |
线性变换+平移 |
| 透视函数 |
P(z,t)=z/t, t>0 |
✅ |
降维投影 |
| 反透视映射 |
{(x,t)∣x/t∈C,t>0} |
✅ |
升维“锥化” |
| 线性分数函数 |
c⊤x+dAx+b |
✅ |
仿射+透视复合 |
实践建议:在建模优化问题时,若目标或约束可表示为上述保凸运算的组合,则问题很可能属于凸优化范畴,可高效求解。