凸优化课程学习笔记

目录

坟墓里寂静无比,埋葬你的是你所有没说出口的话

本文由AI整理自凌青老师课程。因看视频太耗时间,故而整理,仅供个人参考。

第一课:引言(一)

核心摘要 (Key Takeaways)

  • 凸优化是“简单的优化问题”:课程聚焦于凸优化,因其结构良好、可高效求解,而一般优化问题(非凸)通常难以处理。
  • 优化问题的三要素:可行解集合、最优性准则(目标函数)、求解方法;缺一不可。
  • 标准优化问题的数学形式:最小化目标函数 f0(x)f_0(x),满足不等式约束 fi(x)bif_i(x) \leq b_ii=1,,Mi = 1,\dots,M)。
  • 优化无处不在:从日常生活决策、物流调度、通信功率控制到图像去噪、电路设计,均涉及优化建模。
  • 课程考核结构:20% 平时成绩(课堂小测验)、80% 期末考试,另设最高10分的可选课程论文(极难获得高分)。

1. 课程介绍与安排

1.1 课程基本信息

  • 课程名称:凸优化(原名“最优化理论”,因非凸优化太难,故聚焦于凸优化——即简单的优化问题)。
  • 授课时间:第2周至第16周,共60学时;第17周期末考试。
  • 助教:王浩、侍卫。
  • 联系方式:可通过邮件联系教师或助教。

1.2 考核方式

  • 平时成绩(20%):通过2–3次课堂小测验完成(非课后作业),提前一节课通知。
  • 期末考试(80%)
  • 课程论文(额外0–10分,非强制)
    • 面向研究生,需将自身研究与凸优化结合。
    • 要求使用凸优化方法取得实质性成果。
    • 极难拿高分:去年最高仅3分。

1.3 参考教材

  1. 主教材Convex Optimization by Stephen Boyd(免费电子版可在作者主页下载)。
  2. 补充教材(算法方向):两本由 Bertsekas(巴萨卡斯)所著的优化算法书籍(电子版较难获取)。

建议:无需购买 Boyd 的书,重点掌握基本内容即可。


2. 优化问题的基本定义

2.1 什么是优化?

优化(或称数学规划)是从一个可行解集合中寻找最优元素的过程。

三要素:

  1. 可行解集合(Feasible Set):所有满足约束条件的解构成的集合。
  2. 最优性准则:通过目标函数定义“最优”。
  3. 求解方法:算法或策略,用于找到最优解。

例子(贾宝玉找老婆)

  • 可行集:大观园中所有适龄女性。
  • 最优准则:贾宝玉的喜好(主观目标函数)。
  • 求解方法:逐一试探。
  • 问题:最优性准则模糊 → 最终出家。说明三要素缺一不可。

2.2 数学形式

任一优化问题可表示为:

minxf0(x)s.t.fi(x)bi,i=1,,M \begin{aligned} \min_{x} \quad & f_0(x) \\ \text{s.t.} \quad & f_i(x) \leq b_i, \quad i = 1, \dots, M \end{aligned}
  • xRnx \in \mathbb{R}^n优化变量(n维向量)。
  • f0(x)f_0(x)目标函数(从 RnR\mathbb{R}^n \to \mathbb{R})。
  • fi(x)bif_i(x) \leq b_i不等式约束(共 MM 个)。
  • 可行集{xfi(x)bi,i}\{ x \mid f_i(x) \leq b_i, \, \forall i \}
  • 最优解:记为 xx^*,满足对任意可行 zz,有 f0(x)f0(z)f_0(x^*) \leq f_0(z)

:等式约束 h(x)=ch(x) = c 可等价转化为两个不等式约束:h(x)ch(x) \leq ch(x)c-h(x) \leq -c。为简化,课程仅讨论不等式形式。


3. 简单示例分析

3.1 一维无约束优化(带界约束)

  • 目标函数f0(x)f_0(x)(如二次函数)。
  • 约束AxA-A \leq x \leq A,等价于:
    • xAx \leq A
    • xA-x \leq A

可行集:区间 [A,A][-A, A]
最优解:通常为单点(如抛物线顶点),但不一定唯一

3.2 多最优解情形

  • 若目标函数在可行域内有多个极小值点(如双谷函数),则最优解集为多个点的集合。
  • 关键结论
    • 最优解不一定唯一
    • 唯一最优解的问题通常更简单;多解或连续解集的问题更复杂。

4. 优化的实际应用案例

4.1 日常生活中的优化

  • 个人预算分配:在有限工资下,最大化生活满意度(食物、衣物等支出分配)。
  • 国家资源分配:在国防、经济建设、对外援助间分配有限财政资源。

共性:在资源约束下,最大化效用最小化成本

4.2 数据拟合(最小二乘法)

  • 背景:物理实验获得离散数据点 (xi,yi)(x_i, y_i),需拟合曲线(如二次函数 y=ax2+bx+cy = ax^2 + bx + c)。
  • 目标:估计参数 a,b,ca, b, c,使测量误差最小。
  • 最小二乘准则mina,b,ci=1Nei2=i=1N(yi(axi2+bxi+c))2 \min_{a,b,c} \sum_{i=1}^N e_i^2 = \sum_{i=1}^N \left( y_i - (a x_i^2 + b x_i + c) \right)^2
  • 约束扩展:若已知 c>0c > 0,则增加约束 c0c \geq 0,形成有约束优化问题

4.3 线性二次调节器(LQR)

  • 系统模型(离散线性系统): xk=Axk1+Buk x_{k} = A x_{k-1} + B u_{k}
    • xkx_k:k时刻系统状态。
    • uku_k:控制输入。
    • A,BA, B:状态转移与输入矩阵。
  • 目标函数min{uk}k=1N(xkQxk+ukRuk) \min_{\{u_k\}} \sum_{k=1}^N \left( x_k^\top Q x_k + u_k^\top R u_k \right)
    • 第一项:状态偏差惩罚(希望状态接近目标)。
    • 第二项:控制能量惩罚(希望输入不过大)。
  • 性质:这是一个标准的凸优化问题,可通过求解 Riccati 方程求解。

4.4 通信中的多用户功率控制

  • 场景:多个发射端(TX)与接收端(RX)共存,相互干扰。
  • 变量:每个用户 ii 的发射功率 pip_i,满足 0pibi0 \leq p_i \leq b_i
  • 干扰模型
    • αij\alpha_{ij}:用户 jj 对用户 ii 的单位功率干扰。
    • δi2\delta_i^2:用户 ii 的高斯白噪声方差。
  • 信干噪比(SINR)SINRi=piδi2+jiαijpj \text{SINR}_i = \frac{p_i}{\delta_i^2 + \sum_{j \neq i} \alpha_{ij} p_j}
  • 用户速率filog(1+SINRi)f_i \propto \log(1 + \text{SINR}_i)
  • 优化目标(运营商视角): max{pi}i=1Nfi(p1,,pN)s.t.0pibi \max_{\{p_i\}} \sum_{i=1}^N f_i(p_1, \dots, p_N) \quad \text{s.t.} \quad 0 \leq p_i \leq b_i
  • 挑战:全局流量最大可能导致部分用户速率极低 → 需引入公平性约束(如均衡速率)。

4.5 图像去噪(TV-L2 模型)

  • 问题:从带噪图像 f0(x,y)f_0(x,y) 恢复干净图像 f(x,y)f(x,y)
  • 先验知识:自然图像具有分片光滑性(piecewise smoothness)。
  • 全变分(Total Variation, TV)正则项fTV=x,y(fx)2+(fy)2 \|f\|_{\text{TV}} = \sum_{x,y} \sqrt{ \left( \frac{\partial f}{\partial x} \right)^2 + \left( \frac{\partial f}{\partial y} \right)^2 } (离散形式为相邻像素差分的 2\ell_2 范数之和)
  • 优化模型(TV-L2)minfλfTV+ff0F2 \min_f \quad \lambda \|f\|_{\text{TV}} + \|f - f_0\|_F^2
    • 第一项:鼓励分片光滑。
    • 第二项(Frobenius 范数):保证与观测图像接近。
    • λ>0\lambda > 0:平衡两项的权重。
  • 极端情况分析
    • λ=0\lambda = 0f=f0f = f_0(无去噪)。
    • 若无第二项 → f=0f = 0(全黑图像,TV 最小)。

4.6 超大规模集成电路(VLSI)设计

  • 任务:连接 NN 个门电路(D1,,DND_1, \dots, D_N)以实现特定逻辑功能。
  • 目标:在满足功能约束下,优化性能指标(如能耗、成本)。
  • 数学抽象
    • 可行连接方案集合:{T1,,TM}\{T_1, \dots, T_M\}
    • 选择一个方案 x{T1,,TM}x \in \{T_1, \dots, T_M\} 以最小化性能指标 P(x)P(x)
  • 难点:此类问题通常是 NP-hard(计算复杂度极高),属于难优化问题

4.7 网络最短路径问题(计算机领域)

  • 场景:互联网路由、导航系统。
  • 模型:在无向图中,寻找两点间代价最小的路径。
  • 本质:一类特殊的组合优化问题,可用图算法(如 Dijkstra)高效求解(属于“简单”优化问题)。

5. 问题难度与课程定位

  • 核心观点:凸优化 = 简单优化问题;非凸/组合优化 = 难问题
  • 课程目标
    • 掌握凸优化的基本理论与建模方法。
    • 学会识别哪些实际问题可转化为凸优化(从而高效求解)。
    • 理解哪些问题本质上是难解的(如 VLSI 设计),避免盲目尝试。
flowchart TD
    A[实际问题] --> B{能否建模为
凸优化问题?} B -->|是| C[使用凸优化方法
高效求解] B -->|否| D{是否为
组合/NP-hard问题?} D -->|是| E[需启发式/近似算法
或问题简化] D -->|否| F[可能需非凸优化技术
但无全局最优保证]
flowchart TD
    A[实际问题] --> B{能否建模为
凸优化问题?} B -->|是| C[使用凸优化方法
高效求解] B -->|否| D{是否为
组合/NP-hard问题?} D -->|是| E[需启发式/近似算法
或问题简化] D -->|否| F[可能需非凸优化技术
但无全局最优保证]
flowchart TD
    A[实际问题] --> B{能否建模为
凸优化问题?} B -->|是| C[使用凸优化方法
高效求解] B -->|否| D{是否为
组合/NP-hard问题?} D -->|是| E[需启发式/近似算法
或问题简化] D -->|否| F[可能需非凸优化技术
但无全局最优保证]

流程图解释
该流程图描述了面对一个实际优化问题时的决策路径。首先判断其是否可转化为凸优化问题(课程核心)。若可以,则有成熟高效算法;若不能,则进一步判断是否属于组合优化(如 VLSI、旅行商问题),此类问题通常 NP-hard,需特殊处理;否则可能涉及非凸优化,求解困难且无全局最优性保证。本课程重点训练第一步的建模与识别能力。

第二课:引言(二)——优化问题建模与分类

核心摘要 (Key Takeaways)

  • 最短路径问题可以建模为一个优化问题,通过引入 0-1 决策变量 xijx_{ij} 和流量守恒约束,将其形式化为数学规划问题。
  • 线性规划是凸优化的特例,其目标函数和约束均为线性,最优解总出现在可行域的顶点或边界上。
  • 凸优化是“容易求解”的核心类别:只要问题可建模为凸优化(目标函数凸、可行域凸),就具备良好性质,可用高效算法求解。
  • 优化问题有多种分类维度:线性/非线性、凸/非凸、光滑/非光滑、连续/离散、单目标/多目标,其中凸与非凸是最本质的区分
  • 课程目标是教会如何将实际问题转化为“容易的”凸优化问题,并理解其理论基础与求解思路。

一、最短路径问题的优化建模

1.1 问题背景

  • 考虑一个无向图 G=(V,E)G = (V, E)
    • VV:顶点集合(每个圆圈代表一个顶点)
    • EE:边集合(连接两个顶点的线段)
  • 每条边 (i,j)E(i,j) \in E 有一个权重 wij0w_{ij} \geq 0,表示从顶点 iijj 的“代价”(如时间、距离等)。
  • 目标:给定起点(源点)ss 和终点(汇点)tt,找到一条从 sstt路径,使得路径上所有边的权重之和最小。

例子:访问网站时,希望数据包传输路径耗时最短。

1.2 数学建模

引入决策变量

  • xij{0,1}x_{ij} \in \{0, 1\}:若选择边 (i,j)(i,j),则 xij=1x_{ij} = 1;否则为 0。

目标函数

最小化总代价:

min(i,j)Ewijxij \min \sum_{(i,j) \in E} w_{ij} x_{ij}

约束条件(流量守恒)

为确保解构成一条从 sstt 的路径,需满足:

  • 起点 ss:净流出为 1

    j:(s,j)Exsjj:(j,s)Exjs=1 \sum_{j: (s,j) \in E} x_{sj} - \sum_{j: (j,s) \in E} x_{js} = 1
  • 终点 tt:净流入为 1(即净流出为 -1)

    j:(t,j)Extjj:(j,t)Exjt=1 \sum_{j: (t,j) \in E} x_{tj} - \sum_{j: (j,t) \in E} x_{jt} = -1
  • 中间任意顶点 is,ti \neq s,t:流入 = 流出(净流量为 0)

    j:(i,j)Exijj:(j,i)Exji=0 \sum_{j: (i,j) \in E} x_{ij} - \sum_{j: (j,i) \in E} x_{ji} = 0

关键洞察:原始问题要求 xij{0,1}x_{ij} \in \{0,1\}(整数规划),但对于最短路径问题,可将约束松弛为 xij0x_{ij} \geq 0,问题仍能得到整数最优解。此时问题变为线性规划(Linear Programming, LP),属于“容易求解”的类别。


二、优化问题的分类体系

2.1 线性规划 vs. 非线性规划

  • 线性规划(LP)
    • 目标函数 f0(x)f_0(x) 和所有约束函数 fi(x)f_i(x)i=1,,mi=1,\dots,m)均为线性函数
    • 线性函数定义:对任意 x,yx, y 和标量 α,β\alpha, \beta,有
      fi(αx+βy)=αfi(x)+βfi(y) f_i(\alpha x + \beta y) = \alpha f_i(x) + \beta f_i(y)
    • 几何性质:可行域是由超平面围成的凸多面体;目标函数等高线为平行超平面。
    • 最优解位置:必定出现在可行域的顶点(极点)或边界上
    • 经典算法:单纯形法(Simplex Method)。

例子:最短路径问题可转化为 LP。

  • 非线性规划(NLP)
    • 至少有一个函数(目标或约束)是非线性的。
    • 求解难度显著增加,性质复杂。

2.2 凸规划 vs. 非凸规划(课程核心)

  • 凸优化问题

    • 目标函数 f0(x)f_0(x) 是凸函数
    • 可行域是凸集(即所有约束函数 fi(x)0f_i(x) \leq 0 中的 fif_i 为凸函数)
    • 关键性质:局部最优解 = 全局最优解;存在高效算法(如内点法)。
    • 重要结论所有线性规划都是凸优化问题(因为线性函数既是凸函数也是凹函数)。
  • 非凸优化问题

    • 可能存在多个局部最优解,难以保证找到全局最优。
    • 通常属于“难解”问题(NP-hard)。

直观理解

  • 凸函数:图像呈“碗状”,任意两点连线在函数图像上方。无法找到多个不相邻的“低谷”。
  • 非凸函数:可能存在多个孤立的局部最小值点。

课程观点:现代优化理论认为,凸 vs. 非凸才是区分“易”与“难”的本质标准,而非传统的线性 vs. 非线性。

2.3 其他分类维度

(1)光滑 vs. 非光滑

  • 光滑优化:目标函数 f0(x)f_0(x) 处处可微(如二次函数)。
  • 非光滑优化:目标函数不可微(如含绝对值、最大值函数)。
  • 注意:此分类非本质,难度差异远小于凸/非凸之分。

(2)连续 vs. 离散

  • 连续优化:可行域为连续集合(如实数区间、凸多面体)。
  • 离散优化:可行域为离散点集(如整数、组合选择)。
    • 例子:集成电路设计、最短路径原始 0-1 模型。
    • 特点:通常为非凸问题,属于“难解”类别。

重要说明:连续问题不一定容易——若非凸,仍难解。

(3)单目标 vs. 多目标优化

  • 单目标:仅一个目标函数 f0(x)f_0(x),标准优化形式。
  • 多目标:同时优化多个目标,如 min{f1(x),f2(x)}\min \{f_1(x), f_2(x)\}
    • 帕累托最优(Pareto Optimality):无法在不恶化其他目标的前提下改进任一目标。
    • 帕累托前沿(Pareto Front):所有帕累托最优解在目标空间中的轨迹。
    • 常用策略:加权求和 minλ1f1(x)+λ2f2(x)\min \lambda_1 f_1(x) + \lambda_2 f_2(x),但不一定能覆盖整个帕累托前沿

课程范围:仅简要介绍多目标概念,不深入讲解。


三、课程目标与哲学

3.1 核心目标

  • 学会将实际问题建模为“容易的”优化问题(尤其是凸优化)。
  • 理解:“只要能将问题转化为凸优化,就完成了90%的工作。”
  • 掌握:
    1. 建模:如何根据任务构造目标函数与约束;
    2. 分析:理解凸问题的性质(如对偶性、KKT条件);
    3. 求解:了解基本算法思想(不深入复杂实现)。

3.2 “容易”与“难”的相对性

  • 课程假设:目标函数 f(x)f(x) 及其导数(一阶、二阶)易于计算
  • 不讨论:目标函数本身难以评估的问题(如需实验测量、模拟耗时)。
  • 例子:“找出教室里头发最少的同学”看似简单,实为离散优化 + 目标函数难计算,不属于本课程范畴。

四、优化发展简史(关键人物与贡献)

时期 人物 贡献 与优化的联系
17–18世纪 牛顿、拉弗森(Newton-Raphson) 求解非线性方程 f(x)=0f(x)=0 可转化为优化问题:minf(x)2\min \|f(x)\|^2
19世纪 高斯、赛德尔、雅可比 求解线性方程组 可转化为最小二乘优化:minfi(x)2\min \sum f_i(x)^2
18世纪末 拉格朗日(Lagrange) 拉格朗日乘子法 约束优化转化为无约束问题,核心理论基础
1939年 康托罗维奇(Kantorovich, 苏联) 提出线性规划模型用于资源分配 首次将实际问题抽象为LP
1947年 丹齐格(Dantzig) 发明单纯形法 首个高效求解LP的算法(虽非多项式时间)
1940s 贝尔曼(Bellman) 动态规划 通过“逆序递推”求解多阶段决策优化
1944年 冯·诺依曼(von Neumann) 博弈论 多智能体优化,与多目标优化有本质区别
1950年 纳什(Nash) 纳什均衡 博弈论核心概念
1979年 Khachiyan 椭球法 首个多项式时间LP算法(理论突破,实践慢)
1984年 Karmarkar 内点法(Interior-point Method) 高效多项式时间算法,适用于大规模LP及凸优化
1990s后 内点法推广至非线性凸优化 成为主流求解框架

:本课程聚焦建模与理论,不深入讲解内点法等复杂算法。


五、总结与展望

  • 优化的本质:在约束下寻找最优决策。
  • 本课程主线凸优化——因其具备良好性质,是连接理论与应用的桥梁。
  • 学习建议:重点掌握如何识别和构造凸问题,理解“为什么凸问题容易解”。

希尔伯特名言:“只要一个问题能被清晰描述,就等于解决了80%。”
本课程延伸:“只要一个问题能被转化为凸优化,就等于解决了90%。”

第三课:仿射集、凸集与凸包(1)

核心摘要 (Key Takeaways)

  • 仿射集(Affine Set) 是指集合中任意两点的整条直线仍包含于该集合;等价地,任意有限个点的仿射组合(系数和为1的线性组合)仍在集合内。
  • 线性方程组的解集 {xAx=b}\{x \mid Ax = b\} 是仿射集的典型例子;通过平移(减去一个特解 x0x_0),可将其转化为零空间(Null Space),即一个过原点的子空间。
  • 仿射包(Affine Hull) 是包含给定集合 CC最小仿射集,由 CC 中所有点的仿射组合构成。
  • 仿射集是凸集的推广:所有仿射集都是凸集,但反之不成立(如线段是凸集但不是仿射集)。
  • 子空间是过原点的仿射集,具有对任意线性组合封闭的性质(而仿射集仅对仿射组合封闭)。

1. 优化问题的标准形式与术语澄清

1.1 优化问题的一般形式

一个标准的单目标有约束优化问题可表示为:

minxRnf0(x)s.t.fi(x)bi,i=1,,m \begin{aligned} \min_{x \in \mathbb{R}^n} \quad & f_0(x) \\ \text{s.t.} \quad & f_i(x) \leq b_i, \quad i = 1, \dots, m \end{aligned}

其中:

  • xRnx \in \mathbb{R}^n优化变量
  • f0(x)f_0(x)目标函数
  • fi(x)bif_i(x) \leq b_i不等式约束
  • “s.t.” 是 “subject to” 的缩写

:本课程聚焦于此类问题中的易解子类——即凸优化问题

1.2 “优化” vs “数学规划”

  • 历史插曲:二战期间,科学家向军方申请经费时,因“优化”一词被认为“太土”,改称“规划”(如“线性规划”、“非线性规划”),以显得更“酷”。
  • 实质等价:“数学规划” = “优化”,二者指同一类问题。

关键区分:问题难易不取决于是否线性,而取决于是否——凸规划 = 易解,非凸规划 = 难解


2. 仿射集(Affine Set)的定义与性质

2.1 直观定义:基于直线

  • 直线的参数方程:给定两点 x1x2Rnx_1 \ne x_2 \in \mathbb{R}^n,连接它们的直线可表示为:

    y=θx1+(1θ)x2,θR y = \theta x_1 + (1 - \theta) x_2, \quad \theta \in \mathbb{R}

    或等价地:

    y=x2+θ(x1x2),θR y = x_2 + \theta (x_1 - x_2), \quad \theta \in \mathbb{R}
  • 线段的参数方程(对比):

    y=θx1+(1θ)x2,θ[0,1] y = \theta x_1 + (1 - \theta) x_2, \quad \theta \in [0, 1]

例子(几何可视化)

  • 在二维平面中,两点 x1,x2x_1, x_2 确定一条无限延伸的直线
  • 两点之间的有限部分称为线段

2.2 仿射集的正式定义

一个集合 CRnC \subseteq \mathbb{R}^n仿射集,当且仅当:

对任意 x1,x2Cx_1, x_2 \in C 和任意 θR\theta \in \mathbb{R},都有

θx1+(1θ)x2C \theta x_1 + (1 - \theta) x_2 \in C

判断示例:

  • 直线:是仿射集 (任意两点连线仍在直线上)
  • 线段不是仿射集 (取端点,其连线超出线段)
  • 整个 R2\mathbb{R}^2 空间:是仿射集
  • 正方形区域(含内部)不是仿射集 (取对角顶点,连线穿出边界)

2.3 仿射组合与广义定义

为处理多个点,引入仿射组合概念:

  • 给定 kk 个点 x1,,xkRnx_1, \dots, x_k \in \mathbb{R}^n 和标量 θ1,,θkR\theta_1, \dots, \theta_k \in \mathbb{R},若满足:

    i=1kθi=1 \sum_{i=1}^k \theta_i = 1

    则点:

    i=1kθixi \sum_{i=1}^k \theta_i x_i

    称为 x1,,xkx_1, \dots, x_k 的一个仿射组合

  • 仿射集的等价定义
    集合 CC 是仿射集     \iff 对任意 k1k \geq 1,任意 x1,,xkCx_1, \dots, x_k \in C,其任意仿射组合仍属于 CC

证明思路(两定义等价)

  • 从两点定义可归纳推广至 kk 点(如三点组合可拆为两次两点组合)。
  • 反之,取 k=2k=2 即得原始定义。

3. 仿射集与子空间的关系

3.1 一般仿射集 vs 子空间

  • 问题:仿射集仅对仿射组合封闭(系数和为1),但子空间应对任意线性组合封闭。
  • 观察:某些特殊仿射集(如过原点的直线)满足更强性质。

反例:不过原点的直线 L={(1,0)+t(0,1)tR}L = \{ (1,0) + t(0,1) \mid t \in \mathbb{R} \}
x1=(1,1),x2=(1,2)Lx_1 = (1,1), x_2 = (1,2) \in L,则 x1+x2=(2,3)Lx_1 + x_2 = (2,3) \notin L,故不封闭于任意线性组合。

3.2 从仿射集构造子空间

对任意仿射集 CC,任取一点 x0Cx_0 \in C,定义新集合:

V=Cx0={xx0xC} V = C - x_0 = \{ x - x_0 \mid x \in C \}

VV 具有以下性质:

  1. VV 是子空间(即对任意 α,βR\alpha, \beta \in \mathbb{R}v1,v2Vv_1, v_2 \in V,有 αv1+βv2V\alpha v_1 + \beta v_2 \in V)。
  2. VV 过原点(因 x0x0=0Vx_0 - x_0 = 0 \in V)。
  3. x0x_0 的选择不影响 VV 的结构(不同 x0x_0 生成同一子空间)。

几何意义:将仿射集 CC 平移,使其经过原点,得到对应的方向子空间


4. 仿射集的重要例子:线性方程组的解集

4.1 解集是仿射集

考虑线性方程组:

Ax=b Ax = b

其中 ARm×nA \in \mathbb{R}^{m \times n}, bRmb \in \mathbb{R}^m。其解集:

C={xRnAx=b} C = \{ x \in \mathbb{R}^n \mid Ax = b \}

是一个仿射集

证明:

任取 x1,x2Cx_1, x_2 \in C,即 Ax1=bAx_1 = b, Ax2=bAx_2 = b。对任意 θR\theta \in \mathbb{R},有:

A(θx1+(1θ)x2)=θAx1+(1θ)Ax2=θb+(1θ)b=b A(\theta x_1 + (1 - \theta) x_2) = \theta A x_1 + (1 - \theta) A x_2 = \theta b + (1 - \theta) b = b

θx1+(1θ)x2C\theta x_1 + (1 - \theta) x_2 \in C,证毕。

4.2 对应的子空间:零空间(Null Space)

任取特解 x0Cx_0 \in C(即 Ax0=bAx_0 = b),则平移后的集合:

V=Cx0={xx0Ax=b} V = C - x_0 = \{ x - x_0 \mid Ax = b \}

满足:

A(xx0)=AxAx0=bb=0 A(x - x_0) = Ax - Ax_0 = b - b = 0

即:

V={yRnAy=0} V = \{ y \in \mathbb{R}^n \mid A y = 0 \}

这正是矩阵 AA零空间(Null Space),记作 N(A)\mathcal{N}(A)

结论:任何仿射集均可表示为“特解 + 齐次解”,即 C=x0+N(A)C = x_0 + \mathcal{N}(A)

4.3 逆命题成立

任意仿射集都可表示为某个线性方程组的解集
(证明略,但强调其重要性:仿射集与线性方程组一一对应)


5. 仿射包(Affine Hull)

5.1 动机

给定任意集合 CC(可能非仿射),如何构造包含 CC最小仿射集

5.2 定义

集合 CC仿射包(Affine Hull),记作 aff(C)\text{aff}(C),定义为:

aff(C)={i=1kθixi|kN,xiC,i=1kθi=1} \text{aff}(C) = \left\{ \sum_{i=1}^k \theta_i x_i \,\middle|\, k \in \mathbb{N},\, x_i \in C,\, \sum_{i=1}^k \theta_i = 1 \right\}

即:所有由 CC 中点构成的仿射组合的集合

5.3 性质

  • aff(C)\text{aff}(C) 是包含 CC最小仿射集
  • CC 已是仿射集,则 aff(C)=C\text{aff}(C) = C
  • 例子
    • CC 是两个不重合点,则 aff(C)\text{aff}(C) 是穿过这两点的直线
    • CC 是三个不共线点,则 aff(C)\text{aff}(C) 是它们张成的平面

6. 课程内容预告与学习资源

6.1 教材结构

本课程主要讲授以下章节(来自指定教材):

  • 第二章:凸集(Convex Sets)
  • 第三章:凸函数(Convex Functions)
  • 第四章:凸优化问题(Convex Optimization Problems)
  • 第五章:对偶理论(Duality)
  • 第九、十章(部分):优化算法(无约束与有约束)

建议:仅打印相关章节,无需整本。

6.2 学习资源

  • 教材最新版可在 Stephen Boyd 主页 获取。
  • 配套视频与 PPT 亦可在线找到。

总结

本课从直线与线段的几何直观出发,严格定义了仿射集,并通过仿射组合推广至多点情形。核心发现是:线性方程组的解集是仿射集,且可通过平移转化为零空间(子空间)。进一步引入仿射包概念,为任意集合构造最小仿射超集。这些概念是理解凸集(下一课)和凸优化的基石——仿射集是凸集的特例,而凸集允许 θ[0,1]\theta \in [0,1](线段封闭),仿射集要求 θR\theta \in \mathbb{R}(直线封闭)。

第四课学习笔记:仿射集 / 凸集 / 凸锥 + 集合 / 组合 / 包(2)


核心摘要 (Key Takeaways)

  • 仿射包 是包含给定集合的最小仿射集;凸包 是包含给定集合的最小凸集;凸锥包 是包含给定集合的最小凸锥。
  • 仿射集 ⊆ 凸集,但反之不成立;凸锥一定是凸集,但凸集不一定是凸锥。
  • 三种组合方式对应三种集合构造:
    • 仿射组合:系数和为1(无符号限制)→ 仿射集
    • 凸组合:系数和为1 且 所有系数 ∈ [0,1] → 凸集
    • 凸锥组合:所有系数 ≥ 0(无和为1要求)→ 凸锥
  • 单点集 是仿射集、凸集;仅当该点为原点时,才是凸锥。
  • 空集 同时是仿射集、凸集、凸锥——因其“无反例”而满足所有定义。

1. 仿射集与仿射包(Affine Set & Affine Hull)

定义回顾

  • 集合 CC仿射集,当且仅当对任意 x1,x2Cx_1, x_2 \in C,其整条直线 θx1+(1θ)x2\theta x_1 + (1 - \theta) x_2θR\theta \in \mathbb{R})都属于 CC
  • 仿射组合:对 kk 个点 x1,,xkCx_1, \dots, x_k \in C,若 i=1kθi=1\sum_{i=1}^k \theta_i = 1θiR\theta_i \in \mathbb{R}),则 i=1kθixi\sum_{i=1}^k \theta_i x_i 称为仿射组合。
  • 仿射集等价于:任意有限个点的仿射组合仍属于该集合

仿射包(Affine Hull)

  • 给定任意集合 CC,其仿射包 aff(C)\text{aff}(C) 是包含 CC最小仿射集
  • 构造方式:取 CC 中任意有限点的所有仿射组合构成的集合。

例子

  • 两点集 {x1,x2}\{x_1, x_2\}:仿射包是连接两点的整条直线
  • 三点不共线集 {x1,x2,x3}\{x_1, x_2, x_3\}:仿射包是它们张成的二维平面
  • CC 本身是仿射集:则 aff(C)=C\text{aff}(C) = C

💡 关键理解:仿射包是“用直线和超平面把点撑开到最大仿射结构”。


2. 凸集与凸包(Convex Set & Convex Hull)

定义

  • 集合 CC凸集,当且仅当对任意 x1,x2Cx_1, x_2 \in C,其线段 θx1+(1θ)x2\theta x_1 + (1 - \theta) x_2θ[0,1]\theta \in [0,1])都属于 CC
  • 凸组合:对 kk 个点 x1,,xkCx_1, \dots, x_k \in C,若: i=1kθi=1θi[0,1]i \sum_{i=1}^k \theta_i = 1 \quad \text{且} \quad \theta_i \in [0,1] \quad \forall i i=1kθixi\sum_{i=1}^k \theta_i x_i 称为凸组合。
  • 凸集等价于:任意有限个点的凸组合仍属于该集合

凸包(Convex Hull)

  • 给定任意集合 CC,其凸包 conv(C)\text{conv}(C) 是包含 CC最小凸集
  • 构造方式:取 CC 中任意有限点的所有凸组合构成的集合。

例子

  • 六边形边界(无内部)不是凸集(两点连线可能穿出边界)。
  • 填充六边形(含内部)是凸集
  • 正方形去掉两个内点:仍是凸集(只要不破坏“任意两点连线在内”)。
  • 正方形去掉两个边界点(如对角)不是凸集 → 其凸包是完整正方形
  • 离散点集(如教室中的学生):非凸集;其凸包是最外层点构成的凸多边形(“用绳子绕一圈”)。

重要关系所有仿射集都是凸集,因为直线包含线段。


3. 锥与凸锥(Cone & Convex Cone)

锥(Cone)的定义

  • 集合 CC,若对任意 xCx \in C 和任意 θ0\theta \geq 0,都有 θxC\theta x \in C
  • 必须包含从原点出发的射线(不一定连续)。

例子

  • 三条从原点出发的射线:是锥(即使不连续)。
  • Y 形结构(交点不在原点)不是锥(不满足 θxC\theta x \in C)。
  • 倾斜的冰淇淋形(顶点在原点):是锥。

凸锥(Convex Cone)的定义

  • 集合 CC凸锥,若它既是又是凸集
  • 等价定义:对任意 x1,x2Cx_1, x_2 \in Cθ1,θ20\theta_1, \theta_2 \geq 0,有: θ1x1+θ2x2C \theta_1 x_1 + \theta_2 x_2 \in C
  • 推广到 kk 点:凸锥组合 = i=1kθixi\sum_{i=1}^k \theta_i x_i,其中 θi0\theta_i \geq 0不要求和为1)。

例子

  • 倾斜冰淇淋形(顶点在原点):是凸锥(任意两点的非负线性组合仍在其中)。
  • 过原点的直线:是凸锥(因 θx\theta x 覆盖正负方向,且满足凸性)。

⚠️ 注意:凸锥必须包含原点(取 θ=0\theta = 00C0 \in C)。


4. 三种组合与三种包的对比

类型 组合形式 系数约束 对应集合 对应“包”
仿射 θixi\sum \theta_i x_i θi=1\sum \theta_i = 1, θiR\theta_i \in \mathbb{R} 仿射集 仿射包 aff(C)\text{aff}(C)
θixi\sum \theta_i x_i θi=1\sum \theta_i = 1, θi[0,1]\theta_i \in [0,1] 凸集 凸包 conv(C)\text{conv}(C)
凸锥 θixi\sum \theta_i x_i θi0\theta_i \geq 0(无和约束) 凸锥 凸锥包 cone(C)\text{cone}(C)

🔁 包的构造逻辑:对集合 CC,取所有对应组合的点,形成包含 CC 的最小结构。


5. 特殊集合的性质分析

单点集 {x}

  • 仿射集? ✅ 是。因任意仿射组合 θx+(1θ)x=x{x}\theta x + (1-\theta)x = x \in \{x\}
  • 凸集? ✅ 是。线段退化为点。
  • 凸锥?
    • x=0x = 0(原点)→ ✅ 是凸锥(θ0=0\theta \cdot 0 = 0)。
    • x0x \neq 0 → ❌ 不是锥(因 0{x}0 \notin \{x\},除非 x=0x=0)。

空集 \emptyset

  • 仿射集? ✅ 是(无反例)。
  • 凸集? ✅ 是。
  • 凸锥? ✅ 是。

🌌 空集是“平凡满足”所有集合定义的特例。


6. 凸锥包(Convex Cone Hull)

  • 定义:包含集合 CC最小凸锥,记为 cone(C)\text{cone}(C)
  • 构造:取 CC 中任意有限点的所有凸锥组合(系数 0\geq 0)。

例子

  • 离散点集(不在原点):凸锥包是从原点出发、穿过这些点的“最小冰淇淋锥”。
  • 两点连线过原点:凸锥包是两条射线张成的锥(不是整条直线!除非包含负方向)。
    • 但注意:过原点的直线本身是凸锥(因包含 θx\theta x 对所有 θR\theta \in \mathbb{R},而 R[0,)\mathbb{R} \supset [0, \infty))。

❗ 易错点:两点连线过原点 → 凸锥包是整个直线(因直线满足凸锥定义)。


7. 集合包含关系总结

flowchart LR
    A[仿射集] -->|是特例| B[凸集]
    C[凸锥] -->|是特例| B
    D[空集] --> A
    D --> B
    D --> C
    E[单点集 x=0] --> C
    E --> B
    E --> A
flowchart LR
    A[仿射集] -->|是特例| B[凸集]
    C[凸锥] -->|是特例| B
    D[空集] --> A
    D --> B
    D --> C
    E[单点集 x=0] --> C
    E --> B
    E --> A
flowchart LR
    A[仿射集] -->|是特例| B[凸集]
    C[凸锥] -->|是特例| B
    D[空集] --> A
    D --> B
    D --> C
    E[单点集 x=0] --> C
    E --> B
    E --> A

解释:该流程图展示了集合类别的包含与特例关系。仿射集和凸锥都是凸集的子类;空集和原点单点集具有多重身份。


关键术语强调

  • 仿射包(Affine Hull)
  • 凸包(Convex Hull)
  • 凸锥包(Convex Cone Hull)
  • 仿射组合 / 凸组合 / 凸锥组合
  • 锥(Cone)必须过原点
  • 空集是万能特例

本课核心在于通过组合方式理解集合构造,并掌握“包”的最小包含思想。后续课程将深入具体凸集(如多面体、范数球等)及其性质。

第5课:几种重要的凸集(1)——高质量学习笔记

核心摘要 (Key Takeaways)

  • 组合思想是理解九类集合概念的核心:仿射组合、凸组合、凸锥组合分别对应仿射集、凸集、凸锥,以及它们的包(仿射包、凸包、凸锥包)。
  • 凸锥的几何本质是“从原点出发的所有非负线性组合构成的集合”,其典型形状如“冰激凌锥”,必须包含原点。
  • 超平面与半空间是基础且重要的凸集:超平面是仿射集(当过原点时也是凸锥),半空间总是凸集,但仅当边界过原点时才是凸锥。
  • 球与椭球在欧氏空间中均为凸集,其凸性可通过三角不等式严格证明;椭球由对称正定矩阵 PP 定义,其形状由 PP 的特征值(或奇异值)决定半轴长度。
  • 空集和单点集具有特殊性质:空集同时是仿射集、凸集和凸锥;单点集是仿射集和凸集,但仅当该点为原点时才是凸锥。

1. 九个核心概念的统一框架:组合思想

视频强调,理解以下九个概念的关键在于掌握三种组合(combinations):

1.1 三种组合的定义

设集合 CRnC \subseteq \mathbb{R}^n,从中任取 kk 个点 x1,x2,,xkx_1, x_2, \dots, x_k,并取实数系数 θ1,θ2,,θk\theta_1, \theta_2, \dots, \theta_k,构造点:

θ1x1+θ2x2++θkxk \theta_1 x_1 + \theta_2 x_2 + \cdots + \theta_k x_k

根据系数 θi\theta_i 的约束,该组合有三种类型:

  • 仿射组合(Affine Combination)
    i=1kθi=1\sum_{i=1}^k \theta_i = 1

  • 凸组合(Convex Combination)
    i=1kθi=1\sum_{i=1}^k \theta_i = 1i,θi0\forall i, \theta_i \geq 0

  • 凸锥组合(Conic Combination / Nonnegative Combination)
    i,θi0\forall i, \theta_i \geq 0(不要求和为1)

关键联系:凸组合 ⊂ 仿射组合 ∩ 凸锥组合;三者通过系数约束相互关联。

1.2 由组合定义的三类集合

  • 仿射集(Affine Set)
    集合中任意有限个点的仿射组合仍在集合内。
    → 几何意义:包含任意两点的整条直线。

  • 凸集(Convex Set)
    集合中任意有限个点的凸组合仍在集合内。
    → 几何意义:包含任意两点的线段。

  • 凸锥(Convex Cone)
    集合中任意有限个点的凸锥组合仍在集合内。
    → 几何意义:从原点出发,沿集合中任意向量方向无限延伸的“锥体”。

1.3 三类“包”(Hull)的定义

即使原集合不满足上述性质,也可通过组合生成最小的包含它的相应集合:

  • 仿射包(Affine Hull):所有仿射组合构成的集合。
  • 凸包(Convex Hull):所有凸组合构成的集合。
  • 凸锥包(Conic Hull):所有凸锥组合构成的集合。

例子:一个不规则点集的凸锥包是包含该点集的“最小冰激凌锥”(即从原点出发,覆盖所有点方向的最小凸锥)。


2. 凸锥的几何解释(修正版)

上节课对凸锥的解释不够准确。正确理解如下:

2.1 二维凸锥的构造(“冰激凌锥”)

  • 取两点 x1,x2x_1, x_2(不在原点)。
  • 凸锥组合为:θ1x1+θ2x2\theta_1 x_1 + \theta_2 x_2,其中 θ1,θ20\theta_1, \theta_2 \geq 0
  • θ1x1\theta_1 x_1 位于从原点出发、经过 x1x_1 的射线上;θ2x2\theta_2 x_2 同理。
  • 二者之和构成以 θ1x1\theta_1 x_1θ2x2\theta_2 x_2 为邻边的平行四边形的对角顶点
  • θ1,θ2\theta_1, \theta_2 变化时,该顶点可覆盖整个由 x1,x2x_1, x_2 张成的锥形区域。

结论:凸锥 = 所有非负线性组合的集合,必须包含原点

2.2 凸锥包的直观理解

  • 给定任意集合 SS,其凸锥包是包含 SS最小凸锥(即“最小冰激凌”)。
  • 通过从 SS 中任取点并做凸锥组合,可“填满”该锥。

3. 特殊集合的性质分析

集合类型 是否仿射集? 是否凸集? 是否凸锥? 说明
空集 \emptyset 空集满足所有定义(无反例)
单点集 {x0}\{x_0\} 仅当 x0=0x_0 = 0 时是 单点无方向,但凸锥必须含原点
Rn\mathbb{R}^n(全空间) 最大仿射集、凸集、凸锥
子空间(如过原点的直线/平面) 子空间对加法和数乘封闭,必含原点
任意直线 仅当过原点时是 直线是仿射集,但凸锥需含原点
线段 否(除非退化为点) 仅当为原点单点时是 线段是凸集的基本例子
射线 {x0+θvθ0}\{x_0 + \theta v \mid \theta \geq 0\} 否(除非 v=0v=0 仅当 x0=0x_0 = 0 时是 起点为 x0x_0,方向为 vv

例子:射线 x0+θvx_0 + \theta vθ0\theta \geq 0

  • v=0v = 0,退化为单点 {x0}\{x_0\} → 是仿射集。
  • x0=0x_0 = 0,则为 {θvθ0}\{\theta v \mid \theta \geq 0\} → 是凸锥。

4. 超平面与半空间

4.1 超平面(Hyperplane)

定义:给定非零向量 aRna \in \mathbb{R}^n 和标量 bRb \in \mathbb{R}

H={xRnax=b} \mathcal{H} = \{ x \in \mathbb{R}^n \mid a^\top x = b \}
  • 几何意义
    • n=2n=2:直线
    • n=3n=3:平面
    • 一般:n1n-1 维仿射子空间
  • 性质
    • 总是仿射集(因满足仿射组合封闭)
    • 总是凸集
    • 凸锥b=0b = 0(即过原点,此时为子空间)

4.2 半空间(Halfspace)

由超平面划分空间得到:

  • 闭半空间

    {xaxb}{xaxb} \{ x \mid a^\top x \leq b \} \quad \text{或} \quad \{ x \mid a^\top x \geq b \}
  • 性质

    • 总是凸集
    • 不是仿射集(两点连线可能跨越边界)
    • 凸锥b=0b = 0(此时关于原点对称)

例子:在 R2\mathbb{R}^2 中,a=[1,0],b=1a = [1, 0]^\top, b = 1,则 x11x_1 \geq 1 是右半平面,为凸集但非仿射集。


5. 球与椭球

5.1 球(Ball)

定义(欧氏空间):给定中心 xcRnx_c \in \mathbb{R}^n,半径 r0r \geq 0

B(xc,r)={xRnxxc2r} \mathcal{B}(x_c, r) = \{ x \in \mathbb{R}^n \mid \|x - x_c\|_2 \leq r \}
  • 性质
    • 总是凸集
    • 是仿射集 ⇔ r=0r = 0(退化为单点)
    • 是凸锥 ⇔ r=0r = 0xc=0x_c = 0

凸性证明(关键步骤)

任取 x1,x2B(xc,r)x_1, x_2 \in \mathcal{B}(x_c, r)θ[0,1]\theta \in [0,1],需证:

θx1+(1θ)x2xc2r \|\theta x_1 + (1-\theta)x_2 - x_c\|_2 \leq r

证明

θx1+(1θ)x2xc2=θ(x1xc)+(1θ)(x2xc)2θx1xc2+(1θ)x2xc2(三角不等式)θr+(1θ)r=r \begin{aligned} &\|\theta x_1 + (1-\theta)x_2 - x_c\|_2 \\ = &\|\theta (x_1 - x_c) + (1-\theta)(x_2 - x_c)\|_2 \\ \leq &\theta \|x_1 - x_c\|_2 + (1-\theta)\|x_2 - x_c\|_2 \quad \text{(三角不等式)} \\ \leq &\theta r + (1-\theta) r = r \end{aligned}

关键工具三角不等式a+ba+b\|a + b\| \leq \|a\| + \|b\|)是证明凸性的常用技巧。

5.2 椭球(Ellipsoid)

定义:给定中心 xcRnx_c \in \mathbb{R}^n,对称正定矩阵 PS++nP \in \mathbb{S}^n_{++}

E(xc,P)={xRn|(xxc)P1(xxc)1} \mathcal{E}(x_c, P) = \left\{ x \in \mathbb{R}^n \,\middle|\, (x - x_c)^\top P^{-1} (x - x_c) \leq 1 \right\}

其中:

  • S++n\mathbb{S}^n_{++}n×nn \times n 对称正定矩阵集合
  • 正定 ⇔ 所有特征值 >0> 0
  • 半正定(S+n\mathbb{S}^n_+)⇔ 特征值 0\geq 0

与球的关系

  • P=r2IP = r^2 III 为单位阵),则: (xxc)(r2I)1(xxc)=xxc22r21xxc2r (x - x_c)^\top (r^2 I)^{-1} (x - x_c) = \frac{\|x - x_c\|_2^2}{r^2} \leq 1 \Rightarrow \|x - x_c\|_2 \leq r → 椭球退化为球。

几何意义

  • PP特征值决定椭球各方向的半轴长度
  • 特征向量方向即主轴方向。

例子:设 P=[4001]P = \begin{bmatrix} 4 & 0 \\ 0 & 1 \end{bmatrix},则 P1=[1/4001]P^{-1} = \begin{bmatrix} 1/4 & 0 \\ 0 & 1 \end{bmatrix},椭球为:

>x124+x221> > \frac{x_1^2}{4} + x_2^2 \leq 1 >

→ 半长轴为 2(沿 x1x_1),半短轴为 1(沿 x2x_2)。

  • 性质:椭球总是凸集(因是仿射变换下的球,而凸性在仿射变换下保持)。

6. 补充:特征值 vs 奇异值

  • 特征值(Eigenvalues):仅对方阵定义,满足 Av=λvA v = \lambda v
  • 奇异值(Singular Values):对任意矩阵 ARm×nA \in \mathbb{R}^{m \times n},定义为 eigenvalues of AA\sqrt{\text{eigenvalues of } A^\top A}
    • AAA^\top A 对称半正定 ⇒ 特征值 0\geq 0 ⇒ 奇异值实数且 0\geq 0
  • 特殊情况:若 AA 对称正定,则奇异值 = 特征值的绝对值 = 特征值(因特征值 > 0)。

此知识用于理解 PP 的几何意义,但非本课核心。


总结提醒

  • 核心思想:所有凸集概念源于组合方式
  • 证明凸性:优先尝试三角不等式
  • 凸锥必须含原点:这是判断的关键。
  • 超平面/半空间/球/椭球是后续优化问题中最常用的凸集模型。

教师忠告:“除非你100%聪明,否则必须付出120%的努力。” —— 凸锥虽小,细节决定成败。

第6课:几种重要的凸集(2)——学习笔记

核心摘要 (Key Takeaways)

  • 多面体是由有限个半空间(线性不等式)和超平面(线性等式)的交集构成的集合,一定是凸集,但不一定有界
  • 单纯形是由 k+1k+1 个满足特定线性无关条件的点所构成的凸包,在 Rn\mathbb{R}^n 中最多包含 n+1n+1 个顶点;例如:线段(1维)、三角形(2维)、四面体(3维)。
  • 任意单纯形都是多面体,可通过构造线性不等式与等式系统严格证明。
  • 对称半正定矩阵集合 S+n\mathbb{S}^n_+ 是一个凸锥(从而也是凸集),而对称正定矩阵集合 S++n\mathbb{S}^n_{++}凸集但不是凸锥(因其不包含零矩阵)。
  • 在高维抽象空间(如矩阵空间)中,需依赖逻辑推理而非几何直觉来判断凸性。

1. 多面体(Polyhedron)

定义

一个多面体是一个集合:

P={xRn|aixbi,i=1,,m;cjx=dj,j=1,,p} \mathcal{P} = \left\{ x \in \mathbb{R}^n \,\middle|\, a_i^\top x \leq b_i,\, i=1,\dots,m;\quad c_j^\top x = d_j,\, j=1,\dots,p \right\}
  • mm 个线性不等式(定义半空间)和 pp 个线性等式(定义超平面)共同约束。
  • 即:多面体 = 若干半空间 ∩ 若干超平面

性质

  • 一定是凸集:任取 x1,x2Px_1, x_2 \in \mathcal{P},对任意 θ[0,1]\theta \in [0,1],有 θx1+(1θ)x2P\theta x_1 + (1-\theta)x_2 \in \mathcal{P}
    原因:线性不等式与等式在凸组合下保持封闭。
  • 不一定有界
    • 例子:仅含一个不等式约束 x10x_1 \geq 0 的集合 {xRnx10}\{x \in \mathbb{R}^n \mid x_1 \geq 0\} 是一个无界多面体。
  • 有界多面体:若在每个坐标轴方向上取值均有界(即体积有限),则称为有界多面体(也称多胞形,polytope)。

2. 单纯形(Simplex)

定义

给定 k+1k+1 个点 v0,v1,,vkRnv_0, v_1, \dots, v_k \in \mathbb{R}^n,若向量组 {v1v0,v2v0,,vkv0}\{v_1 - v_0, v_2 - v_0, \dots, v_k - v_0\} 线性无关,则这些点的凸包构成一个 kk-维单纯形

conv{v0,v1,,vk}={i=0kλivi|λi0, i=0kλi=1} \text{conv}\{v_0, v_1, \dots, v_k\} = \left\{ \sum_{i=0}^k \lambda_i v_i \,\middle|\, \lambda_i \geq 0,\ \sum_{i=0}^k \lambda_i = 1 \right\}

几何直观与例子

  • 1维单纯形(k=1k=1:两个点 v0,v1v_0, v_1线段
    • 条件:v1v00v_1 - v_0 \neq 0(自动线性无关)。
  • 2维单纯形(k=2k=2:三个不共线点 → 实心三角形(含内部)。
    • 条件:v1v0v_1 - v_0v2v0v_2 - v_0 线性无关(即不共线)。
  • 3维单纯形(k=3k=3:四个不共面点 → 四面体
  • 关键限制:在 Rn\mathbb{R}^n 中,单纯形最多有 n+1n+1 个顶点(因最多有 nn 个线性无关向量)。
    • 例子:在 R2\mathbb{R}^2 中,不存在四边形是单纯形,因为无法找到4个点使得3个差向量线性无关。

💡 注意:单纯形法(Simplex Method)中的“单纯形”与此几何概念相关,但不等同。


3. 单纯形一定是多面体(证明概要)

目标

证明:任意单纯形可表示为多面体形式(即满足有限个线性等式与不等式)。

证明思路(构造法)

  1. 设单纯形由 v0,,vkv_0, \dots, v_k 生成,且 {viv0}i=1k\{v_i - v_0\}_{i=1}^k 线性无关。
  2. 任一点 xx 在单纯形中可写为: x=i=0kλivi,λi0, λi=1 x = \sum_{i=0}^k \lambda_i v_i,\quad \lambda_i \geq 0,\ \sum \lambda_i = 1
  3. y=[λ1,,λk]y = [\lambda_1, \dots, \lambda_k]^\top,则 x=v0+Byx = v_0 + B y,其中 B=[v1v0,,vkv0]Rn×kB = [v_1 - v_0, \dots, v_k - v_0] \in \mathbb{R}^{n \times k}
  4. 由于 BB 列满秩(秩为 kk),存在可逆矩阵 AA 使得: AB=[Ik0] A B = \begin{bmatrix} I_k \\ 0 \end{bmatrix}
  5. 左乘 AA 得: A(xv0)=[y0]{A1(xv0)=yA2(xv0)=0 A(x - v_0) = \begin{bmatrix} y \\ 0 \end{bmatrix} \Rightarrow \begin{cases} A_1(x - v_0) = y \\ A_2(x - v_0) = 0 \end{cases}
  6. 利用 y0y \geq 01y1\mathbf{1}^\top y \leq 1(因 λ0=1i=1kλi0\lambda_0 = 1 - \sum_{i=1}^k \lambda_i \geq 0),得到: A1(xv0)01A1(xv0)1A2(xv0)=0 \begin{aligned} A_1(x - v_0) &\geq 0 \\ \mathbf{1}^\top A_1(x - v_0) &\leq 1 \\ A_2(x - v_0) &= 0 \end{aligned} 这正是线性不等式 + 线性等式的形式。

结论:单纯形可表示为多面体,故单纯形 ⊆ 多面体


4. 矩阵空间中的凸集

常用符号

  • Sn\mathbb{S}^n:所有 n×nn \times n 对称矩阵集合,即 X=XX = X^\top
  • S+n\mathbb{S}^n_+:所有 n×nn \times n 对称半正定矩阵集合,即 X0X \succeq 0(所有特征值 0\geq 0)。
  • S++n\mathbb{S}^n_{++}:所有 n×nn \times n 对称正定矩阵集合,即 X0X \succ 0(所有特征值 >0> 0)。

⚠️ 重要区别

  • X0X \geq 0:通常指元素非负(逐元素)。
  • X0X \succeq 0:指半正定(特征值非负)。
    视频中为书写简便,用 X0X \geq 0 表示半正定,但强调其含义为 0\succeq 0

凸性分析

(1) \mathbb{S}^n_+:是凸锥(从而是凸集)

  • 证明:任取 A,BS+nA, B \in \mathbb{S}^n_+θ1,θ20\theta_1, \theta_2 \geq 0,需证 θ1A+θ2BS+n\theta_1 A + \theta_2 B \in \mathbb{S}^n_+
    • 对称性:显然成立。
    • 半正定性:对任意 xRnx \in \mathbb{R}^nx(θ1A+θ2B)x=θ1xAx+θ2xBx0+0=0 x^\top (\theta_1 A + \theta_2 B) x = \theta_1 x^\top A x + \theta_2 x^\top B x \geq 0 + 0 = 0 xAx0x^\top A x \geq 0xBx0x^\top B x \geq 0(半正定定义)。

(2) \mathbb{S}^n_{++}:是凸集,但不是凸锥

  • 是凸集:对 θ[0,1]\theta \in [0,1],若 A,B0A, B \succ 0,则 x(θA+(1θ)B)x=θxAx+(1θ)xBx>0(x0) x^\top (\theta A + (1-\theta) B) x = \theta x^\top A x + (1-\theta) x^\top B x > 0 \quad (\forall x \neq 0) θA+(1θ)B0\theta A + (1-\theta) B \succ 0
  • 不是凸锥:因凸锥要求对任意 θ1,θ20\theta_1, \theta_2 \geq 0 封闭,但若取 θ1=0\theta_1 = 0,则 θ1A+θ2B=θ2B\theta_1 A + \theta_2 B = \theta_2 B,当 θ2>0\theta_2 > 0 时仍正定;问题在于零矩阵不在其中
    • 关键反例:凸锥必须包含原点(取 θ1=θ2=0\theta_1 = \theta_2 = 0),但 0S++n0 \notin \mathbb{S}^n_{++}(零矩阵非正定)。

(3) Sn\mathbb{S}^n:是凸锥(也是凸集)

  • 对称矩阵的非负线性组合仍对称,且包含零矩阵。

低维例子辅助理解(n=1n=1

  • S1=R\mathbb{S}^1 = \mathbb{R}(所有实数)。
  • S+1={xRx0}\mathbb{S}^1_+ = \{x \in \mathbb{R} \mid x \geq 0\}(非负实数)→ 凸锥
  • S++1={xRx>0}\mathbb{S}^1_{++} = \{x \in \mathbb{R} \mid x > 0\}(正实数)→ 凸集但非凸锥(不含0)。

可视化图表(Mermaid)

由于视频内容主要为定义与证明,未明确描述流程、时序或角色交互,不生成 Mermaid 图表


总结与关键洞见

集合 是否凸集 是否凸锥 关键原因
多面体 ✅ 是 ❌ 不一定 由线性约束定义,天然凸;但未必含原点或对非负缩放封闭
单纯形 ✅ 是 ❌ 否 是多面体特例;有界,不含射线
Sn\mathbb{S}^n ✅ 是 ✅ 是 对称性在线性组合下封闭,含零矩阵
S+n\mathbb{S}^n_+ ✅ 是 ✅ 是 半正定性在非负组合下封闭,含零矩阵
S++n\mathbb{S}^n_{++} ✅ 是 ❌ 否 正定性在凸组合下封闭,但不含零矩阵,故非凸锥

🔑 核心思想:在抽象空间(如矩阵空间)中,凸性需通过定义严格验证,不能依赖几何直觉。半正定性通过二次型 xXx0x^\top X x \geq 0 刻画,是分析矩阵凸集的关键工具。

第7课学习笔记:凸集的交集与保凸运算(1)

核心摘要 (Key Takeaways)

  • 凸集的交集仍是凸集:任意多个凸集的交集依然是凸集,这是验证复杂约束集凸性的基础工具。
  • 仿射映射保凸性:若集合 SS 是凸集,则其在任意仿射映射 f(x)=Ax+bf(x) = Ax + b 下的像 f(S)f(S) 仍是凸集;其逆映射 f1(S)f^{-1}(S) 也保持凸性。
  • 集合的和(Minkowski 和)保凸:两个凸集 S1S_1S2S_2 的和 S1+S2={x+yxS1,yS2}S_1 + S_2 = \{x + y \mid x \in S_1, y \in S_2\} 仍是凸集。
  • 线性矩阵不等式(LMI)的解集是凸集:形如 A(x)=i=1nxiAiBA(x) = \sum_{i=1}^n x_i A_i \preceq B 的 LMI 的解集是凸集,可通过仿射映射与半正定锥的逆像证明。
  • 椭球是单位球的仿射像:任何椭球均可表示为单位球经仿射变换(线性变换 + 平移)所得,因此是凸集。

1. 凸集的交集保凸性

核心结论

  • S1S_1S2S_2 均为凸集,则其交集 S1S2S_1 \cap S_2 也是凸集。
  • 此结论可推广至任意多个凸集的交集: 若 {Sα}αA 均为凸集,则 αASα 也是凸集。 \text{若 } \{S_\alpha\}_{\alpha \in \mathcal{A}} \text{ 均为凸集,则 } \bigcap_{\alpha \in \mathcal{A}} S_\alpha \text{ 也是凸集。}

验证方法(基于定义)

任取 x,yS1S2x, y \in S_1 \cap S_2,对任意 θ[0,1]\theta \in [0,1],有:

  • θx+(1θ)yS1\theta x + (1 - \theta)y \in S_1(因 S1S_1 凸)
  • θx+(1θ)yS2\theta x + (1 - \theta)y \in S_2(因 S2S_2 凸)

故该点也在交集中,证毕。

反例:并集不一定保凸

  • 例子:两个分离的圆盘(均为凸集),其并集不是凸集——连接两圆盘中点的线段部分点不在并集中。

2. 仿射映射保凸性

仿射函数定义

函数 f:RnRmf: \mathbb{R}^n \to \mathbb{R}^m仿射函数,当且仅当可表示为:

f(x)=Ax+b f(x) = Ax + b

其中 ARm×nA \in \mathbb{R}^{m \times n}bRmb \in \mathbb{R}^m

保凸性定理

  • SRnS \subseteq \mathbb{R}^n 是凸集,则其像集 f(S)={Ax+bxS}f(S) = \{Ax + b \mid x \in S\}Rm\mathbb{R}^m 中的凸集。
  • 同样,若 TRmT \subseteq \mathbb{R}^m 是凸集,则其原像集 f1(T)={xRnAx+bT}f^{-1}(T) = \{x \in \mathbb{R}^n \mid Ax + b \in T\} 也是凸集。

直观例子

  • 缩放αS={αxxS}\alpha S = \{\alpha x \mid x \in S\}αR\alpha \in \mathbb{R})是仿射映射(A=αI,b=0A = \alpha I, b = 0),保凸。
    • 例子:将足球缩放为乒乓球,仍为凸集。
  • 平移S+a={x+axS}S + a = \{x + a \mid x \in S\}aRna \in \mathbb{R}^n)是仿射映射(A=I,b=aA = I, b = a),保凸。
    • 例子:将凸集从一处移到另一处,形状不变,仍凸。

几何解释

仿射变换包括平移、旋转、缩放、剪切等线性操作,不改变集合的“无凹陷”性质。


3. 凸集的和(Minkowski 和)保凸

定义

两个集合 S1,S2RnS_1, S_2 \subseteq \mathbb{R}^n定义为:

S1+S2={x+yxS1, yS2} S_1 + S_2 = \{x + y \mid x \in S_1,\ y \in S_2\}

⚠️ 注意:这不是并集,而是所有元素两两相加构成的新集合。

保凸性

S1S_1S2S_2 均为凸集,则 S1+S2S_1 + S_2 也是凸集。

证明思路(通过仿射映射)

  1. 构造乘积集:S1×S2={(x,y)xS1,yS2}R2nS_1 \times S_2 = \{(x, y) \mid x \in S_1, y \in S_2\} \subseteq \mathbb{R}^{2n}
    • S1,S2S_1, S_2 凸,则 S1×S2S_1 \times S_2 也凸(可由凸组合定义直接验证)。
  2. 定义仿射映射:f(x,y)=x+yf(x, y) = x + y(即 A=[I I],b=0A = [I\ I], b = 0)。
  3. S1+S2=f(S1×S2)S_1 + S_2 = f(S_1 \times S_2),由仿射映射保凸性,得证。

可视化例子

  • 例子:两个二维圆盘的 Minkowski 和是一个更大的圆盘(或近似椭圆),仍是凸集。

补充说明

  • 非凸 + 凸 可能为凸:例如,一个非凸集若“被凸集主导”,其和可能为凸。但不能保证,需具体分析。

4. 线性矩阵不等式(LMI)的解集是凸集

LMI 定义

给定对称矩阵 A1,A2,,An,BSmA_1, A_2, \dots, A_n, B \in \mathbb{S}^m(对称矩阵空间),定义函数:

A(x)=i=1nxiAi A(x) = \sum_{i=1}^n x_i A_i

线性矩阵不等式为:

A(x)B A(x) \preceq B

其中 \preceq 表示半正定序,即:

BA(x)0(即 BA(x) 是半正定矩阵) B - A(x) \succeq 0 \quad \text{(即 } B - A(x) \text{ 是半正定矩阵)}

解集凸性

集合

S={xRnA(x)B} \mathcal{S} = \{x \in \mathbb{R}^n \mid A(x) \preceq B\}

是凸集。

证明(利用仿射映射与半正定锥)

  1. 定义仿射映射: f(x)=BA(x)=Bi=1nxiAi f(x) = B - A(x) = B - \sum_{i=1}^n x_i A_i 这是从 Rn\mathbb{R}^nSm\mathbb{S}^m 的仿射映射。
  2. 已知:半正定锥 S+m={XSmX0}\mathbb{S}^m_+ = \{X \in \mathbb{S}^m \mid X \succeq 0\} 是凸集(上节课结论)。
  3. 则 LMI 解集为: S=f1(S+m) \mathcal{S} = f^{-1}(\mathbb{S}^m_+) 即半正定锥在仿射映射 ff 下的原像
  4. 由仿射映射的逆像保凸性,S\mathcal{S} 是凸集。

理解技巧

  • 当矩阵概念复杂时,退化到标量情形思考:
    • Ai,BA_i, B 为标量(即 1×11 \times 1 矩阵),则 LMI 退化为线性不等式 xiaib\sum x_i a_i \leq b,其解集为半空间(凸集)。
    • 此直觉可推广至矩阵情形。

5. 椭球是单位球的仿射像

椭球定义

椭球可表示为:

E={xRn(xxc)P1(xxc)1} \mathcal{E} = \left\{ x \in \mathbb{R}^n \mid (x - x_c)^\top P^{-1} (x - x_c) \leq 1 \right\}

其中 PS++nP \in \mathbb{S}^n_{++}(对称正定矩阵),xcx_c 为中心。

仿射构造

  • 单位球B={uRnu21}\mathcal{B} = \{ u \in \mathbb{R}^n \mid \|u\|_2 \leq 1 \}
  • 定义仿射映射: f(u)=P1/2u+xc f(u) = P^{1/2} u + x_c 其中 P1/2P^{1/2}PP对称平方根(满足 P1/2P1/2=PP^{1/2} P^{1/2} = P,且 P1/20P^{1/2} \succ 0)。
  • 则: E=f(B) \mathcal{E} = f(\mathcal{B})

推导验证

x=P1/2u+xcx = P^{1/2} u + x_c,则 u=P1/2(xxc)u = P^{-1/2}(x - x_c)。代入 u21\|u\|_2 \leq 1 得:

P1/2(xxc)22=(xxc)P1(xxc)1 \|P^{-1/2}(x - x_c)\|_2^2 = (x - x_c)^\top P^{-1} (x - x_c) \leq 1

xEx \in \mathcal{E}

结论

  • 椭球是单位球经线性变换(P1/2P^{1/2})+ 平移(xcx_c 得到,属于仿射像。
  • 因单位球凸,仿射映射保凸,故椭球是凸集。

附:关键概念辨析

概念 定义 是否保凸
交集 S1S2S_1 \cap S_2 ✅ 是
并集 S1S2S_1 \cup S_2 ❌ 否(反例:两个分离圆盘)
Minkowski 和 S1+S2={x+y}S_1 + S_2 = \{x+y\} ✅ 是(若两者均凸)
仿射像 f(S)={Ax+b}f(S) = \{Ax + b\} ✅ 是
仿射原像 f1(T)={xAx+bT}f^{-1}(T) = \{x \mid Ax + b \in T\} ✅ 是(若 TT 凸)

💡 提示:面对复杂集合,优先尝试将其表示为已知凸集经保凸运算(交、仿射像/原像、和)所得,即可快速判断凸性。

第8课:凸集的交集与保凸运算(2)——透视函数与线性分数函数

核心摘要 (Key Takeaways)

  • 透视函数是从 Rn+1\mathbb{R}^{n+1}Rn\mathbb{R}^n 的映射,定义为 P(z,t)=ztP(z, t) = \frac{z}{t}(其中 t>0t > 0),它能将凸集映射为凸集。
  • 反透视映射也能保持凸性:若 CRnC \subseteq \mathbb{R}^n 是凸集,则其反透视像 {(x,t)t>0,xtC}\{(x, t) \mid t > 0, \frac{x}{t} \in C\} 也是凸集。
  • 线性分数函数是仿射映射后接透视映射的复合函数,形式为: f(x)=Ax+bcx+d,其中 cx+d>0 f(x) = \frac{Ax + b}{c^\top x + d}, \quad \text{其中 } c^\top x + d > 0 它虽是非线性的,但保持凸性
  • 条件概率可视为联合概率向量的一个线性分数映射,因此在概率单纯形上具有保凸性质。
  • 所有保凸运算(包括交集、仿射映射、透视映射、线性分数映射)都可用于构造和验证复杂凸集。

1. 透视函数(Perspective Function)

1.1 定义

透视函数 P:Rn+1RnP: \mathbb{R}^{n+1} \to \mathbb{R}^n 定义为:

P(z,t)=zt P(z, t) = \frac{z}{t}

其中:

  • 输入向量为 (z,t)Rn+1(z, t) \in \mathbb{R}^{n+1}
  • 定义域为:dom P=Rn×R++={(z,t)t>0}\text{dom } P = \mathbb{R}^n \times \mathbb{R}_{++} = \{(z, t) \mid t > 0\}

关键点:最后一个分量 tt 必须为正数,否则除法无定义或破坏凸性。

1.2 几何解释(针孔成像模型)

  • 考虑二维情形:点 (x1,x2)(x_1, x_2),其中 x2>0x_2 > 0
  • 连接该点与原点 (0,0)(0, 0),作直线
  • 该直线与直线 x2=1x_2 = -1 相交于点 (x1x2,1)\left(-\frac{x_1}{x_2}, -1\right)
  • 忽略纵坐标(或取负号),横坐标即为 x1x2\frac{x_1}{x_2}

例子:点 (2,4)(2, 4) 经透视函数映射为 24=0.5\frac{2}{4} = 0.5。这相当于从原点“看”该点在 x2=1x_2 = 1 平面上的投影。

1.3 保凸性

结论:若 CRn+1C \subseteq \mathbb{R}^{n+1} 是凸集,则其透视像 P(C)={zt(z,t)C,t>0}P(C) = \left\{ \frac{z}{t} \mid (z, t) \in C, t > 0 \right\} 也是凸集。

证明思路(以线段为例)

  • 设线段端点为 x=(xz,xt)x = (x_z, x_t)y=(yz,yt)y = (y_z, y_t),其中 xt>0,yt>0x_t > 0, y_t > 0
  • 线段上任意点为:θx+(1θ)y\theta x + (1 - \theta) yθ[0,1]\theta \in [0,1]
  • 其透视像为: θxz+(1θ)yzθxt+(1θ)yt \frac{\theta x_z + (1 - \theta) y_z}{\theta x_t + (1 - \theta) y_t}
  • 令: μ=θxtθxt+(1θ)yt \mu = \frac{\theta x_t}{\theta x_t + (1 - \theta) y_t} μ[0,1]\mu \in [0,1],且上式可重写为: μxzxt+(1μ)yzyt=μP(x)+(1μ)P(y) \mu \cdot \frac{x_z}{x_t} + (1 - \mu) \cdot \frac{y_z}{y_t} = \mu P(x) + (1 - \mu) P(y)
  • 这是 P(x)P(x)P(y)P(y)凸组合,故透视像仍是线段(凸集)

关键洞察θμ\theta \mapsto \mu严格单调连续的一一映射(因 xt,yt>0x_t, y_t > 0),因此原线段被连续映射为新线段。


2. 反透视映射(Inverse Perspective Mapping)

2.1 定义

给定集合 CRnC \subseteq \mathbb{R}^n,其反透视像定义为:

P1(C)={(x,t)Rn+1t>0,xtC} P^{-1}(C) = \left\{ (x, t) \in \mathbb{R}^{n+1} \mid t > 0, \frac{x}{t} \in C \right\}

注意:要求 t>0t > 0(有时可放宽为 t0t \geq 0,但需谨慎处理边界)

2.2 保凸性

结论:若 CC 是凸集,则 P1(C)P^{-1}(C) 也是凸集。

证明

  • 任取两点 (x,t),(y,s)P1(C)(x, t), (y, s) \in P^{-1}(C),即 xtC\frac{x}{t} \in C, ysC\frac{y}{s} \in C,且 t>0,s>0t > 0, s > 0
  • 对任意 θ[0,1]\theta \in [0,1],考虑凸组合: (θx+(1θ)y, θt+(1θ)s) (\theta x + (1 - \theta) y,\ \theta t + (1 - \theta) s)
  • 需证: θx+(1θ)yθt+(1θ)sC \frac{\theta x + (1 - \theta) y}{\theta t + (1 - \theta) s} \in C
  • 令: μ=θtθt+(1θ)s[0,1] \mu = \frac{\theta t}{\theta t + (1 - \theta) s} \in [0,1]
  • 则上式 = μxt+(1μ)ys\mu \cdot \frac{x}{t} + (1 - \mu) \cdot \frac{y}{s},这是 CC 中两点的凸组合
  • CC 凸,故该点属于 CC,证毕。

3. 线性分数函数(Linear-Fractional Function)

3.1 构造方式

线性分数函数是仿射映射 + 透视映射的复合:

  1. 仿射映射 g:RnRm+1g: \mathbb{R}^n \to \mathbb{R}^{m+1}

    g(x)=[Ax+bcx+d] g(x) = \begin{bmatrix} Ax + b \\ c^\top x + d \end{bmatrix}

    其中:

    • ARm×nA \in \mathbb{R}^{m \times n}
    • bRmb \in \mathbb{R}^m
    • cRnc \in \mathbb{R}^n
    • dRd \in \mathbb{R}
  2. 透视映射 P:Rm+1RmP: \mathbb{R}^{m+1} \to \mathbb{R}^m

    P(z,t)=zt,t>0 P(z, t) = \frac{z}{t}, \quad t > 0
  3. 复合函数 f=Pgf = P \circ g

    f(x)=Ax+bcx+d f(x) = \frac{Ax + b}{c^\top x + d}

3.2 定义域

dom f={xRncx+d>0} \text{dom } f = \{ x \in \mathbb{R}^n \mid c^\top x + d > 0 \}

注意:分母必须为正,以确保透视映射有定义且保凸。

3.3 保凸性

核心结论:线性分数函数保持凸性,即若 Cdom fC \subseteq \text{dom } f 是凸集,则 f(C)f(C) 也是凸集。

理由

  • 仿射映射保凸 → g(C)g(C)
  • 透视映射保凸 → P(g(C))=f(C)P(g(C)) = f(C)
  • 因此,两次保凸操作的复合仍保凸

重要提示:尽管 f(x)f(x)非线性函数(因含分式),但它在凸优化中极为有用,因其能将复杂非线性关系转化为保凸结构。


4. 应用案例:条件概率作为线性分数映射

4.1 背景设定

  • 随机变量 U{1,,n}U \in \{1, \dots, n\}V{1,,m}V \in \{1, \dots, m\}
  • 联合概率分布:pij=P(U=i,V=j)p_{ij} = \mathbb{P}(U = i, V = j)
  • 联合概率向量:p=(p11,p12,,pnm)Rnmp = (p_{11}, p_{12}, \dots, p_{nm}) \in \mathbb{R}^{nm}

4.2 条件概率定义

固定 jj,条件概率为:

fij=P(U=iV=j)=pijk=1npkj f_{ij} = \mathbb{P}(U = i \mid V = j) = \frac{p_{ij}}{\sum_{k=1}^n p_{kj}}

4.3 视为线性分数映射

  • 对固定 jj,考虑向量 p(j)=(p1j,p2j,,pnj)Rnp^{(j)} = (p_{1j}, p_{2j}, \dots, p_{nj}) \in \mathbb{R}^n
  • 定义映射: fi(p(j))=eip(j)1p(j) f_i(p^{(j)}) = \frac{e_i^\top p^{(j)}}{\mathbf{1}^\top p^{(j)}} 其中:
    • eie_i 是第 ii 个标准基向量(分子:取第 ii 个分量)
    • 1\mathbf{1} 是全1向量(分母:求和)

例子:若 n=3n=3jj 固定,p(j)=(0.2,0.3,0.1)p^{(j)} = (0.2, 0.3, 0.1),则:

  • P(U=2V=j)=0.30.2+0.3+0.1=0.30.6=0.5\mathbb{P}(U=2 \mid V=j) = \frac{0.3}{0.2 + 0.3 + 0.1} = \frac{0.3}{0.6} = 0.5
  • 这正是线性分数函数:分子 =[0,1,0]p(j)= [0,1,0] \cdot p^{(j)},分母 =[1,1,1]p(j)= [1,1,1] \cdot p^{(j)}

4.4 凸性意义

  • 联合概率集合(概率单纯形)是凸集
  • 条件概率是联合概率的线性分数映射
  • 因此,条件概率集合也是凸集

遗留问题(视频结尾):联合概率集合是否为凸集?
提示:概率单纯形 {p0pij=1}\{ p \geq 0 \mid \sum p_{ij} = 1 \} 是标准凸集。


5. 总结:保凸运算家族

运算类型 形式 是否保凸 说明
交集 iCi\bigcap_i C_i 任意多个凸集的交仍是凸集
仿射映射 Ax+bAx + b 线性变换+平移
透视函数 P(z,t)=z/t, t>0P(z,t) = z/t,\ t>0 降维投影
反透视映射 {(x,t)x/tC,t>0}\{(x,t) \mid x/t \in C, t>0\} 升维“锥化”
线性分数函数 Ax+bcx+d\frac{Ax + b}{c^\top x + d} 仿射+透视复合

实践建议:在建模优化问题时,若目标或约束可表示为上述保凸运算的组合,则问题很可能属于凸优化范畴,可高效求解。

目录