第1章 一元函数微积分
微分学为研究函数的性质提供了统一的方法与理论,尤其是寻找函数的极值。积分则在机器学习中被用于计算某些概率分布的数字特征。
1.1 极限与连续
1.1.1 可数集与不可数集
- 集合$A$的元素数量称为其基数或者势,记为$|A|$。
- 对于集合$A$和$B$,如果集合$A$中的任意元素$a$,在集合$B$中都有唯一的元素$b$通过某种映射关系与之对应,即存在如下双射函数(Bijection, 一对一映射函数):$$b=f(a),a\in A, b\in B$$则称这两个集合的基数相等。(例如,实数集$\mathbb{R}$与区间$[0,1]$是等价的)
- 无限集可进一步分为可数集(Countable set)与不可数集(Uncountable set),可数集中的每个元素可以用正整数进行编号。离散与可数等价,任意可数集在数轴上的“长度”为0,不可数集长度不为0的在数轴上是稠密或是连续的,连续与不可数等价。
1.1.2 数列的极限
- 数列极限的四则运算:$$\begin{align}
\lim_{n\rightarrow+\infty}(a_n \plusmn b_n)&=\lim_{n\rightarrow+\infty}{a_n}\plusmn\lim_{n\rightarrow+\infty}{b_n}\
\lim_{n\rightarrow+\infty}(a_n \cdot b_n)&=\lim_{n\rightarrow+\infty}{a_n}\cdot\lim_{n\rightarrow+\infty}{b_n}\
\lim_{n\rightarrow+\infty}(\frac{a_n}{b_n})&=\frac{\lim_{n\rightarrow+\infty}{a_n}}{\lim_{n\rightarrow+\infty}{b_n}}
\end{align}$$ - 数列的上下界:上界$a_n\leq U$不唯一,下界$an\geq L$。单调有界的数列收敛,此称为单调收敛定理。有界是数列收敛的必要条件而非充分条件,如果数列无界,则必定发散。
- 夹逼定理:如果对于$\forall n\in\mathbb{N}$有$b_n\leq a_n\leq c_n$且$\displaystyle{\lim_{n\rightarrow+\infty}{b_n}=\lim_{n\rightarrow+\infty}{c_n}=c}$,则$\displaystyle{\lim_{n\rightarrow+\infty}{a_n}=c}$。
1.1.3 函数的极限
- 极限是由柯西给出的$\epsilon-\delta$定义,其中点$x_0$的$\delta$邻域是指满足不等式$|x-x_0|\lt\delta$的所有$x$的集合,$\delta$为邻域半径。
- 函数在某一点极限存在的条件是在该点处的左右极限均存在且相等。
1.1.4 函数的连续性与间断点
- 第一类间断点:$x_0$处左右极限存在,但不相等,$f(x_0^-)\neq{f(x_0^+)}$为跳跃间断点;$x_0$处左右极限相等,但不等于该点处的函数值,$f(x_0^-)=f(x_0^+)\neq{f(x_0)}$为可去间断点。
- 第二类间断点:$x_0$处左极限或右极限至少有一个不存在。
- 介值定理:如果函数$f(x)$在闭区间$[a,b]$内连续,$c$是介于$f(a)$和$f(b)$之间的数,则存在$[a,b]$中某点$x$,使得$f(x)=c$。
1.1.5 上确界与下确界
- 上确界(Supremum,最小上界,$s\leq{t}$,记为$sup(S)$,存在则唯一)和下确界(Infimum,最大下界,$s\geq{t}$,记为$inf(S)$)可看作是集合最大值和最小值的推广。
1.1.6 利普希茨连续性
- Lipschitz连续不但保证函数值不间断,还限定函数变化速度:给定函数$f(x)$,如果对于区间$D$内任意两点$a$、$b$都存在常数K使得$$|f(a)-f(b)|\leq{K|a-b|}$$则称函数在区间内满足利普希茨条件/连续。如果$K\lt1$,则称函数为压缩映射。
- Lipschitz连续要求函数在区间上不能有超过线性的变化速度,对于分析和确保机器学习算法的稳定性有重要作用。
1.1.7 无穷小量
假设$f(x)$和$g(x)$都是$x\rightarrow{x_0}$的无穷小量(极限为0):
- $\displaystyle{\lim_{x\rightarrow{x_0}}{\frac{f(x)}{g(x)}=0}}$,该比值也是无穷小量,$f(x)$为$g(x)$的高阶无穷小,记为$f(x)=o(g(x))$。
- $\displaystyle{\lim_{x\rightarrow{x_0}}{\frac{f(x)}{g(x)}=c,c\neq0}}$,该比值的极限为非0有界变量,等价无穷小,记为$f(x)\sim g(x)$。
- $\displaystyle{\lim_{x\rightarrow{x_0}}{\frac{f(x)}{g(x)}=\infty}}$,该比值的极限为无界变量,低阶无穷小。
- 这些比值反映了无穷小量趋向于0的速度快慢。
1.2 导数与微分
1.2.1 一阶导数
- 导数的定义为函数的自变量变化值趋向于0时,函数变化量与自变量变化之间的比值:$$f^\prime(x)=\displaystyle{\lim_{\Delta x\rightarrow0}{\frac{f(x+\Delta x)-f(x)}{\Delta x}}}$$
- 单侧差分公式近似($\Delta{x}$的值接近于0):$\displaystyle{f^\prime(x)\approx\frac{f(x+\Delta x)}{\Delta x}}$
- 中心差分公式近似($\Delta{x}$的值为接近于0的正数):$\displaystyle{f^\prime(x)\approx\frac{f(x+\Delta x)-f(x-\Delta x)}{2\Delta x}}$
- 四则运算的求导公式:
$$
(f(x)\plusmn g(x))^\prime=f^\prime(x)\plusmn g^\prime(x)\
(cf(x))^\prime=cf^\prime(x)\
(f(x)g(x))^\prime=f^\prime(x)g(x)+f(x)g^\prime(x)\
\left(\frac{f(x)}{g(x)}\right)^\prime=\frac{f^\prime(x)g(x)-f(x)g^\prime(x)}{g^2(x)}\
(f(g(x)))^\prime=f^\prime(g(x))g^\prime(x)
$$
1.2.2 机器学习中的常用函数
- softplus函数:$f(x)=\ln(1+e^x)$,是ReLu函数在$\max(0,x)$的光滑近似。
- 如果一个函数所有不可导点的集合为有限集或无限可数集,则称该函数几乎处处可导。
1.2.4 微分
- 函数在某一区间有定义,关于$x$的增量$\Delta{x}$,如果函数的增量$\Delta{y}=f(x_0+\Delta{x})-f(x_0)$可以表示成$\Delta{y}=A\Delta{x}+o(\Delta{x})$,其中$A$是不依赖于$\Delta{x}$的常数,$o(\Delta{x})$是$\Delta{x}$的高阶无穷小,则称函数在$x_0$处可微。
- 如果函数可微,则导数与微分的关系为:$dy=f^\prime(x)dx$。微分用一次函数近似代替邻域内的函数值而忽略了更高次的项,几何意义是在点$(x_0,f(x_0))$处自变量增加$\Delta{x}$时切线函数$y=f^\prime(x_0)(x-x_0)+f(x_0)$的增量$f^\prime(x_0)\Delta{x}$。
1.2.5 导数与函数的单调性
- 由于导数是函数变化率的极限,因此如果在$x$点处它的值为正,则在该点处自变量增大时函数值也增大;如果为负,则自变量增大时函数值减小。
拉格朗日中值定理可证明
- 利用导数可以证明某些不等式,其思路是证明函数在某一区间内单调,因此在区间端点处取得极值。
1.2.6 极值判别法则
- 邻域内$\geq$、$\leq$为极值,去心邻域内$\gt$、$\lt$为严格极值。
- 费马(Fermat)定理:假设函数在$x_0$处可导,如果在$x_0$取得极值,必定存在$f^\prime(x_0)=0$。
可导函数取极值的一阶必要条件
- 驻点(Stationary point):导数等于0的点。
- 驻点处二阶导大于0为严格极小值,小于0为严格极大值。如果等于0,则假设$f^\prime(x_0)=\cdots=f^{(n-1)}(x_0)=0,f^{n}(x_0)\neq0$,当$n$为偶数时,$f^{n}(x_0)\gt0$为严格极小值,$f^{n}(x_0)\lt0$为严格极大值;当$n$为奇数,该点不是极值点。
二阶充分条件——可用泰勒公式证明
- 鞍点(Saddle point):该点不是极值点,会导致数值优化算法如梯度下降法无法找到真正的极值点。
1.2.7 导数与函数的凹凸性
- Mix定义域的值域$\left{f(\theta{x}+(1-\theta)y)\right}$与值域的Mix$\left{\theta f(x)+(1-\theta)f(y)\right}$之间的关系,连线在上为凸函数($\leq$),连线在下为凹函数($\geq$)(欧美标准)。
去掉等号的为严格凹凸函数
- 凸函数二阶导大于0,凹函数二阶导小于0,二阶导是凹凸函数的充分必要条件。
- 拐点:函数凹凸性的分界点,在拐点处二阶导为0,且两侧二阶导异号。
- 凸函数有优良的性质,可以保证优化算法找到函数的极小值点。
1.3 微分中值定理 Mean Value Theorem
1.3.1 罗尔(Rolle)中值定理
- 如果函数$f(x)$在闭区间$[a,b]$内连续,在开区间$(a,b)$内可导,且在区间的两个端点处的值相等$f(a)=f(b)$,则在区间$[a,b]$内至少存在一个点$\xi$使得$f^\prime(\xi)=0$。
可以使用费马定理证明
- 对于区间两端点处的函数值相等的函数,在区间内至少存在一点的导数值为0,该点处的切线与$x$轴平行。
1.3.2 拉格朗日(Lagrange)中值定理
- 如果函数$f(x)$在闭区间$[a,b]$内连续,在开区间$(a,b)$内可导,则在区间$[a,b]$内至少存在一个点$\xi$使得$\displaystyle{f^\prime(\xi)=\frac{f(b)-f(a)}{b-a}}$。
可以将函数剪掉一个线性函数构造出两个端点值相等的函数来证明
- 在区间$(a,b)$内至少存在一个点$\xi$,在$(\xi,f(\xi))$处的切线与两点之间的割线平行。
1.3.3 柯西(Cauchy)中值定理
函数$f(x),g(x)$在$[a,b]$内连续,在$(a,b)$内可导,且$\forall{x\in(a,b)},g^\prime(x)\neq0$,则存在$\xi\in(a,b)$使得$\displaystyle{\frac{f^\prime(\xi)}{g^\prime(\xi)}=\frac{f(b)-f(a)}{g(b)-g(a)}}$。可直接用Lagrange中值定理变形得到
1.4 泰勒公式
如果一个函数足够光滑且在某点处各阶导数均存在,以该点处的各阶导数作为系数,构造出多项式来近似函数在该点邻域中任意点处的函数值,此多项式被称为泰勒多项式(Taylor polynomial)。
$$
f(x)=f(a)+\frac{f^\prime(a)}{1!}(x-a)+\frac{f^{\prime\prime}(a)}{2!}(x-a)^2+\cdots+\frac{f^{(n)}(a)}{n!}(x-a)^n+R_n(x)
$$
- 当$R_n(x)=o((x-a)^n)$时,得到带皮亚诺余项的泰勒公式;
- 当$\displaystyle{R_n(x)=\frac{f^{(n+1)}(\theta)}{(n+1)!}(x-a)^{(n+1)}},\theta\in(a,x)$时,得到带拉格朗日余项的泰勒公式;
- 函数在$x=0$处的泰勒公式被称为麦克劳林(Maclaurin)公式。
泰勒公式建立了可导函数与其各阶导数之间的联系,同时用多项式对函数进行逼近。
1.5 不定积分
1.5.1 不定积分的定义与性质
- 不定积分是求导和微分的逆运算,记为$\int{f(x)dx}$,不定积分与原函数的关系为$\int{f(x)dx}=F(x)+C$。如果函数$f(x)$的原函数存在,则称其可积。
1.5.2 换元积分法
基于复合函数求导公式推出
- 凑微分法:$\int{f(u(x))u^\prime(x)dx}=\int{f(u)du}=F(u)$。
- 变量替换法:令$x=u(t)$,则$\int{f(x)dx}=\int{f(u(t))du(t)}$
1.5.3 分部积分法
基于乘法求导公式推出
$$\int{f(x)g^\prime(x)dx}=f(x)g(x)-\int{f^\prime(x)g(x)dx}$$
刘维尔定理指出,一个初等函数如果有初等的原函数,则它一定能写成同一个微分域的函数加上有限项该域上函数的对数的线性组合,否则不存在初等的原函数。
1.6 定积分
1.6.1 定积分的定义与性质
定积分将函数映射成实数,是和式的极限:$\displaystyle{\lim_{\Delta{x}\rightarrow0}\sum_{i=1}^{n}{f(\xi_i)\Delta{x_i}}}$,$n$表示将区间$[a,b]$分成$N$份,定积分被记为$\int_{b}^{a}f(x)dx$。
- 定积分具有线性性、区间可加性,将积分上下限颠倒,积分值相反。
1.6.2 牛顿-莱布尼茨公式 (Newton-Leibniz)
微积分基本定理,建立了定积分与原函数的关系。如果函数在区间$[a,b]$内可积,则在此区间内定积分的值等于其原函数在区间两个端点处函数值之差可用Lagrange中值定理证明
:
$$\int_{b}^{a}f(x)dx=F(x)|_a^b$$
1.6.4 变上限积分
积分上限为自变量$x$,变上限积分函数是被积分函数的一个原函数,概率论中连续随机变量的分布函数是典型的变上限积分函数。
1.6.6 广义积分
用于积分区间为无限或是积分区间有限但被积分函数无界的情况,又称反常积分。前者为无穷限广义积分,后者为瑕积分。
1.7 常微分方程
1.7.1 基本概念
微分方程(Differential Equation,DE)是含有自变量、函数与其导数的方程,方程的解是函数。
含有自变量、函数以及函数各阶导数的方程称为常微分方程(Ordinary DE,ODE),它的解为一元函数。
$$f(x,y^{(n)},\cdots,y^\prime,y)=0$$
- 如果微分方程式未知函数以及各阶导数的一次方程,则称为线性微分方程,否则非线性微分方程。
- 如果线性微分方程中未知函数项以及各阶导数项的系数都是常数,则称为常系数线性微分方程。
- 并非所有微分方程的解都存在。对于初值问题,Cauchy-Lipschitz定理给出了解的存在性和唯一性的判别条件。即使解存在,也只有少数简单的微分方程可以求得解析解。在无法求得解析解时,可以利用数值计算的方法近似求解,常用的有Runge-Kutta法和Richardson外推法。
1.7.2 一阶线性微分方程
- 齐次方程:$y^\prime+ay=0$
- 非齐次方程:$y^\prime+ay=b(x)$
利用指数函数的特性,方程两边同乘以$e^{ax}$
附录
Appx-I 常用极限
- $\displaystyle{\lim_{n\rightarrow+\infty}(1+\frac{1}{n})^n=e}$
- 当$x\rightarrow0$时,典型的等价无穷小:$sin(x)\sim{x},arcsin(x)\sim{x},tan(x)\sim{x},ln(1+x)\sim{x},e^x-1\sim{x},1-cos(x)\sim{\frac{x^2}{2}},\sqrt[n]{1+x}-1\sim{\frac{x}{n}},a^x-1\sim{x\ln(a)}$
Appx-II 基本函数的求导公式
基本函数 | 求导公式 |
---|---|
幂函数 | $(x^a)^\prime=ax^{a-1}$ |
指数函数 | $(a^x)^\prime=a^x\ln{a}$ |
对数函数 | $(\log_ax)^\prime=\frac{1}{\ln{a}}\frac{1}{x}$ |
三角函数 | $(sin(x))^\prime=cos(x)$ |
三角函数 | $(cos(x))^\prime=-sin(x)$ |
三角函数 | $(tan(x))^\prime=sec^2(x)$ |
三角函数 | $(cot(x))^\prime=-csc^2(x)$ |
反三角函数 | $(arcsin(x))^\prime=\frac{1}{\sqrt{1-x^2}}$ |
反三角函数 | $(arccos(x))^\prime=-\frac{1}{\sqrt{1-x^2}}$ |
反三角函数 | $(arctan(x))^\prime=\frac{1}{1+x^2}$ |
Appx-III 基本函数的麦克劳林公式
函数 | 麦克劳林公式 |
---|---|
$\frac{1}{1-x}$ | $1+x+x^2+\cdots+x^n+o(x^n)$ |
$e^x$ | $1+x+\frac{x^2}{2!}+\cdots+\frac{x^n}{n!}+o(x^n)$ |
$\sin x$ | $x-\frac{x^3}{3!}+\frac{x^5}{5!}-\cdots+\frac{(-1)^{n-1}x^{2n-1}}{(2n-1)!}+o(x^{2n-1})$ |
$\cos x$ | $1-\frac{x^2}{2!}+\frac{x^4}{4!}-\cdots+\frac{(-1)^nx^{2n}}{(2n)!}+o(x^{2n})$ |
$\ln(1+x)$ | $x-\frac{x^2}{2}+\frac{x^3}{3}-\cdots+\frac{(-1)^{n+1}x^n}{n}+o(x^n)$ |
Appx-IV 基本函数的积分公式
函数 | 积分公式 |
---|---|
常数函数 | $\int{a}dx=ax+C$ |
幂函数 | $\int{x^a}dx=\frac{1}{a+1}x^{a+1}+C,a\neq-1$ |
幂函数 | $\int{\frac{1}{x}}dx=\ln$|$x$|$+C$ |
指数函数 | $\int{e^x}dx=e^x+C$ |
指数函数 | $\int{a^x}dx=\frac{1}{\ln{a}}a^x+C,a>0,a\neq1$ |
三角函数 | $\int{sin(x)}dx=-cos(x)+C$ |
三角函数 | $\int{cos(x)}dx=sin(x)+C$ |
三角函数 | $\int{tan(x)}dx=-\ln$|$cos(x)$|$+C$ |
三角函数 | $\int{cot(x)}dx=\ln$|$sin(x)$|$+C$ |
三角函数 | $\int{\frac{1}{cos^2(x)}}dx=tan(x)+C$ |
三角函数 | $\int{\frac{1}{sin^2(x)}}dx=-cot(x)+C$ |
反三角函数 | $\int{\frac{1}{\sqrt{1-x^2}}}dx=arcsin(x)+C$ |
反三角函数 | $\int{\frac{1}{\sqrt{1-x^2}}}dx=-arccos(x)+C$ |
反三角函数 | $\int{\frac{1}{1+x^2}}dx=arctan(x)+C$ |
本作品采用 知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议 (CC BY-NC-ND 4.0) 进行许可。