自适应核密度


Chapter 1. 核函数

核函数是直方图在连续欧几里得空间上的推广。我们知道,如果想要了解一个直方图内部每个bins的密度值,只需要将bins的数量除以bins的长度就好了。

那么如果推广到连续值上呢?根据导数的定义,这个公式可以写作:

f(x)=limh0F(x+h)F(xh)2hf(x)=\lim_{h\to0}\frac{F(x+h)-F(x-h)}{2h}

我们对某个点x0x_0求密度,可以看做是区间h0h\to0的密度公式,写作:

f^(x0)=12hlimh0Nxi[xh,x+h]Ntotal\hat{f}(x_0)=\frac{1}{2h}\lim_{h\to0}\frac{N_{xi\in[x-h,x+h]}}{N_{total}}

然后,对这个领域内的密度取平均值,就可以得到了x0x_0处的密度函数值,也就是将上述式子的NxiN_{xi}改写成i=xhx+hxi\sum_{i=x-h}^{x+h}x_i

f^(x0)=12hlimh0i=xhx+hxiNtotal=1hNtotalixix02h<1,h0\hat{f}(x_0)=\frac{1}{2h}\lim_{h\to0}\frac{\sum_{i=x-h}^{x+h}x_i}{N_{total}}=\frac{1}{hN_{total}}\sum_i\frac{|x_i-x_0|}{2h}<1,h\to0

这个式子的结果与hh,也就是带宽有关。

我们假设一个映射K(x)K(x)<!swig0>21(x<0)\frac1{2}1(x<0),那么上式可改写为:

f^(x0)=1hNtotaliK(xix0h),h0\hat{f}(x_0)=\frac{1}{hN_{total}}\sum_iK(\frac{|x_i-x_0|}{h}),h\to0

由于需要满足概率密度的积分值为1,对其积分得到:

f^(x0)=1hNtotaliK(xix0h)dx =1NtotaliK(t)dt =K(t)dt\int\hat{f}(x_0)=\frac{1}{hN_{total}}\sum_i\int K(\frac{|x_i-x_0|}{h})dx\\\ \\=\frac{1}{N_{total}}\sum_i\int K(t)dt\\ \ \\=\int K(t)dt

也就是说,我们只需要满足让这个映射K(t)K(t)的积分为1,就能够满足f^(x)\hat{f}(x)的积分为1。

一个比较自然的想法就是,利用其他的分布的密度函数作为K。比如正态分布的函数作为K,那么,上式就变成了:

f^(x)=1nhi=1Nϕ(xxih)\hat{f}{(x)}=\frac{1}{nh}\sum_{i=1}^N\phi(\frac{x-x_i}{h})

这个密度函数的估计就变得可导了,而且积分积起来等于1。直觉上,上式就是一个加权平均,离x越近的权重越高。而最开始的估计方式则是在区间内权重相等,区间外权重为0。

下图是各种核密度函数的图。他们的共同点是:周围到中间是个非递减函数,积分为1。当然,不是说核密度一定要是中心趋向,但是一定要积分为1.

image-20221203184520026

Chapter 2. 带宽

核密度中的带宽,就是波及区间,或者可以想象成一个气体从原点xx向外扩散,时间tt越长,扩散所波及的范围越大。这个时间tt就是所谓的带宽。那么在空间上,带宽hh可以简单的视作卷积范围,也就是最远能达到的位置。

带宽,决定了核函数中彼此的落差,也就是“方差”,不同的带宽得到的结果会呈现一个比较高的差异。较小的带宽,会聚焦某一点的范围,从而忽略局部特征,较大的带宽,又会让数据趋于平庸和同质化。(是不是和卷积核很像!那么卷积核都能有Deformable,带宽是不是也能Adaptable呢)

一种非常常用的方式是使用最小化L2函数(MISE 平均积分平方误差),可以写作:

MISE(h)=E[(f^h(x)f(x))2 dx]MISE(h)=E[\int(\hat{f}_h(x)-f(x))^2\ dx]

为了让MISE最小,我们对hh求导,就可以确定一种方差最小的带宽选择方案。

总而言之,自适应带宽的核密度估计方法是在固定带宽核密度函数的基础上,通过修正带宽参数为而得到的,其形式如式所示:

image-20221203185304860

Chapter 3. 自适应核密度与空间人文赋能的自适应搜索半径

前文已经提到,自适应核密度的带宽是基于周边邻域MISE最小化的思想进行的,是基于统计学上的。在空间上,表现与周边其他点的密度有关。这种自适应带宽并不会考虑实际容纳量,是一种理想的无限熵增模型,自适应的带宽不具备普适解释性。而空间人文赋能的自适应搜索半径方法,是由数据导向,数据驱动,与实际问题形成闭环,具有时空解释性。自适应半径是对核密度函数的优化,本征表现为该区域潜在的倾向密度值,在本文的模型中,摒弃了统计意义上的自适应变换,提出了相对切实的自适应半径,意图在有限的样本中找到更好、更有人文气息的较优解。再有,传统的核密度是基于连续点的,实际上,空间上的避难所和居民点是离散分布的,使用自适应核密度,难免落入较大的低洼,不能很好的贴合数据,是一种比较病态的解法。