自适应核密度
Chapter 1. 核函数
核函数是直方图在连续欧几里得空间上的推广。我们知道,如果想要了解一个直方图内部每个bins的密度值,只需要将bins的数量除以bins的长度就好了。
那么如果推广到连续值上呢?根据导数的定义,这个公式可以写作:
f(x)=h→0lim2hF(x+h)−F(x−h)
我们对某个点x0求密度,可以看做是区间h→0的密度公式,写作:
f^(x0)=2h1h→0limNtotalNxi∈[x−h,x+h]
然后,对这个领域内的密度取平均值,就可以得到了x0处的密度函数值,也就是将上述式子的Nxi改写成∑i=x−hx+hxi:
f^(x0)=2h1h→0limNtotal∑i=x−hx+hxi=hNtotal1i∑2h∣xi−x0∣<1,h→0
这个式子的结果与h,也就是带宽有关。
我们假设一个映射K(x)为!<−−swig0−−>21(x<0),那么上式可改写为:
f^(x0)=hNtotal1i∑K(h∣xi−x0∣),h→0
由于需要满足概率密度的积分值为1,对其积分得到:
∫f^(x0)=hNtotal1i∑∫K(h∣xi−x0∣)dx =Ntotal1i∑∫K(t)dt =∫K(t)dt
也就是说,我们只需要满足让这个映射K(t)的积分为1,就能够满足f^(x)的积分为1。
一个比较自然的想法就是,利用其他的分布的密度函数作为K。比如正态分布的函数作为K,那么,上式就变成了:
f^(x)=nh1i=1∑Nϕ(hx−xi)
这个密度函数的估计就变得可导了,而且积分积起来等于1。直觉上,上式就是一个加权平均,离x越近的权重越高。而最开始的估计方式则是在区间内权重相等,区间外权重为0。
下图是各种核密度函数的图。他们的共同点是:周围到中间是个非递减函数,积分为1。当然,不是说核密度一定要是中心趋向,但是一定要积分为1.
Chapter 2. 带宽
核密度中的带宽,就是波及区间,或者可以想象成一个气体从原点x向外扩散,时间t越长,扩散所波及的范围越大。这个时间t就是所谓的带宽。那么在空间上,带宽h可以简单的视作卷积范围,也就是最远能达到的位置。
带宽,决定了核函数中彼此的落差,也就是“方差”,不同的带宽得到的结果会呈现一个比较高的差异。较小的带宽,会聚焦某一点的范围,从而忽略局部特征,较大的带宽,又会让数据趋于平庸和同质化。(是不是和卷积核很像!那么卷积核都能有Deformable,带宽是不是也能Adaptable呢)
一种非常常用的方式是使用最小化L2函数(MISE 平均积分平方误差),可以写作:
MISE(h)=E[∫(f^h(x)−f(x))2 dx]
为了让MISE最小,我们对h求导,就可以确定一种方差最小的带宽选择方案。
总而言之,自适应带宽的核密度估计方法是在固定带宽核密度函数的基础上,通过修正带宽参数为而得到的,其形式如式所示:
Chapter 3. 自适应核密度与空间人文赋能的自适应搜索半径
前文已经提到,自适应核密度的带宽是基于周边邻域MISE最小化的思想进行的,是基于统计学上的。在空间上,表现与周边其他点的密度有关。这种自适应带宽并不会考虑实际容纳量,是一种理想的无限熵增模型,自适应的带宽不具备普适解释性。而空间人文赋能的自适应搜索半径方法,是由数据导向,数据驱动,与实际问题形成闭环,具有时空解释性。自适应半径是对核密度函数的优化,本征表现为该区域潜在的倾向密度值,在本文的模型中,摒弃了统计意义上的自适应变换,提出了相对切实的自适应半径,意图在有限的样本中找到更好、更有人文气息的较优解。再有,传统的核密度是基于连续点的,实际上,空间上的避难所和居民点是离散分布的,使用自适应核密度,难免落入较大的低洼,不能很好的贴合数据,是一种比较病态的解法。