自适应核密度

Chapter 1. 核函数

核函数是直方图在连续欧几里得空间上的推广。我们知道，如果想要了解一个直方图内部每个bins的密度值，只需要将bins的数量除以bins的长度就好了。

那么如果推广到连续值上呢？根据导数的定义，这个公式可以写作：

$f(x)=\lim_{h\to0}\frac{F(x+h)-F(x-h)}{2h}$

我们对某个点 $x_0$ 求密度，可以看做是区间 $h\to0$ 的密度公式，写作：

$\hat{f}(x_0)=\frac{1}{2h}\lim_{h\to0}\frac{N_{xi\in[x-h,x+h]}}{N_{total}}$

然后，对这个领域内的密度取平均值，就可以得到了 $x_0$ 处的密度函数值，也就是将上述式子的 $N_{xi}$ 改写成 $\sum_{i=x-h}^{x+h}x_i$ ：

$\hat{f}(x_0)=\frac{1}{2h}\lim_{h\to0}\frac{\sum_{i=x-h}^{x+h}x_i}{N_{total}}=\frac{1}{hN_{total}}\sum_i\frac{|x_i-x_0|}{2h}<1,h\to0$

这个式子的结果与 $h$ ，也就是带宽有关。

我们假设一个映射 $K(x)$ 为 $\frac1{2}1(x<0)$ ，那么上式可改写为：

$\hat{f}(x_0)=\frac{1}{hN_{total}}\sum_iK(\frac{|x_i-x_0|}{h}),h\to0$

由于需要满足概率密度的积分值为1，对其积分得到：

$\int\hat{f}(x_0)=\frac{1}{hN_{total}}\sum_i\int K(\frac{|x_i-x_0|}{h})dx\\\ \\=\frac{1}{N_{total}}\sum_i\int K(t)dt\\ \ \\=\int K(t)dt$

也就是说，我们只需要满足让这个映射 $K(t)$ 的积分为1，就能够满足 $\hat{f}(x)$ 的积分为1。

一个比较自然的想法就是，利用其他的分布的密度函数作为K。比如正态分布的函数作为K，那么，上式就变成了：

$\hat{f}{(x)}=\frac{1}{nh}\sum_{i=1}^N\phi(\frac{x-x_i}{h})$

这个密度函数的估计就变得可导了，而且积分积起来等于1。直觉上，上式就是一个加权平均，离x越近的权重越高。而最开始的估计方式则是在区间内权重相等，区间外权重为0。

下图是各种核密度函数的图。他们的共同点是：周围到中间是个非递减函数，积分为1。当然，不是说核密度一定要是中心趋向，但是一定要积分为1.

Chapter 2. 带宽

核密度中的带宽，就是波及区间，或者可以想象成一个气体从原点 $x$ 向外扩散，时间 $t$ 越长，扩散所波及的范围越大。这个时间 $t$ 就是所谓的带宽。那么在空间上，带宽 $h$ 可以简单的视作卷积范围，也就是最远能达到的位置。

带宽，决定了核函数中彼此的落差，也就是“方差”，不同的带宽得到的结果会呈现一个比较高的差异。较小的带宽，会聚焦某一点的范围，从而忽略局部特征，较大的带宽，又会让数据趋于平庸和同质化。(是不是和卷积核很像！那么卷积核都能有Deformable，带宽是不是也能Adaptable呢)

一种非常常用的方式是使用最小化L2函数(MISE 平均积分平方误差)，可以写作：

$MISE(h)=E[\int(\hat{f}_h(x)-f(x))^2\ dx]$

为了让MISE最小，我们对 $h$ 求导，就可以确定一种方差最小的带宽选择方案。

总而言之，自适应带宽的核密度估计方法是在固定带宽核密度函数的基础上，通过修正带宽参数为而得到的，其形式如式所示：

Chapter 3. 自适应核密度与空间人文赋能的自适应搜索半径

前文已经提到，自适应核密度的带宽是基于周边邻域MISE最小化的思想进行的，是基于统计学上的。在空间上，表现与周边其他点的密度有关。这种自适应带宽并不会考虑实际容纳量，是一种理想的无限熵增模型，自适应的带宽不具备普适解释性。而空间人文赋能的自适应搜索半径方法，是由数据导向，数据驱动，与实际问题形成闭环，具有时空解释性。自适应半径是对核密度函数的优化，本征表现为该区域潜在的倾向密度值，在本文的模型中，摒弃了统计意义上的自适应变换，提出了相对切实的自适应半径，意图在有限的样本中找到更好、更有人文气息的较优解。再有，传统的核密度是基于连续点的，实际上，空间上的避难所和居民点是离散分布的，使用自适应核密度，难免落入较大的低洼，不能很好的贴合数据，是一种比较病态的解法。