目录
前言
当前项目中需要对所有图表计算它们之间的相似性,我们通过计算两两图表间的欧式距离来衡量其相似性。然而直接使用图表的原始数据进行计算会导致即使图表相似性极高但因为数据范围差别过大而失败,这里我们考虑对原始数据进行处理,将所有数据映射到某一个固定区间之内再计算。
这里就用到了特征缩放(Feature scaling),特征缩放(Feature Scaling)是将不同特征的值量化到同一区间的方法,也是预处理中容易忽视的关键步骤之一。这里,就要了解一些具体的方法:标准化(Standardization)和归一化(Normalization)。
以下内容如有误漏敬请指正。
归一化(Normalization)
概念:
将数据映射到[0,1]或[-1,1]区间内,不会改变数据的特征(?),将有量纲的表达式转换成无量纲的表达式,即标量。
常用方法:
min-max normalization:
min(x):样本最小值,max(x):样本最大值,但是最大最小值容易受到异常点的影响,健壮性比较差,使用于传统的精确小数据。
Mean normalization:
average(x):样本均值。
标准化(Standardization):
概念:
将数据标准化处理之后,均值变为0,方差变为1,即服从标准正态分布。
常用方法:
z-score标准化:
σ:样本标准差。
如何选择以上两种方法
- 如果对输出结果范围有要求,用归一化。
- 如果数据较为稳定,不存在极端的最大最小值,用归一化。
- 如果数据存在异常值和较多噪音,用标准化,可以间接通过中心化避免异常值和极端值的影响。
由于我们的数据量较小,而且比较精确,因此我们选择了min-max normalization方法。
欧氏距离(Euclidean Distance)
概念:
欧氏距离(又称欧几里得度量),是指n维空间中两个点之间的真实距离。在二维和三维空间中是两个点直接的实际距离。
计算公式:
向量1:(x1,x2,…,xn),向量2(y1,y2,…,yn)。
拓展:
曼哈顿距离:
是两个点在标准坐标系上的绝对轴距总和。
在二维平面中,d(i,j)=|X1-X2|+|Y1-Y2|.
绿线为欧氏距离,其他为曼哈顿距离。
切比雪夫距离:
两个点之间其各座标数值差绝对值的最大值。
在二维平面中,d=max(|x2-x1|,|y2-y1|).
闵氏距离:
又称闵可夫斯基距离,是欧氏空间中的一种测度,被看做是欧氏距离的一种推广,欧氏距离是闵可夫斯基距离的一种特殊情况。
当p为2时为欧氏距离,当p为时为曼哈顿距离,当p→∞时为切比雪夫距离。
参考文献
[1] https://www.jianshu.com/p/95a8f035c86c
[2] https://www.zhihu.com/question/20467170
[3] http://www.cnblogs.com/zhaokui/p/5112287.html
[4] https://en.wikipedia.org/wiki/Feature_scaling
[5] https://en.wikipedia.org/wiki/Normalization_(statistics)
[6] https://baike.baidu.com/item/%E7%89%B9%E5%BE%81%E7%BC%A9%E6%94%BE/17415222?fr=aladdin
[8] https://baike.baidu.com/item/%E6%9B%BC%E5%93%88%E9%A1%BF%E8%B7%9D%E7%A6%BB
[9] https://baike.baidu.com/item/%E5%88%87%E6%AF%94%E9%9B%AA%E5%A4%AB%E8%B7%9D%E7%A6%BB