定义
z分数(z-score, standard score)是一种常见的数据标准化手段,公式如下:
这里,μ是变量X(X=x1,x2,…)的均值,σ是变量X的标准差。从定义式上很容易证明,标准化后的变量Z具有均值为0、标准差为1的特点。
用途[1]
(1)z检验。计算z分数可以得到任意一个样本在一个已知均值、标准差的正态分布总体的相对百分比位置,因此可以凭借该统计量来判断一组样本是否来自于上述的正态分布总体。
(2)比较不同尺度下的两个变量。一个通俗的例子是,如何判断一名高中考生的数学成绩还是理科综合成绩更加优异。由于数学成绩的范围是0~150,理综的范围是0~300,因此两个变量的尺度并不相同。在已知全市考生数学、理综成绩的平均值和标准差后,可以分别计算该考生两科的z分数,从而得到在全是考生中的相对排名百分比,从而实现数学和理综成绩哪个更加突出的比较。
(3)PCA前数据的标准化。PCA需要找到一个更具有解释性的主成分方向,然而不同维度的数据尺度并不一致,PCA不应该对数据的数值范围敏感,也就是某个维度数据的大小分布和决定它是否是主成分无关,因此在进行PCA前往往要对数据进行z分数标准化。
在荧光数据分析时采用z分数
许多生物荧光成像后的数据分析都喜欢采用z分数,这是因为z分数可以很好地避开神经元所处焦平面不同带来的基础亮度差异。换句话说,离焦的神经元非常暗淡,其亮度变化肯定不如位于焦平面中心的神经元亮度变化剧烈,但这并不能理解为离焦的神经元不活跃。因此,在计算z分数时,每个神经元会依照自己的波动范围σ为参照,来衡量每一次钙瞬变。
ΔF/F和z分数的选择
在钙荧光成像数据处理中往往会在这两个归一化方法中选择。ΔF/F,尤其是减圆环法计算所得的ΔF/F,能够真实地反映神经元相对背景亮度的相对变化,同时排除了由于z方向光污染带来的影响,因此被大力推崇。但是,当数据信噪比较低的时候,计算ΔF/F有着很高的风险,因为引入视频背景、圆环信号等会额外增加在神经元信号中的噪声水平,此时采取z分数归一化会更加合适,因为归一化过程只用到了自身信号的信息,而没有引入额外的噪声。
参考文献
[1] Standard score, Wikipedia, https://en.wikipedia.org/wiki/Standard_score, October 24,2020.