通径分析 - 豆丁网,在科学研究中常常要研究相关变量间的线性关系。研究二个相关变量间的线性关系时可采用直线回归分 析与相关分析。 在研究多个相关变量间的线性关系时:如研究 y单株 产量与 粒重的关系,可采用多元线性回归分析与偏相关分析。还可以采用本章新 介绍的通径分析。通径分析具有精确、直观的优点,在遗 传育种学中,在分析相关变量关系中,有着十分重要的应 其中y—后果依变量;x 例如子代 父、母无亲缘关系 例如黄牛体重饲料 ,表示变量间呈因果关系,方向由原因到结果。相关线——箭形图中的双箭头“ ,表示变量间呈平行关系。一条相关线相当于两条尾端相联的通径。 通径图——表示相关变量间呈因果关系或平行关系的箭形图。 通径系数与决定系数通过作通径图,形象直观地表达了相关变量间的关系,但这是定 性地表达。仅定性表达还不够,还须进一步用数量表示因果关系 中原因对结果影响的相对重要程度与性质,平行关系中变量间相 关的相对重要程度与性质。换句话说还须用数量表示“通径”与 相关线”的相对重要程度和性质,也就是将“通径”、“相关线”、“通径图”数量化。 表示“通径”相对重要程度和性质的数量叫通径系数。 表示“相关线”相对重要程度和性质的数量叫相关系数。 的相关系数r12 的计算公式为: 下面给出通径系数的确切定义与数学表达式。 其中。表示这三个相关变量间关系的通径 图见图 SSSS SP 用标准差标准化,变为不带单位的相对数,再研究标准化变量的线性 关系。 是变量标准化的偏回归系数,分别称为 对y影响的相对重要程度和性质;表示误差e对y影响的相对重要程度和性质, 二、通径系数与相关系数的关系对于 SSSS SSSS SP SSSS SP 与y的相关系数r10 。但二者是有实质区别的,因为通径系数表达的 是因果关系,而相关系数表达的是平行关系。 在一定条件下,这个结论对于多元线 小结: 通径系数是标准化变量的偏回归系数,是没有单位的偏回归系数; 就通径系数所表示的因果关系来说,具有回归系数的性质;就通径系数是不带有单位的相对数来说,又具有相关系数的性质。 所以可以说通径系数是兼有回归系数与相关系数性质的一个统 计量。 11 三、通径系数的性质 定理1 12证明一: 13通径分析:对于r 10 02直接通径: 01——直接作用 间接通径: ——间接作用通径链指间接通径包括直接通径。 并定义通径链系数为组成该通径链的全部通径与相关 线系数的乘积。 表明:x 的相关系数r10 等于x 01与间接通径系数r 12 02之和,即x 的相关系数r10 01可作同样分析。 14 将一改写为: 此为通径系数P 01 2010 2112 2110 15证明 独立无关;Cov 162P 共同对结果y的相对决定程度,叫做相关原因x 共同对结果y的决定系数,记为d 12,于是得 20分别称为 SSr——标准化变量的离回归平方和,以后证明:SSy=1 SSSS 18推广:若 的正规方程组,其矩阵形式为:若记正规方程组的系数矩阵为 R、未知元列向量为 P、常数项列向量为 2110 2010 所以从而有 的总贡献。20 定理2 21推广:若 22定理3 23证明 24证明 25定理4 26定理5 两个结果的相关系数等于连接 它们的全部通径链系数之和。 例如 3223 27又如 4334 42 24 32 23 28一般,若 开始不再涉及误差项,这是因为误差项与各自变量独立,考虑误差项与不考虑误差项结 论相同。但在进行性状相关的通径分析时,则须考虑误 可以计算任意两个结果间的相关系数。定理 29能否正确地找出连接二个变量间的全部通径链是利用通径分析计算变 量间相关系数的关键。确定通径链有如下几条原则: 1230 通径链可以是连续后退或连续前进,也可以是先连续后退再连续前进,中途仅改变一次方向。 ,其中,后两条是不同的通径链,但重复通过了相关线条:一条是经过直接原因的通径链y 33从而 那就错了,因为这犯了重复的错误。在有直接原因与间接原因的情况下, 或者利用直接原因而不利用间接原因,或者利用间接原因而不利用直接原因, 但决不能二者同时利用。显然利用直接原因简便得多,且不容易出错。我们 约定,为了避免重复,仅利用直接原因,而不利用间接原因。 结束放映34 计算一代双堂兄弟间的亲缘系数。祖代 10因为在随机交配下,一个个体代的通径系数等于 10所以 35四、性状相关的通径分析 36利用此方程组求通径系数,并进行 直接作用间接作用分析 0j从而进行 决定程度分析。 的总贡献据此进行 2110 奶牛第一胎产奶量是奶牛的重要育种目标,由于奶牛的一个产奶周期较长305 的主要因素,这对保证早期选种的准确性、加速奶牛的育种工作有其重要意义。某奶牛场观察记载了273 头黑白花奶牛的一胎305 ,最高日产x4 五个性状 料引自焦骅等《应用多元回归预测奶牛第一胎产奶量的探讨》。现对此五 个性状的相关进行通径分析。 x4n=273 38 05271 01271 15839 0i正规方程组为: 下面利用Gauss- Dool 1741 的直接作用与间接作用分析直接作用 1384通过x 0210通过x 0704通过x 202642 的直接作用与间接作用分析直接作用 1590通过x 0183通过x 7458通过x 764443 表9-5 x3 对y的直接作用与间接作用分析 直接作用 7791通过x 0125通过x 1552通过x 798244 的直接作用与间接作用分析直接作用 1791通过 0120通过 1475通过 756145 的间接作用较小,此时r10 接近x 以及最高日产天数x 对一胎305天产奶量y的间接作用均为正,且较大,反 而使r 20 变为0 7644,此时,若由r 20 对y的直接作用大小和性质下结论,显著是错误的。由此可见,通径分析比简单相关系数分 析更深入、更精确。对于多个相关变量间关系的研究一般不宜从简单相 关分析中提取结论,而应采用多元线性回归分析、偏相关分析以及这里 所介绍的通径分析等方法来进行分析。 对表2- 6可作类似的分析。46 为了简便起见,可将表9- 直接作用与间接作用分析间接作用 性状 相关 系数r 直接作用P 其中通过x 719847 决定程度分析按公式 48根据以上的计算与分析,我们得出以下结论: 是影响一胎305天产奶量y的最重要的早期产奶性状。这是因为x 对y的直接作用为07791,其绝 对值居各通径系数之首;x 的相对决定程度为06070, 其绝对值亦居各决定系数之首;且x 的总贡献为06218, 误差项即剩余项 对一胎 305 的相对决定程度为 3416,其绝对值在各决定系数中居第二,表明或者观察值误差较大或者可能还有对一胎 305 影响较大的性状或因素未被考虑到。49 390 与最高日产x4共同对一胎305 产奶量y的相对决定程度为02475,其绝对值在各决 定系数中居第三;且x4 对R2 的总贡献中居第二,说 明在注意90 的同时,还应注意最高日产x4 这一早期产奶性状,若二者皆高,则一胎 305 奶量很可能也是高的,由于r34=09239**;即x3 x4极显著正相关,二性状同步增减,二性状皆高易于 实现。 50 共同对一胎305 。所以当注意了90 不要太高,否则会影响一胎 305 其余决定系数的绝对值较小,对一胎305 响不大。因此,为了选取一胎 305 虑的四个早期产奶性状而言,应注选取90 高日产量高而最高月产量适中的奶牛;此外,还应进一步寻找对奶牛一胎 305 天产奶量影响较大的另外的性状或因 51比较通径分析和多元线性回归分析 通径分析中剩余项决定系数的意义 如何正确确定通径链 研究性状相关的通径分析 52