pca锌（PCA）

1、PCA·1——主成分分析　　. 　　主成分分析（ Principal Component Analysis ， PCA ）是一种掌握事物主要矛盾的统计分析方法，它可以从多元事物中解析出主要影响因素，揭示事物的本质，简化复杂的问题。

【资料图】

2、计算主成分的目的是将高维数据投影到较低维空间。

3、给定 n 个变量的 m 个观察值，形成一个 n ′ m 的数据矩阵， n 通常比较大。

4、对于一个由多个变量描述的复杂事物，人们难以认识，那么是否可以抓住事物主要方面进行重点分析呢？如果事物的主要方面刚好体现在几个主要变量上，我们只需要将这几个变量分离出来，进行详细分析。

5、但是，在一般情况下，并不能直接找出这样的关键变量。

6、这时我们可以用原有变量的线性组合来表示事物的主要方面， PCA 就是这样一种分析方法。

7、　　PCA 主要用于数据降维，对于一系列例子的特征组成的多维向量，多维向量里的某些元素本身没有区分性，比如某个元素在所有的例子中都为1，或者与1差距不大，那么这个元素本身就没有区分性，用它做特征来区分，贡献会非常小。

8、所以我们的目的是找那些变化大的元素，即方差大的那些维，而去除掉那些变化不大的维，从而使特征留下的都是“精品”，而且计算量也变小了。

9、对于一个k维的特征来说，相当于它的每一维特征与其他维都是正交的（相当于在多维坐标系中，坐标轴都是垂直的），那么我们可以变化这些维的坐标系，从而使这个特征在某些维上方差大，而在某些维上方差很小。

10、例如，一个45度倾斜的椭圆，在第一坐标系，如果按照x,y坐标来投影，这些点的x和y的属性很难用于区分他们，因为他们在x,y轴上坐标变化的方差都差不多，我们无法根据这个点的某个x属性来判断这个点是哪个，而如果将坐标轴旋转，以椭圆长轴为x轴，则椭圆在长轴上的分布比较长，方差大，而在短轴上的分布短，方差小，所以可以考虑只保留这些点的长轴属性，来区分椭圆上的点，这样，区分性比x,y轴的方法要好！　　所以我们的做法就是求得一个k维特征的投影矩阵，这个投影矩阵可以将特征从高维降到低维。

11、投影矩阵也可以叫做变换矩阵。

12、新的低维特征必须每个维都正交，特征向量都是正交的。

13、通过求样本矩阵的协方差矩阵，然后求出协方差矩阵的特征向量，这些特征向量就可以构成这个投影矩阵了。

14、特征向量的选择取决于协方差矩阵的特征值的大小。

15、　　举一个例子：　　对于一个训练集，100个对象模板，特征是10维，那么它可以建立一个10*100的矩阵，作为样本。

16、求这个样本的协方差矩阵，得到一个10*10的协方差矩阵，然后求出这个协方差矩阵的特征值和特征向量，应该有10个特征值和特征向量，我们根据特征值的大小，取前四个特征值所对应的特征向量，构成一个10*4的矩阵，这个矩阵就是我们要求的特征矩阵，100*10的样本矩阵乘以这个10*4的特征矩阵，就得到了一个100*4的新的降维之后的样本矩阵，每个特征的维数下降了。

17、　　当给定一个测试的特征集之后，比如1*10维的特征，乘以上面得到的10*4的特征矩阵，便可以得到一个1*4的特征，用这个特征去分类。

18、　　所以做PCA实际上是求得这个投影矩阵，用高维的特征乘以这个投影矩阵，便可以将高维特征的维数下降到指定的维数。

19、　　PCA 的目标是寻找 r （ r<n ）个新变量，使它们反映事物的主要特征，压缩原有数据矩阵的规模。

20、每个新变量是原有变量的线性组合，体现原有变量的综合效果，具有一定的实际含义。

21、这 r 个新变量称为“主成分”，它们可以在很大程度上反映原来 n 个变量的影响，并且这些新变量是互不相关的，也是正交的。

22、通过主成分分析，压缩数据空间，将多元数据的特征在低维空间里直观地表示出来。

23、例如，将多个时间点、多个实验条件下的基因表达谱数据（ N 维）表示为 3 维空间中的一个点，即将数据的维数从 RN 降到 R3 。

24、　　在进行基因表达数据分析时，一个重要问题是确定每个实验数据是否是独立的，如果每次实验数据之间不是独立的，则会影响基因表达数据分析结果的准确性。

25、对于利用基因芯片所检测到的基因表达数据，如果用 PCA 方法进行分析，可以将各个基因作为变量，也可以将实验条件作为变量。

26、当将基因作为变量时，通过分析确定一组“主要基因元素”，它们能够很好地说明基因的特征，解释实验现象；当将实验条件作为变量时，通过分析确定一组“主要实验因素”，它们能够很好地刻画实验条件的特征，解释基因的行为。

27、下面着重考虑以实验条件作为变量的 PCA 分析方法。

28、假设将数据的维数从 R N 降到 R 3 ，具体的 PCA 分析步骤如下：　　(1) 第一步计算矩阵 X 的样本的协方差矩阵 S : 　　(2) 第二步计算协方差矩阵S的本征向量 e1,e2,…,eN的本征值 , i = 1,2,…,N 。

29、本征值按大到小排序：；　　(3)第三步投影数据到本征矢张成的空间之中，这些本征矢相应的本征值为。

30、现在数据可以在三维空间中展示为云状的点集。

31、　　对于 PCA ，确定新变量的个数 r 是一个两难的问题。

32、我们的目标是减小 r ，如果 r 小，则数据的维数低，便于分析，同时也降低了噪声，但可能丢失一些有用的信息。

33、究竟如何确定 r 呢？这需要进一步分析每个主元素对信息的贡献。

34、　　贡献率表示所定义的主成分在整个数据分析中承担的主要意义占多大的比重，当取前 r 个主成分来代替原来全部变量时，累计贡献率的大小反应了这种取代的可靠性，累计贡献率越大，可靠性越大；反之，则可靠性越小。

35、一般要求累计贡献率达到 70% 以上。

36、　　经过 PCA 分析，一个多变量的复杂问题被简化为低维空间的简单问题。

37、可以利用这种简化方法进行作图，形象地表示和分析复杂问题。

38、在分析基因表达数据时，可以针对基因作图，也可以针对实验条件作图。

39、前者称为 Q 分析，后者称为 R 分析。

本文到此讲解完毕了，希望对大家有帮助。

关键词：

pca锌（PCA）

瓷砖打孔技巧（瓷砖打孔用什...

最后一页

相关阅读

pca锌（PCA）

1、PCA·1——主成分分析 主成分分析（PrincipalComponentAnalysis，P

瓷砖打孔技巧（瓷砖打孔用什么不裂）

相信大家对瓷砖打孔技巧，瓷砖打孔用什么不裂的问题都很疑惑，这个问题

赖清德过境窜美后中方是否有计划开展新一轮军演？外交部回应

赖清德过境窜美后中方是否有计划开展新一轮军演？外交部回应

正海生物：预计公司的活性生物骨产品年内完成转产验证，明年正式上市销售

每经AI快讯，有投资者在投资者互动平台提问：公司曾多次重申“活骨”明

行业风向标 | 无惧干扰，把握优质银行的布局窗口期

7月社融新增5282亿元，同比少增2703亿元。社融较低的原因，一方面是住

《中国生态保护红线蓝皮书》发布 全国划定生态保护红线面积约319万平方公里

蓝皮书表示，全国划定生态保护红线面积合计约319万平方公里，涵盖我国

十年期国债收益率跌破2.6%创两年新低 国债期货全线大涨

上证报中国证券网讯（记者孙忠）15日，央行调降了MLF和逆回购操作利率

获5亿美元战投、将不再是恒大全资附属公司，恒大汽车早盘大涨45%

8月14日晚，中国恒大发布公告称，作为债务重组的一部分，公司及其他方

河南队擅长“苟着踢”！大连人继续坐镇普湾福地疯抢开局，赵健博搭档林良铭

比赛第2分钟，科维奇就打一粒点射，这也是全场唯一进球。津门虎输球后

综合施策确保工业平稳运转

入夏以来，我国多地出现较长时间高温天气。要在科学研判基础上出台有针

伦敦一审计公司及高管因审计缺陷遭SEC指控

美国证券交易委员会（SEC）当地时间8月14日公告，其对伦敦审计公司Crow

男子存400万到期后取钱被告知存单是假的，法院判赔偿本金及利息

浙江，义乌。朱先生一直相信银行，信任那厚重的铁门后面的安全感。然而

未结婚的女孩可以吃兔肉吗?

原先的人不吃兔肉，主要有以下几个方面:一是兔子长的比较可爱，女孩儿

玢用于人名念什么意思 玢用于人名念什么

0471房产来为大家解答以上的问题。玢用于人名念什么意思，玢用于人名念

蔡澜提醒：人到晚年才明白，人生最大的依仗不是伴侣，也不是子女，而是这个人

说到“风流才子”蔡澜，想必很多人都不陌生。蔡澜是著名的作家、美食家

河南省教育厅关于公布2023年河南省中等职业教育教学能力大赛获奖名单的通知

各省辖市、济源示范区、航空港区、省直管县（市）教育局，各省属中等职

情妇垄断医院医用耗材和设备？深圳南山医院书记邓某被举报 当地卫健部门称纪检部门介入调查

近日，网传“深圳南山医院整形科某医师刘某每年药品回扣十几万等，官方

多家银行“扎堆”下调存款利率

8月以来，澄海农商行、夷陵兴福村镇银行、上海浦东江南村镇银行等多家

科大讯飞：董事长刘庆峰8月14日通过大宗交易系统卖出公司1.73%股份

科大讯飞公告，公司于2023年8月14日接到董事长刘庆峰先生通知，2023年8

生成式AI为供应链自动化提供新机遇 跨国公司受益良多

德国等国的新供应链法律要求企业监控其供应链中的环境问题，这推动了对

湖北十堰市三个重大林业项目可行性研究报告获发改委批复

湖北天门生物医药产业在创新绿色发展新赛道上加速迭代

2021中国攀岩自然岩壁系列赛（重庆奉节站）暨年度总决赛结束

推动侦查办案工作高质量发展 京津冀三地检察机关召开交流研讨会

感动！牺牲移民管理警察蔡晓东妻子的朋友圈令人破防……

1、PCA·1——主成分分析　　　　主成分分析（PrincipalComponentAnalysis，P

《中国生态保护红线蓝皮书》发布全国划定生态保护红线面积约319万平方公里

十年期国债收益率跌破2.6%创两年新低国债期货全线大涨

玢用于人名念什么意思玢用于人名念什么

情妇垄断医院医用耗材和设备？深圳南山医院书记邓某被举报当地卫健部门称纪检部门介入调查

生成式AI为供应链自动化提供新机遇跨国公司受益良多

推动侦查办案工作高质量发展京津冀三地检察机关召开交流研讨会