数字困惑,统计是如何影响我们的生活的?

秦朝末年,陈胜、吴广就喊出了“达官贵人,宁有种乎”的标语,有幅名联也说“自古英雄多患难,纨绔后辈少伟男”,可是统计学却给了我们纷歧样的谜底。上千年的科举测验的成果统计显示,身世农村的进士比例只占50%强,其余都是身世官吏贵族,而那时中国生齿90%以上都身居农村,这还包罗了中小田主家庭,这样一比力的话,真正身世农人家庭的进士的比例就更少了。就连今天在号称平易近本家儿的美国,你也能看见这种现象,总统老布什的儿子小布什也是总统,而肯尼迪家族事实上已经是个政治上的贵族家庭,固然平易近本家儿概况上可以做到人人都有平等竞争的机遇,但统计数字告诉我们,现实上生于官宦家庭的人进入上流社会的机遇更多。

这申明,统计能经常批改我们对社会现象的固有直觉。

抛硬币也需要统计

就连最简单的抛硬币,我们都离不开统计的帮忙。

抛硬币是一种古老的、我们认为最公允的赌钱体例。人们一般相信,硬币落下后正背面朝上的概率各占50%,是以人们在进行两难选择时喜好用抛硬币的体例来决议,如足球角逐开场时,裁判城市把两边的队长叫过来,从口袋中掏出一枚硬币,让队长们各选一面,然后抛标的目的空中。若是不是科场规律不许可,必然也会有人在科场上抛硬币来做选择题,因为我们都相信,硬币落下后正背面朝上的概率各占50%,这样至少我们有一半的机遇做出准确的选择。

既然抛硬币的机遇是50%,那我们持续抛好几回硬币,是不是正反两面的次数都一样呢?

二战时,有位数学家被关进了集中营,德国士兵夺走了他的一切,却不测地留给了他一枚硬币,或许这是对他数学家身份的“优待”。作为一个数学家,在集中营里他能做什么呢?在士兵的机枪下,他起头抛硬币,用横与竖代表正面和背面,把成果刻在集中营的墙壁上。

他抛10次的成果,有7次正面朝上,正面比背面多4次,正面朝上的次数占70%;抛20次,有13次正面朝上,比背面多6次,占65%??

当他抛到10000次时,背面5061次,反而比正面多了122次,占50.61%;最后他一共抛了80640次,背面40641次,多出正面642次,占50.39%。

他抛的8万多次中,只是在抛第142次时,呈现了正背面各71次的成果,其他时辰,正背面呈现的次数都不相等。

这位数学家发现,尽管正背面呈现次数的差距有时拉大有时缩小,但总体来说,跟着抛的次数的增多,正面与背面呈现次数的差距会逐渐增大,不外各自所占的比例,却大体味越来越接近50%,却几乎不会刚好等于50%。而我们抛有限的几回,正归正好参半的机遇是很小的。

在这里,统计学让我们领会到抛硬币的纪律也不克不及想当然。

“死”也躲不开的统计

统计就是经由过程大量的数据在某些看似没有纪律的事务中找出运行的纪律,精确的统计数据能帮忙我们对纷繁复杂的社会现象进行心猿意马量阐发,从而为我们在做展望时供给参考。正因为如斯,统计已经进入人类社会糊口的方方面面。

我国每10年会进行一次全国生齿普查,到时辰会有大量的自愿者敲开各家各户的大门,让他们填写表格。从普查后的数据中可以找出生齿转变的环境,像男女比例、各春秋段生齿比率、就业率、出生和灭亡率等,这可都是关系到国计平易近生的大事。

不仅国度需要这些生齿信息,企业也需要这些信息指导本身的持久经营。保险公司知道了生齿的灭亡率,才可以计较出应该收几多保险费,太贵了,没有人投保,太廉价了,赔的钱跨越了收的钱,可要赔本的。

企业经营也需要进行统计。没准什么时辰,你在家里会俄然收到一个德律风,本来是电视台打来的,他们在统计节目标收视率。收视率越高,他们的告白就卖得越贵。

我们的糊口也离不开统计。每个月家里大要会花几多钱,妈妈也许并没有当真计较过,但心里必然有本帐,多花了一点就会暗暗埋怨,这个月是什么工具又涨价了,让糊口费超支,她已经在不知不觉中统计了每个月的平均支出。

黉舍要统计升学率,班上要统计成就和名次,你本身也要统计本身的总分或平均成就的起落。

这样看起来,统计似乎是个很简单的脑力劳动,不就是把一些累积的数字弄在一路,再来个加减乘除吗?似乎小学生也能做得了。你若是真这样想,可就大错特错了,统计可不是这么简单的,此中储藏着很多复杂的数学常识,是一门很深的学问呢!

统计本身的总分,只需要把所有的科目分数加起来就行了;妈妈要摸清家里支出的纪律,就要在几年的时候里持续统计每个月的支出;而电视台只有给所有的不雅众都打德律风调查才能获得精确的收视率,可是他们可能会有几十万的不雅众呀;我国有十三亿生齿,国度进行生齿普查就更难了,难怪要每10年才能进行一次,可是10年间,某些方面的数据可能会有很大的转变,中心这几年若是需要数据,那么该怎么办呢?

由此可见,社会现象愈复杂,我们的统计工作也就愈坚苦。

脚踏两船的抽样

熟悉到统计的难度,我们就需要把握一些统计技巧了,抽样调查就是一个常见的统计调查方式。我们先来看看电视台若何进行收视率统计。

假设有一家电视台,总共有7位用户(好可怜的电视台,选择比力小的数字,是为了便利读者可以或许本身组合出准确的谜底)。此刻他们推出了一台新节目,想领会收视率是几多。这7位用户中有2户收看这个的节目,是以节目收视率为28.57%,可是电视台并不知道,他们需要进行德律风调查。假设德律风费很昂贵,一家一户地去调查,电视台开支太大,是以他们最多只能选择此中的4户进行随机抽样调查。

从7户中选择4户,一共有35种可能的收视组合体例。电视台可能会发现,他们所选择的4户中,没有一家在收看他们的节目,调查的收视率为0%,这种环境一共有5种可能组合,占总数的1/7;也可能会统计到只有1家在收看,调查的收视率25%,这种景象有10种组合,占2/7;还有一种环境,占剩下的4/7,有两家在收看,调查的收视率50%。无论哪种环境的收视率都不会刚好等于28.57%。

可是电视台并不需要很切确的收视率数据,只要它在合理的规模就行了。

我们把真实收视率28.57%这个数据对称地放大到18.57%?38.57%,就会看到,调查收视率25%的那个成果已经被包含在此中。这个时辰,若是调查成果为25%,电视台就有2/7的可能性是准确的;若是把规模再对称地放大到6.57%?50.57%,那么还能把调查收视率50%的景象也包罗进来,电视台对换查成果的把握就增大到6/7。

可是若是调查的成果偏偏为0%,那意味着什么?这种环境只有1/7的可能会发生,是概率最小的工作,若是最不成能的工作真的发生了,那电视台也只有相信它是真的,节目收视率确实为0%了,这个节目该被撤换失落。

可见,在进行调查的时辰,只要把许可的误差规模充实放大,就能有足够的把握说,我们的调查成果是准确的。前面我们列举的用户和调查数字都太小了,所以要把误差规模放大,才会有足够的把握。在这个例子中,只要把几个数字稍微调大一点,误差规模就会大大缩小,而把握反而会提高。例如,当用户数变为20,此中有3家收看该节目,真实收视率为15%,电视台调查数为10家时,就会有79%的机遇,收视率在10%?20%之间。真正的电视台用户一般都在数十万以上,只要调查30个以上的用户,就可以有99%甚至更高的把握,把调查误差节制在足够切确的规模内。我们完全可以相信调查的成果,而用不着给所有的用户打德律风。

这种只对一部门客户进行的调查叫抽样调查。抽样调查很是的有效,要知道大片的丛林里有几多棵树,只需选择几个小块的区域进行调查,算出平均密度再乘上总面积,而不消去摸遍每一个山头;要知道灯胆的平均利用寿命,只要拿少量灯胆进行试验,而不消把所有的灯都用到坏;在大型养鸡场里,要知道明天有几多母鸡会下蛋,也只用遴选几十只验一验就够了,而不消去摸每只鸡的屁股。抽样调查能给我们的糊口带来很大的便利。

保险公司也不必去统计每小我的真实寿命,它只要抽样调查,一样可以获得对劲的数据。看上去,抽样调查真是个脚踏两船的好方式。

不外,别欢快得太早。

导致破产的预言

抽样调查的成果不是绝对准确的,即使有99.9%的把握,仍然有0.1%的不测会超出误差许可的规模,那是不成避免的,是可以许可的正常错误。然而,有些抽样调查却会发生非正常的错误。

1936年美国总统选举起头了,大部门人都认为现任总统罗斯福——平易近本家儿党的候选人——将会胜利,可是有个杂志《文学文摘》却不觉得然,因为他们邮寄出1000万份调盘问卷,收回了此中的240万份,调查成果显示,共和党人兰登将会以绝对优势胜出。

1000万的调查样本,这么大规模的问卷调查,足以让人相信,罗斯福的总统政治生活生计竣事了。但成果却出乎杂志社的预料,罗斯福顺遂被选美国总统,后来当作为二次大战时带领宿世界人平易近抗击法西斯的三巨子之一。因为错误的展望,读者对这本杂志发生了严重的信赖危机,大选竣事仅仅几个月,《文学文摘》就破产了。

《文学文摘》的问题出在哪里呢?本来,他们是按德律风簿上的地址寄出的调盘问卷。固然今天德律风早已经进入了千家万户,但在20宿世纪30年月的美国,方才履历过一场庞大的经济危机,掉业人数高达900万(而那时美国总生齿还不足1亿),大部门人的工资只有危机以前1/3的程度,只有一部门相对敷裕的家庭用得起德律风这种“高科技产物”。德律风只有富人才有,富人大多撑持共和党人兰登,这就是《文学文摘》调查成果的来历。而那时美国贫民大多撑持罗斯福,在人数上,贫民比富人多得多,因为在选举上每个公平易近都有1票,复杂的贫民数目造当作了此次抽样调查成果的庞大的误差。

这是汗青上很是有名的抽样统计掉败的案例,它申明抽样调查的当作败,有时不在于调查数据量的几多,而在于是否能做到完全随机地抽取样本。仍是那次总统选举,别的有一小我盖洛普,他只是在大街上随机找了2万人进行调查,就获得了准确的成果——罗斯福将获胜。

所以,即使抽样调查,也不克不及抓起德律风就做,仍是起首要考虑一下,获取的样本必需是一个周全的群体。

人均收入的圈套

在统计调查中,即使样本自己具有代表性,若是我们对统计数字进行简单化处置,得出的结论也有可能与现实环境相差甚远。

假设我们从大街上随便找了11小我,获得了他们月工资的环境:前2人的工资为200元,第3到第6人的工资为300元,紧接着,后面4人的工资依次为400、500、600和700元,最后1人的工资高达5000元。

这11小我的平均工资是800元。把这个数字拿给不知情的人看,他凡是会这样认为:“啊,看来这个地域大大都人都能过上月收入800元的糊口。”但现实上,这11小我中,只有1小我的薪水高于800元,而别的的10小我的薪水都低于800元。假如该地域的贫苦线是700元,只从平均数上看,我们会感觉这个地域的人根基都糊口在贫苦线以上,但现实环境倒是,绝大大都人都挣扎在贫苦线以下。

看来,对统计数字进行简单的平均,纷歧心猿意马能反映真实环境,那个月收入5000元的人对平均数影响很大。我们需要从分歧的角度对随机抽样的成果做出阐发。好比,在上面的这个例子中,用众数或中位数更能反映该地域人们的真实收入环境。

众数是指在数项上呈现次数最多的值,好比在上面的统计数字中,收入在300元的人数最多,那么这组数据中,众数就是300元。众数可以让我们领会,这个地域收入在哪个位置的人最多。中位数指挨次摆列(从大到小或从小到大均可)的数项中,位于中心项的值。在上面的数据中,第六小我的收入是300元,是以中位数是300元。看到中位数,我们就知道这个地域中,大约有一半的人收入在300元(含)以下,另一半的人收入在300元(含)以上。

有了众数和中位数,我们就不会被平均数棍骗了。在财富收入不均的社会中,若是我们看到某地的平均工资比力高,就觉得这处所大部门人的工资收入都不错,这就大错特错了。其实这个处所大部门通俗人的工资收入都很低,只是少少数人的收入高得离谱,把平均收入给拉上去了。

我们还需要统计指数

抽样调查的目标也是为了领会整个群体,现实上统计的目标就是为了领会整体的状况,那我们用什么来权衡这些状况呢?有些用平均数,如平均春秋、平均价钱,有的用总数,如生齿总数、总价值等,可是这些都是暗示某一时刻的数值,不克不及反映它们随时候转变的环境,为了反映总体状况的转变,我们需要“指数”。

我们经常能听到“指数”这个词,股市里有股票指数,像国内的上证综合指数,美国的纳斯达克指数,看指数就知道股市的涨落;国度和处所当局每年要发布物价指数,代表那年的物价的程度。

指数到底是什么呀?是不是只有国度大事才能利用指数呢?

谜底可能会让你大跌眼镜,因为你和我都可以利用指数,只要你关心的数字会随时候转变,并且即使是小学结业生也可以领会怎么去编指数。

让我们来看个例子吧。

假如你是个初中生,第一学期的七门课的总分刚好500分,第二学期,考了650分,分数是第一学期的130%,第三学期考600分,是第一学期的120%,今后每期都和第一期的成就对比,画当作图表,就可以知道,相对于第一期,你的成就转变了百分之几多,这个转变了的百分比就是你的成就的总分指数。

我国上海证券买卖所的上证指数恰是这样一种“总分”指数。

上海证券买卖所于1990年11月26日方才当作立那一天,所有股票的市场的总价钱设为100点,若是今后某一时刻是1200点,就是说相对于当作立初期时,这一刻市场的总价值已经是那时的12倍。和你的总分指数分歧,上证指数关心的是市场上所有股票的总价值,是以,不竭有新的股票加进去,也不影响指数的权衡感化。而对于你的成就,若是在第三学期时由7门课程酿成了8门,总分指数就不再有意义了,这个时辰,最好用平均分编写指数。

物价指数就是这么一种平均型指数。

我们糊口用品的价钱天天都可能在转变,几年前价值8000块的电脑设置装备摆设,此刻可能只值3000元;昨天大白菜仍是5毛钱一斤,今天就会听到妈妈在和邻人的大妈群情,下雪了,所有的青菜都涨到了1块以上。分歧的工具价钱有升有降,可是我们的支出整体上是上升了仍是下降了呢?这就需要物价指数来权衡。电脑好几千元一台,可是我们好几年也不会改换它,肉呀、菜呀固然只几元钱一斤,可是我们哪天也少不了它们,是以,在编制物价指数时,我们要按物品对我们糊口的影响,给分歧的物品在物价指数中以分歧比率。

真实的物价指数需要领会许很多多物品的价钱转变,可是此刻,让我们先用电脑价钱和肉价来编一个简单的物价指数。

同样的电脑客岁5000元/台,本年3000元/台,按电脑价钱对糊口的影响,在物价指数中占0.1%,而肉客岁5元/斤,本年8元/斤,在物价指数中占了剩下的99.9%,此刻让我们看看物价整体是涨了仍是降了。

客岁的平均物价是5000×0.1%+5×99.9%=9.99元,本年的是3000×0.1%+8×99.9%=10.99元,本年平均物价是客岁的110%(10.99÷9.99×100%),若是以客岁的物价为根本,本年的物价指数就是110%。

尽管电脑价钱下降了2000元,而肉价只涨了戋戋的3元钱,可我们总体的糊口支出依然上涨了10%。

与股票指数分歧,物价指数用百分比暗示。

物价指数按用途分歧,又有商品零售物价指数、消费品物价指数,这些与我们的日常支前程息相关,别的的像工业品价钱指数、出产资料价钱指数,会直接影响工业,对我们的糊口只会有间接的影响。

扑朔迷离的相关系数

此刻,我们更进一步,统计数字具有代表性,阐发方式也很准确,那么是否就必然能得出准确的结论呢?未必。即使你用准确的方式阐发统计数字,也纷歧心猿意马能得出准确的结论,甚至可能会得出莫名其妙的结论,好比“傍边国生齿增添的时辰,美国国内的犯罪率就升高”这个结论。

在20宿世纪50年月后期,因为战争竣事,中国生齿增添的速度上升了。而与此同时,因为文化等方面的原因,美国良多青少年感应苍茫,呈现了“垮失落的一代”,导致全国犯罪率在那些年中持续上升。从统计数字中,我们可以看到,中国生齿和美国国内犯罪率都在同步增加,我们可否由此得出结论:中国生齿增添导致了美国国内犯罪率的上升?或者反之,美国国内犯罪率的上升导致了中国生齿的增添?

显然,两个结论都很荒诞乖张。确实,两者在数字方面呈现了同步上升的景象,呈现出近乎正比的关系,或者说,两者之间的相关系数很是高。但现实上它们之间没有任何干系,表示出高度的相关性纯属偶尔。所以当我们面临统计数字的时辰,我们的结论要考虑相关性的问题。在某些环境下,有很高的相关系数,并不料味着两者间就有因果关系,它们可能什么关系也没有。我们再来看看下面的例子:

小儿麻木症是一种已经消逝了的流行症。在发财国度以前的调查中,曾发现这种病的发病率和饮料的发卖量有很大关系,它们的相关系数高达0.8。莫非是饮料不卫生,使小儿麻木症是经由过程饮料传染?可是在第三宿世界国度,市场上几乎没有饮料卖,发病率和发财国度却相差无几。这背后埋没的身分是什么呢?

是温度在捣蛋!引起小儿麻木症的病毒传染力跟着气温的上升而加强,饮料的发卖也和温度有着同样的关系,难怪饮料发卖会和发病率一路增加。

本来很高的相关系数,也有可能是第三种身分在捣鬼,并不料味着两者间就有因果关系。

有个企业对本身持续好几年的发卖额和告白费做了阐发,发现两者相关系数是0.86,于是得出结论,他们的产物告白费与发卖量当作正比。企业在次年鼎力加大了告白的投入,可结果远没有估量的那么大。是什么导致这么大的误差呢?告白费和发卖额可简直是有因果关系的呀!

请来专家阐发后发现,本来前几年该企业产物的价钱也一向鄙人降,直到上年才不变下来。产物价钱的下降,自己就极大地刺激了发卖,发卖量的增加不仅可以填补价钱下降带来的损掉,还使发卖额有了新的增加,再加上这几年告白费也增添了投入,使发卖额有了更进一步的增加。阐发人员阐发时只注重到告白费与发卖额同比增加,却没有考虑价钱下降对发卖的刺激感化。而上年价钱正好不变下来,告白费对发卖额的现实影响才显露出来。

本来即使有因果关系的事物间,概况上看起来有很高相关系数,也可能是我们忽略了此外主要身分的成果。

在一些更复杂的转变中,统计数字得出的结论更显得扑朔迷离,这需要我们对各类身分进行更周全的阐发,例如,大气二氧化碳含量与全球变暖的关系。

工业革命后,因为生齿大量增添,石油和煤炭的燃烧,释放出大量的二氧化碳气体,加上植被的粉碎,大气中二氧化碳浓度由0.028%上升到0.039%,而同期宿世界的平均气温上升了0.7℃。要知道,曩昔的1万年地球气温一共才上升了3℃。

那么,全球平均气温升高是否由二氧化碳的排放引起呢?从相关系数的角度看,我们不克不及等闲地下结论。因为大气是个很是复杂的系统,影响气温转变的身分多种多样,如太阳勾当、火山勾当、气流转变等,我们对大气的转变纪律还领会得太少,凭什么把气温的上升都归咎到二氧化碳头上呢?会不会背后有其他的原因引起二氧化碳和气温同时增加呢?又或者全球变和缓二氧化碳增添其实底子就没有关系,只是地球偶尔发了一次“高烧”,不久今后温度就会回到正常?

在塑料大棚里,提高二氧化碳的含量可以使大棚温度升高;金星的大气当作分本家儿如果二氧化碳,因为温室效应,那边的大气温度可以高达400℃,这些都是间接证据,申明二氧化碳含量和全球变暖的相关性很大。固然从统计学的角度,我们不克不及解除其他身分导致全球变暖的可能,不外我们仍是根基可以认心猿意马,二氧化碳是全球变暖最大的“嫌疑犯”。

统计数字告诉了我们良多信息,然而若是我们对统计数字不加阐发,或者错误地阐发了统计数字,我们就会被它误导,被它棍骗。好比前面提到的例子,样本选择的错误会让《文学文摘》破产;对人均收入的轻率阐发会让我们轻忽劳苦公共的疾苦;没有了统计指数,我们就无法比力白菜和电脑的价钱波动哪一个对我们影响更大;不阐发相关性的真伪,我们就会得出荒诞乖张的结论?简直,统计是淘金的东西,不外并非每个握着淘金筛的人,都能淘到金子,要从统计数字中淘到真金,我们需要一双准确阐发统计数字的火眼金睛。

  • 发表于 2019-12-08 02:00
  • 阅读 ( 881 )
  • 分类:其他类型

0 条评论

请先 登录 后评论
联系我们:uytrv@hotmail.com 问答工具