《乌合之众》:“群愚”和“群智”之间

这两天趁着各种考试和大作业的间隙读完了《乌合之众》这本书。勒庞的这本描写大众心理学的著作出版至今一百余年仍然得到了较高的评价并为很多专业人士所借鉴,足见它在相关领域的影响力。

勒庞在书中的主要论点是处在群体中的个人的个性化的思想会逐渐消失,进而使得群体性的思想占上风,这种思想的产生是基于个人易受无意识现象、传染现象和暗示的作用,而这种群体思想的特质则是易怒冲动、易受暗示和轻信、情绪夸张单纯、偏执专横保守、不具有道德思考等<!-- more -->。勒庞在书中大量引用了拿破仑时期和曾轰动一时的布朗热时期的例证来证明自己的观点,抛开这些历史较久远民族背景差异较大的历史事件,其实我们可以很容易地想到四五十年前的文革时期,这是一个极端的个人思想被群体思想所掩盖,导致整个社会的愚昧的年代。 在当时的条件下,反动的集团利用领导人的个人名望,打着所谓“革命”和“爱国爱党”的旗帜作为宣传(这也是充分利用语汇的一个例证),即使是最为严肃的专家学者都曾因为饱受这些狂热思想的鼓吹变为其附庸,产生集体主义的幻觉,而那些没被群体的愚昧所蒙蔽,保持自己见解的极少数人则彻底沦为了群体暴政的牺牲品。这无一例外地印证了勒庞的观点。

所以对于有独立思想的个人来说,陷入这种群体状态实在是危险的,勒庞在书中提到鼓励自由讨论是能够防止形成群体的有效方法,但是并没有强调这一点。在现今的互联网时代,一种思想的传播比以前的任何时代都更迅速。但是好就好在互联网是允许所有人发声,允许不同思想互相碰撞和讨论的地方,这样我们就比较难于陷入对某种信仰的狂热崇拜而难以自拔。举个不太恰当的栗子,罗永浩实在是营销和宣传界的奇才,他善用断语,喜欢强调和重复自己的观点,又懂得通过宣传自己的理想主义和情怀来让众人产生共鸣,从勒庞的观点来看,这样的人具备成为群体领袖的所有条件,当然在某种意义上他也成功了。我想在消息传播不这么迅速又比较闭塞的时代,罗永浩恰到好处的营销手段估计可以让他成为某场革命的领袖。但是前段时间就有越来越多的人热衷于“黑”他,原因就在于他性格中的某种劣势和产品中并不完美的地方被众多的人公开和讨论之后,原来即使忠实于他的观点的人也会发现和他的优点一样被盲目放大的缺点,也就难成自己心目中真正的偶像了。只有经过这样自由的讨论,才免于大众沦陷于某种不必要的狂热。也因为这样,互联网注定是个没有英雄,缺乏信仰的地方吧。

提到《乌合之众》,我想很多人也会跟我一样想到《失控》这本书,同样作为领域著作,KK的《失控》的主要论点却是所谓“群体的智慧”,这难道不是和勒庞的思想明显相悖吗?但是认真读过这两本书后,会发现两者的前提和侧重点都是完全不同的(这也在一定程度上印证了勒庞在书中关于词语的讨论,同样的词语在不同人眼里在不同条件背景下都可以有不同的概念,这时候就需要加以辨别和区分了)。勒庞在书中所讨论的是心理群体而非物理群体,这种心理群体信念的建立是需要种族、传统、时间、政治制度和教育等准备因素的。而KK所说的“群体”则是仅仅指的是物理上的聚合,KK在书中举过一个没有任何飞行相关经验的众人通过根据周围条件的判断控制自己的手柄最终让一个虚拟的飞机成功飞行的例子。这个例证中处在“群体”中的个人其实并不需要做很复杂的思维判断工作(只是物理性地通过判断周围环境改变自己的行为,而不是做一些比较艰难存有争议的决策),换句话说把这个例子中的人换成制作精良具备同样反馈功能的机器也是同样适用的。在这种情况下,这样的物理的“群体”是具有优势的,这也是控制论和分布式系统的基础。而像维基百科这样基于众人的智慧才产生的伟大的互联网产品恰恰又是因为众人并没有形成心理的群体,每个人都保留自己的独立思想可以独立发声才能发展成今日的高度,而我们今天所讲的大数据的概念其实指的是在拥有大量事实数据的简单堆砌后通过训练机器从这些数据中发现模式从而做出更好决策的过程,在这个过程中,具备智慧的只是受过这些数据训练的机器而不是数据群体本身。这些和勒庞所说的心理群体在概念和意义上都是有极大差异的。

在这本书中,勒庞对于种族和教育的看法虽然论证非常合理,但实在是跟我们的认知和常识都极为相悖,我想对于这些观点我们也不能盲目轻信,应该在谨慎的阅读和思考过后再选择认同与否。

涂涂画画

有时候会觉得电子产品也是有感情的,它们也渴望被你珍视,给你创造价值

IMG_1113

<!-- more --> IMG_1124IMG_1124

使用R语言实现的城市空气质量分析模型

今天来点分享点干货吧,这个题是这学期数学建模的课题,不过鉴于本人数学比较渣而且时间精力有限,实现的思路比较传统和简单,用到了多元线性回归和主成分分析来求解模型,这也是统计学习方法里面比较常见的一种,正好在上个学期学习了R语言的使用,用来做统计分析十分方便。<!-- more -->

首先面临的问题是数据收集,经过多方查找,终于找到了PM2.5.in这个网站提供的开放数据接口,用python写爬虫爬到了一年来北京市的空气质量监测数据。又考虑到空气质量和工业、经济发展、天气等多方因素有关,但是在这其中容易收集到的就是天气数据,故在天气后报网站上手工复制到一年来的天气数据,以及动用各种搜索引擎耗尽十年功力找到13年全年和14年夏天几个月的湿度数据,从气候条件这一切入点做相关分析。原始数据格式如下:

相关矩阵表1

第一个要解决的问题就是空气质量与哪些污染物有密切的关系?(废话,肯定是PM2.5嘛。。)不过数据胜于雄辩,用r语言求解相关矩阵的方法(cor())求出空气质量指数AQI和其他污染物的相关矩阵以及图像如下:

图1

图2

Perfect,结果让我们很满意,AQI和PM2.5之间的相关程度最高,印证了我们最初的猜想((-,-)|||),之后我们的分析就可以围绕PM2.5展开鸟~

首先做一个不太有意义的分析,我们看到AQI是直接和污染物的浓度挂钩的,那么问题来了,能不能由这些污染物的浓度倒推出AQI的计算公式呢?我们知道求解因变量与多变量之间的最常用的的办法是多元线性回归,即通过最小化误差平方和的方法来实现y=b0 +b1x1 +b2x2 +e的参数最佳估计值。R语言里面有很方便的方法来实现这个方法(lm()),这里我们用混合回归模型来求解问题,初步结果如下,

QQ图片20150109194519

可以看到F值(F检验,也称失拟性检验,代表离散分析,F值越大表明回归模型越显著)1659,很大,修正后的R方(决定系数)为0.9515,表示拟合很好,美中不足的就是CO(0.986)和SO2的P值比较大,说明变量的显著性不是很高,而且我们看到上面各元素的相关矩阵发现各自变量之间也是有一定的相关关系,可能在其中存在多重共线性的问题,这里我们用R语言提供的逐步回归(step)方法来删除一些变量,可以用step函数进行变量筛选,step函数AIC作为评价指标来判断一个变量是否应该加入模型。

QQ图片20150109202108

我们看到删除了CO这一个变量,现在的分析结果是

QQ图片20150109202245

SO2的P值虽然还是较小,不过比之前要好一点,在模型中更显著了,F值和修正的r方也提高了一点点,说明这次的修正还是比较有效的。看一下近乎理想的残差分布图(plot())hia~hia~

QQ图片20150109202759

最后得出的结果是

AQI = 0.88758PM2.5+0.33105PM10-0.46667NO2-0.06736SO2+33.76268(没准气象局的人就是这么算滴~)

说好的PM2.5是影响AQI的主要因素,那末现在我们重点分析一下PM2.5和气象因素之间的关系。

首先看一下我搜集到的数据格式

QQ图片20150109204010

这样的数据显然是不能直接拿来用的!经过我的不懈努力以及各种Parser,得到了下面的东西

QQ图片20150109204445

其中降水量根据天气状况估算得出(悲哀地发现2013年和2014年的冬天都没有下雪啊有木有。。),考虑到前一天晚上的天气状况极有可能影响到第二天的污染情况(比如晚上刮风第二天空气会比较好~),故把前一天晚上的数据也加上了。

我们看到自变量还是比较多的,而且关键问题是天气因素之间是互相影响的,即使算出来了结果也会存在严重的多重共线性 。这时候主成分分析这个神奇的方法就派上用场啦(主成分分析(Principal Component Analysis,PCA), 将多个变量通过线性变换以选出较少个数重要变量的一种多元统计方法。又称主分量分析),R语言里面也提供了相应的方法(princmp)

经过对这些变量进行主成分分析,我们得出下面的表

QQ图片20150109210117

前九个因子的组成:

QQ图片20150109210428

我们看到前四个因子的方差累计贡献率已经达到了98%,故只取前四个元素进行分析。

根据上表其实可以发现第一二个因素主要和温度、湿度有关,第三个因素主要跟湿度有关,第四个因素主要跟降水有关,我们将因子重新命名如下

QQ图片20150109210714

凭常识来看冬天和夏天的气候条件和人文地理工业情况可能都不太一样,所以我们在这里把冬天的数据和夏天的数据分开来研究,冬天的多元线性回归分析结果如下

QQ图片20150109211101

该模型的R方 = 0.8295(高得出人意料啊有木有),假设几率 p-value=< 2.2e-16。说明在冬天 PM2.5 的值和气象环境有着明显的关系(其中跟湿度的关系很大)。

夏天的分析结果如下

QQ图片20150109211445

QQ图片20150109211513

该模型的R方=0.3076,假设几率 p-value=3.036e-05。该模型精确度不是很高,说明夏天空气中 PM2.5 浓度对气象环境的依赖不是很强。

冬天的数据是13年的,我们用2015年9号的数据来验证一下,今天的相对湿度大概是34左右,气温7到-5度,昨天湿度高一点,60左右,气温5度到-3度,得出PM2.5为30.18094,查了一下今天的空气质量是27,预测结果还是比较不错的

QQ图片20150109213633

还有一些后续的分析有时间再更吧~

2014年的海阔天空

忙碌的烤漆之中匆匆步入2015年,留下两三天足够喘息的时间思考和回忆,回想一下刚刚过去的2014年,还是有很多可爱、精彩、迷人之处可言。<!-- more -->

首先说年初最让令人开心的事情就是我用大二上学期间兼职打工的钱买到了第一台微单。选的是索尼奶昔系列里面最入门的一款,价格也相对较便宜。阅读了纽约电影学院的摄影教材之后,我对摄影的一些技巧和术语也有了很基本的了解,微单相对于之前的卡片机最大的不同就是可以通过自如地调整光圈和快门或者更换镜头的方式在不同的环境下拍出让自己满意的照片。这一点也是摄影最大的魅力所在。虽然我的小相机现在依然挂着16-55mm的狗头,性能方面也越来越有不满意的地方,但是一年来,我用它拍了上万张照片,记录了太多美好的片段和风景,也累计了越来越多的摄影经验和后期经验,现在硬盘里6个G的相册已经成为我生活中宝贵的财富。我想等以后工作有了收入,首先要置办的一定是一台中高端的单反以及一系列满足各种场景的好镜头(单反穷三代这句话实在是所言不虚)。

谈到在学校的经历,大二下带给我印象最深的经历还是一年一度的冯如杯。大一时凭着初生牛犊不怕虎的精神侥幸试水,用着当时跟着韩顺平老师学的自觉媲美蓝翔北大青鸟毕业生的JAVA和安卓开发技写了一套代码量数千,功能齐全的所谓移动病历管理系统,现在看来实在是图样图森破,没有太核心的技术,逻辑设计也有很多的问题,最终当然狠狠地被评委鄙视了一番铩羽而归。但若不是那次经历,我也不会有现在面对几千上万行代码面不改色气定神闲的气度,不会有不断发现和纠正bug的耐心和毅力,更不会结识像冲哥和凯哥这样的牛人(在后来的一年多里,跟他们的交流让我受益匪浅,现在他们一个自己开公司当了CEO,一个差一点拿了北航毕业生的最高荣誉,现在是新生辅导员)。大二的时候还是想通过冯如杯稍微历练一下,索性又继续参加。用着当时也觉得媲美蓝翔北大青鸟毕业生的web开发技又找了二系的大神开发了一套所谓基于地理位置的实时心率传感器,其实在这个项目上并没有花太大的心思,最后总算是做出来一个能用的“可穿戴设备”。现在想想也是图样图森破,最后因为创意不错侥幸拿了三等奖。但是这一次的经历也让我看到了冯如杯的无聊和一些并不太光彩的地方。反复不断的答辩消耗了太多的精力,真正用来做项目的时间反而不多,功能并没有实现,靠着天花乱坠的吹捧获得评委的青睐人最后拿到了大奖也让我对整个评审过程彻底失望。虽然如此,今年还是选择继续参加冯如杯,只不过目的不再是通过获得评委的喜爱拿奖,而是通过这个过程找到一个提高自己的契机,做出一个真正有创意且有技术含量的完整应用。这对我来说远比冯如杯一等奖更有吸引力。

七月份搬离生活了两年沙河,来到海淀区的校本部继续大学的学习生活,这一次的告别不是没有怀念,不得不承认在沙河的这两年的大学生活跟想象的有很大差距,但总得来说收获还是要多于遗憾。想想大学的两年虽然也有迷茫失落颓废的时候,但大部分的时光也没有虚度,也是很值得宽慰的。相比于沙河校区,学院路校区不管是从历史还是从资源上看都更有大学的感觉,天气晴好的时候走在校园里,说不出的轻松惬意。

大三的这一学期,课程不多但课程设计的负担意外沉重,再加上参加了学校的实验室,又花了一些时间在实验室项目上,每天的生活就比较忙碌,甚至周末的时间基本都被挤掉。也因为这样,我接触到了从底层的编译器、数据库、更深入的程序语言设计方法、分布式到上层的web开发、Ruby on Rails、数据可视化以及针对大数据的一些统计学习方法等方面丰富的知识,虽然理解都还很浅薄,但是也为日后的深入学习奠定了一定的基础。说到这里实在是应该感谢一下我的导师(号称是横跨相声、城规、计算机三界的清华才子),在对本科生的培养上他花了很大的心思,要不是他有问必答的耐心和持之以恒鼓励我也不会从数据可视化入手开阔出现在的思路。在做北京地铁流量可视化视频的时候,他让我明白一件事做到百分之九十九和百分之百之间毫厘之差天壤之别,初稿完成之后,经过反复不断的修改,终于获得了来自各方的一致好评和认可,也是这个学期以来的一个小小的成就。

去年的三次旅行经历是这一年里我觉得最美好的事情。清明的时候独自一人去了大连,这座高速发展的海滨城市有着不同于内陆城市的秀美。第一次看到海洋和沙滩,兴奋之情难以言表,误入教堂参加礼拜,品尝美味海鲜,旅顺军港看沧桑历史……犹记得当时落日红霞,漫天海鸥飞跃过狭长的港口,实在是记忆中最美丽的图景。五一的时候和妹子一起去了青岛,同样是有着殖民背景的海滨城市,青岛和大连有着太多相似的东西却也有着自己独特的气质,红瓦绿树,碧海蓝天,德式建筑林立的青岛海滨让人有种来到亚平宁半岛的错觉,漫长的下午,慵懒的海风阵阵吹过海滨浴场,一切都是那么安宁美好。不得不提当时正好赶上正在举办的世界园艺博览会,精美的展馆目不暇接,来自世界各地的能工巧匠各自献艺,所到之处处处都是花的海洋,美的天堂,场面蔚为壮观,这也是人生中见过最为震撼的一次展会了。第三次是今年11月份APEC放假期间和父母一起的云南之旅,跟团游的好处就是不用自己亲自打点旅行中的一切行程,旅行团完全都可以给你安排好,而且还有专业的导游讲解。第一次来到南方,一年温暖如春的云南是神秘而绮丽的地方,和帝都的雾霾相比,在云南所到之处的天空都蓝得可以用耀眼来形容。作为少数民族的聚居地,很难用一个词或者一句话来形容云南的特点。从昆明到大理到丽江到西双版纳,从高原走到雪山走到牧场走到热带雨林,云南美丽的自然风光让人赞叹不绝,听来自不同民族的导游讲历史讲故事,体会各民族在地理、文化、习俗、建筑特色上的差异更令人深深震撼。唯一美中不足的就是中途有一些购物环节,没有太多的时间好好欣赏美景,以后有时间一定要再来云南几次,在丽江或者大理古城住小半个月,享受一段坐拥好山好水,读书品茶四处闲游的悠然生活。

要说这一年中遗憾的事情就是阅读量屈指可数,没能静下心来多读几本好书,留给自己思考和反省的时间太少,寒假和暑假也没有在学习上投入较大的精力,另外就是拖延症没能治好反而愈发严重,因为这个原因没少做坑人坑己的事情,想想也甚是羞愧和后悔。

流水账到此结束(充分暴漏了写作水平)。

题图摄于云南,苍山洱海旁

数据库MindMap

来一杯清凉可口提神醒脑的[数据库], 祛一下在编译器里捂出的霉。<!-- more --> 复(预)习了前三章的内容,总得来说数据库还是一门平易近人的“文学课”,概念虽然多了点,涉及的理论基础其实也就是简单的集合论,亲自写过一些查询代码之后再回来看这些理论有种豁然开朗的感觉。

[caption id="attachment_64" align="alignnone" width="92"]数据库思维导图 数据库思维导图[/caption]