作者:Multiangle
链接:https://www.zhihu.com/question/41676600/answer/113216461
来源:知乎
著作权归作者所有,转载请联系作者获得授权。
分析了6000封左右邮件,对收件人之间的关系进行了简单的分析,也没什么严密的分析计划,分析到哪就写到哪吧
------------------------------------- update 7.27 --------------------------------------------------------------------
1.首先来看收发邮件数
在6000封邮件中,涉及了600个左右的邮箱
单看发送邮件的数目,前五强邮箱分别是
kaplanj@dnc.org 645封 MirandaL@dnc.org 645封 DNCPress@dnc.org 200封 PaustenbachM@dnc.org 149封 postmaster@finance.democrats.org 147封
单看接收和抄送的数目,则前五强分别是
kaplanj@dnc.org 2224封 MirandaL@dnc.org 1030封 PaustenbachM@dnc.org 656封 Comm_D@dnc.org 649封 comers@dnc.org 540封
具体的一些信息如下图所示(按照发送邮件数目排序)
如果按照发件数或者收件数对各邮箱进行排序,都可以看到社交分析中常见的指数曲线
令我比较惊讶的是,在对发送邮件数取对数以后,所得到的结果仍旧是一条指数曲线。如下图所示。
这表明,这个竞选团队中极少数人有着极大的话语权。毕竟在求对数以后一般是得到一条直线的,例如微博中排名前几千的大V的粉丝数分布,就像下面这个图(原谅我的灵魂画技)
2. 邮箱之间的社交分析(SNA)
这一部分的分析就比较好玩了,首先使用PageRank算法来计算各个邮箱的重要性。
结果发现收发最频繁的两个邮箱重要性反而不怎么高
可以看到PageRank值最高的邮箱是DNCPress@dnc.org, 达到了0.07, 看名字似乎是负责对外推送消息的。排第二的是postmaster@finance.democrats.org, 似乎与民主党的经济事务有关。
对上述社交网络进行可视化表示,在使用ForceAtlas2展开以后,得到如下图所示
从上面还可以看到竞选团队很明显的分成左上和右下两个部分,这个后面会讲
还有一点,上面的图有很多排成很密集的小白点, 比如说红线框起来的部分
由MirandaL负责联系的有(主要看靠下红框,我随机抽了一些,一个个在Google上查后缀,这一部分是最累的)
由Kaplan J 负责联系的有
3. 社区发现
如果在第二步的基础上使用社区发现算法,就能够将整个竞选团队分成若干个子社区,如下图所示
绿色部分的大人物有
KaplanJ@dnc.org,
CoxC@dnc.org 等。
紫色部分不用说了,最明显的DNCPress@ http://dnc.org
橙色部分不知道干嘛的,比较有分量的是weis@dnc.org
蓝色部分我也不知道是干嘛的,没有特别显眼的人物。但是从位置上来看,估计是竞选团队中的普通人员,负责日常事务和分析。
------------------------------------- update 7.28 --------------------------------------------------------------------
4.邮件数目与日期的关系
邮件大部分是从今年4月20号以后开始的。首先绘制每天的邮件数目变化
看完了低谷,再来看几个几个邮件数目比较高的日期: 5/4, 5/10, 5/17. 显然,这几天肯定有大事情发生。我跑去GoogleTrend 搜了下democratic party的搜索指数,结果发现跟邮件数是高度吻合的
跑去Democracy Now! 翻了翻之前的新闻,在忽略掉大量Trump的八卦以后,找到了那几天的大新闻
5/4 Ted Cruz 退选
5/10 Sanders 拿下了 West Virginia Primary (我之前不太关注这些,不知道这个该怎么翻)
5/17 Sanders 拿下了 Oregon Primary, 而Hillary 拿下了Kentucky
5.神秘的小团体
在之前的关系图中,还有一个点没讲,就是左上角的那一坨黑点
tyler@commongoodva.orgpatrick.w.hallahan@gmail.comdan.turrentine@hrblock.comadam@goers.netmichaelmhalle@gmail.comsambrown@amalgamatedbank.comjmantz@bgrdc.combrian@commongoodva.orgacopeland@businessfwd.orgjackson.dunn@fticonsulting.com
我查了一些人的资料,因为我对它们也不熟,所以只列个大概资料。
邮箱 jackson.dunn@fticonsulting.com姓名 Jackson Dunn简介:Jackson Dunn is a Senior Managing Director in the Strategic Communications segment at FTI Consulting, and is based in Washington, D.C. He also serves as head of the segment’s Public Affairs practice in the Americas. 大意是做咨询工作
邮箱 brian@commongoodva.org姓名 Brian Zuzenak职务 Political Director at Gov. Terry McAuliffe根据LinkedIn上的资料,此人目前就职于Common Good VA曾经就职于Democratic Congressional Campaign Committee, Kate Marshall for Congress,Missouri Democratic Party
邮箱 jmantz@bgrdc.com姓名 Jonathan Mantz目前就职 BGR Group曾经就职 Barbour Griffith & Rogers, Hillary Clinton for President, DSCC
邮箱 michaelmhalle@gmail.com姓名 Michael HalleDirector, Battleground Analytics and Strategy at Hillary for America
暂时就只搜4位,其他各位感兴趣的可以去Google搜,还是挺好搜的
可以看出来,这些人大部分是属于咨询机构,看起来是专门进行出谋划策的=。=
------------------------------------- update 7.26 --------------------------------------------------------------------
写个比较无关的,看到很多人对 @XY Lee 写的感兴趣,花了一个晚上+上午写了个分析邮件往来关系的单线程小爬虫来玩玩,很简陋而且代码也比较乱,实现的功能也比大神差远了,不过能生成基本的社交关系数据。至于分析嘛,是用gephi来完成的,很好玩的一个软件,号称SNA的matlab,可以做pagerank,社区发现等一些算法。代码放在GitHub - multiangle/HillaryEmailAnalysis ,注意要用到networkx库。
所有分析用到的工具:
python3.4 + networkx 库
gephi
excel
当然,如果不想用爬虫下邮件,我这有下了一晚上的成果,大概6k封的社交关系数据,还有已经生成的供gephi使用的gexf格式文件链接: http://pan.baidu.com/s/1qYpdVB2 密码: 9fax