生信分析、meta分析、数据挖掘
TCGA、GEO、SEER、Oncomine

对青年千人表格信息的可视化探索

2017年12月4日,海外高层次人才引进工作专项办公室发布公式通知,发布了入选第14批“青年千人计划”的科学家名单,朋友圈里转发者众。作为一个苦苦挣扎毕业的大龄博士,也想看看那些发了大文章,走上人生巅峰,马上要迎娶白富美的青千长啥样。

当我打开他们的公众号,我看到的表格是这样的。

这样的表格你让我咋看? 如果喜欢看这样的表格的读者,可以在这里我的Github下载青年千人表格。不喜欢看这种繁杂的表格,喜欢以可视化方式来寻找信息的读者,可以接着往后看。

好多人在惊叹:“哇,92年出生的都当青千了。” 这倒也激发了自己探索一下这个数据的兴趣,于是花了几个小时,用Python/R代码来解读了一下这个表格,所有的代码以及图都可以在我的Github上找到,有兴趣自己去操作一下。


可视化不是目的,它只是手段。最重要的是,知道我们想看什么,在探索这个表格之前,我列出了我感兴趣的问题。

  • 这些青年千人的年龄分布,即这一批哪一个年龄的青千最多,男性青千和女性青千的分布pattern是否一致。

  • 大家都说星座(月份)能够影响一个人的成就,那么有没有哪个月份最容易出生青千。

  • 这些青千回国后,都选择的什么单位,这些单位在全国的分布热图。

  • 大家都在讲城市竞争力,那么哪个城市吸引的青千最多?

  • 如果21世纪真的是生物学的世纪…


一行代码得到这个表格,想知道哪些青千的名字不走寻常路,就简单地做了一个筛选,把名字长度是2个字或者3个字的青年之后,我看到一个非常好玩的名字,被中山大学引进的赵铜铁钢。我估计这样的名字全国都不会有重名的吧。这也给我们提供了取名新思路,可以用元素周期表里的字。这样的名字虽然会有点,但是重名概率小,想想那场景真的是镁铷画。还有第一行的青千桑田幹哲,本来以为是我藏族同胞扎西德勒之类的,后来查了才知道来自东瀛扶桑。




这个图反应了不同性别的青千的年龄分布。我们能够看到,绝大多数青千的年龄集中在31岁和35岁之间。这个年纪正好是你博士毕业,去国外做上两轮博后之后的时候。所以,毕业开始找博后职位的时候,一定要慎重,最开始的几年比较宝贵。并且我们能够从图中看到,男性青千和女性青千的pattern比较一致,但是男性青千的数目要远大于女性青千。而现在读生物的phd是女性数目要远多于男生(只是个人经验,没有数据支持)。绝对没有性别歧视地认为,女性到了生育年龄,会牺牲自己事业上的成功来支持家庭,非常感动。最小的青千是25岁,嗯,至少,我在年龄上超过了一个青千。



这个热图反应了在每一个年龄中,每一个月份出生的青千的数目。我们看了年龄的分布,还是比较正太分布的,不,应该是大叔分布的,又想看看这些青千主要的生日主要集中在哪几个月份。星相学总忽悠大家说,在某几个月份出生的孩子天生就比别人强,一直不大信,所以画了一个热图来验证一下。这个热图当中,横轴是月份,纵轴是年龄。传说中的大魔羯并没有比我大金牛强多少。(为了防止误导,标红部分为正态分布)

基本上这些青年的出生月份是均匀分布在每个月,但是唯独七月的数目有点少。天气太热,坐月子不方便,人们不喜欢在七月生孩子(大雾)。


这个图使用R包REmap来画的,展现了青千选择的工作单位的所在地点分布。我们能够看到,大多数集中在长三角,珠三角,环渤海湾等经济发达的沿海地区。如果不是西安和兰州撑着,整个西北地区在这个图上看不到光亮。这个分布也比较好理解,毕竟科研还是很耗钱的。



这个图反应了不同城市所引进的青千数目,最近大家都在谈城市竞争力,好多城市在争抢人才。那么我们看看在这场人才争夺战之中,这些城市的表现情况如何。惊喜地看到,我大武汉仅次于帝都和魔都,在省会城市里表现最佳。



这个饼图反映了引进的600多个青千所在的学科的占比。最后大家都说,21世纪是生物的世纪。生物化学博士黄西,如今成为了脱口秀演员; 生物化学博士马东敏,如果成了百度CEO李彦宏的太太; 曾在《Current Biology》上发表文章的 王牌特工主演 科林·费斯成了奥斯卡演帝。总之各行各业,都能找到学生物出身的人,所以21世纪是生物学的世纪。
玩笑归玩笑, 对这些青年千人的学科用pie chart进行展示发现。生命科学和医学这种life science占比还是非常高的,这也反映了整个行业的趋势。风起云涌,看生物世纪,一片欣欣向荣的景象。如果这个世纪不是,下一个世纪肯定是。

扎心并加油吧,老铁!


最后:

  1. 第14届青千表格地址

    https://github.com/wandering513/Data_workshop/blob/master/1000_youth_talent/data/1000_youth_talent.xlsx

  2. 这个分析的完整代码在我的Github

    https://github.com/wandering513/Data_workshop/tree/master/1000_youth_talent

赞(0) 打赏
未经允许不得转载:医学SCI科研之家 » 对青年千人表格信息的可视化探索
分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

meta分析、生信分析

meta、生信交流群综合科研交流群