当前位置: 棋牌电玩游戏平台 > 火爆棋牌 > 正文

拉勾数据分析实战:数据产品经理薪资解密

时间:2019-06-22 01:07来源:火爆棋牌
来,作为大数据工程狮的你,是不是拖了你们城市的后腿! 首先说明这篇文章的数据来源,是爬虫拉勾网"数据分析师"这一职位信息所得来的。并且主要分析了数据分析师总体薪酬情况

来,作为大数据工程狮的你,是不是拖了你们城市的后腿!

首先说明这篇文章的数据来源,是爬虫拉勾网"数据分析师"这一职位信息所得来的。并且主要分析了数据分析师总体薪酬情况、不同城市薪酬分布、不同学历薪酬分布、北京上海工作经验薪酬分布情况、北上广深对数据分析职位需求量以及有招聘需求的公司所处行业的词云图分析。

图片 1

因为毕业后想从事数据挖掘相关的职业,但对该行业的需求不太了解,网上资料太多查看花时间且抓不住重点,所以爬取了拉勾网上 900 多条相关的岗位共计 30 万字的职位描述的数据进行了相关的分析。分析结果主要想回答下面两个问题:

题图-大数据技能云图

阅读路线:

  • 数据采集
  • 数据清洗与处理
  • 数据分析报告
  • 分析结论
  • 思考总结

图片 2

1、目前数据挖掘岗位的现状 ?
2、如果要从事数据挖掘行业,需要具备哪些技能 ?

文·blogchong

数据采集

  • 找到我们所要的信息位置

首先登录拉勾网,在顶端输入框内输入"数据分析师",点击搜索。按F12并且按F5刷新,就能看如图我们需要的内容。

要注意的这是火狐浏览器的界面并且爬虫程序是Python3环境下运行的。

  • 开始上代码了

爬虫前所需要掌握的知识:Requests库的用法、Python字典与josn的异同、python基础

# -*- coding: UTF-8 -*-
import json     
import requests
#headers内容,网页上会有,其中cooies就包括登录的效果,暂时简单理解为:拉勾网不会因为我们的操作频繁而阻止
headers = {
        "Cookie": "user_trace_token=20171010163413-cb524ef6-ad95-11e7-85a7-525400f775ce; LGUID=20171010163413-cb52556e-ad95-11e7-85a7-525400f775ce; JSESSIONID=ABAAABAABEEAAJAA71D0768F83E77DA4F38A5772BDFF3E6; _gat=1; PRE_UTM=m_cf_cpt_baidu_pc; PRE_HOST=bzclk.baidu.com; PRE_SITE=http://bzclk.baidu.com/adrc.php?t=06KL00c00f7Ghk60yUKm0FNkUsjkuPdu00000PW4pNb00000LCecjM.THL0oUhY1x60UWY4rj0knj03rNqbusK15yDLnWfkuWN-nj0sn103rHm0IHdDPbmzPjI7fHn3f1m3PDnsnH9anDFArH6LrHm3PHcYf6K95gTqFhdWpyfqn101n1csPHnsPausThqbpyfqnHm0uHdCIZwsT1CEQLILIz4_myIEIi4WUvYE5LNYUNq1ULNzmvRqUNqWu-qWTZwxmh7GuZNxTAn0mLFW5HDLP1Rv&tpl=tpl_10085_15730_11224&l=1500117464&attach=location%3D%26linkName%3D%25E6%25A0%2587%25E9%25A2%2598%26linkText%3D%25E3%2580%2590%25E6%258B%2589%25E5%258B%25BE%25E7%25BD%2591%25E3%2580%2591%25E5%25AE%2598%25E7%25BD%2591-%25E4%25B8%2593%25E6%25B3%25A8%25E4%25BA%2592%25E8%2581%2594%25E7%25BD%2591%25E8%2581%258C%25E4%25B8%259A%25E6%259C%25BA%26xp%3Did(%2522m6c247d9c%2522)%252FDIV%255B1%255D%252FDIV%255B1%255D%252FDIV%255B1%255D%252FDIV%255B1%255D%252FH2%255B1%255D%252FA%255B1%255D%26linkType%3D%26checksum%3D220&ie=utf8&f=8&ch=2&tn=98010089_dg&wd=%E6%8B%89%E5%8B%BE%E7%BD%91&oq=%E6%8B%89%E5%8B%BE%E7%BD%91&rqlang=cn&oe=utf8; PRE_LAND=https://www.lagou.com/?utm_source=m_cf_cpt_baidu_pc; _putrc=347EB76F858577F7; login=true; unick=李凯旋; showExpriedIndex=1; showExpriedCompanyHome=1; showExpriedMyPublish=1; hasDeliver=63; TG-TRACK-CODE=index_search; _gid=GA1.2.1110077189.1507624453; _ga=GA1.2.1827851052.1507624453; LGSID=20171011082529-afc7b124-ae1a-11e7-87db-525400f775ce; LGRID=20171011082545-b94d70d5-ae1a-11e7-87db-525400f775ce; Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1507444213,1507624453,1507625209,1507681531; Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1507681548; SEARCH_ID=e420ce4ae5a7496ca8acf3e7a5490dfc; index_location_city=北京",
        "Host": "www.lagou.com",
        'Origin': 'https://www.lagou.com',
        'Referer': 'https://www.lagou.com/jobs/list_数据分析?labelWords=&fromSearch=true&suginput=',
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.3408.400 QQBrowser/9.6.12028.400'}
post_data = {'first': 'false', 'kd':'数据分析师' }#这是请求网址的一些参数

def start_requests(pn):
    html = requests.post(myurl   str(pn), data=post_data, headers=headers, verify=False)
    html_text = html.text
    content = json.loads(html_text)  #loads()暂时可以理解为把json格式转为字典格式,而dumps()则是相反的
    pagesize = content.get('content').get('pageSize')    #这是Pytho字典中的get()用法
    return pagesize

def get_result(pagesize):
    for page in range(1, pagesize 1):
        content_next = json.loads(requests.post(myurl   str(page), data=post_data, headers=headers, verify=False).text)
        company_info = content_next.get('content').get('positionResult').get('result')
        if company_info:
            for p in company_info:
                line = str(p['city'])   ','   str(p['companyFullName'])   ','   str(p['companyId'])   ','   
                       str(p['companyLabelList'])   ','   str(p['companyShortName'])   ','   str(p['companySize'])   ','   
                       str(p['businessZones'])   ','   str(p['firstType'])   ','   str(
                    p['secondType'])   ','   
                       str(p['education'])   ','   str(p['industryField'])  ','   
                       str(p['positionId'])  ','   str(p['positionAdvantage'])  ','   str(p['positionName'])  ','   
                       str(p['positionLables'])  ','   str(p['salary'])  ','   str(p['workYear'])   'n'
                file.write(line)


if __name__ == '__main__':
    title = 'city,companyFullName,companyId,companyLabelList,companyShortName,companySize,businessZones,firstType,secondType,education,industryField,positionId,positionAdvantage,positionName,positionLables,salary,workYearn'
    file = open('%s.txt' % '爬虫拉勾网', 'a')   #创建爬虫拉勾网.txt文件
    file.write(title)    #把title部分写入文件作为表头
    cityList = [u'北京', u'上海',u'深圳',u'广州',u'杭州',u'成都',u'南京',u'武汉',u'西安',u'厦门',u'长沙',u'苏州',u'天津',u'郑州']  #这里只选取了比较热门的城市,其他城市只几个公司提供职位
    for city in cityList:
        print('爬取%s' % city)
        myurl = 'https://www.lagou.com/jobs/positionAjax.json?px=default&city={}&needAddtionalResult=false&pn='.format(
            city)
        pagesize=start_requests(1)
        get_result(pagesize)
    file.close()

在pycharm上显示的效果大概就是这样的

其实这个爬虫部分的代码写的比较简单,运用知识主要是for循环,另外拉勾网对于我们请求的响应结果是json格式,也简化了我们的操作。操作的过程肯定会存在莫名的错误,大家要学会搜索并要有耐心啊。

图片 3

分析时间:2017 年 2 月
工具:RStudio, Number, R (爬取和分析使用的都是 R )
分析的代码和爬取到的数据:https://github.com/edvardHua/JobRequirementAnalysis

1 大数据领域需求画像综述概要

本报告撰写的目的:帮助大数据领域的从业者了解目前大数据领域职位的需求情况,为大数据领域的从业者或者即将进入大数据领域的朋友提供帮助。

本报告基础数据来源:使用爬虫爬取了智联招聘、前程无忧、拉勾网、中华英才网等主流招聘网站大数据领域相关等近期一个月内(2016八月下旬以及九月上旬数据)的职位(大数据开发、数据分析、数据挖掘&机器学习、云计算等几个细分领域)数据,通过技术手段进行去重,最终保留共4600份真实的企业大数据领域相关的JD数据。

本报告包含的内容:

整体大局概述:主要从大数据领域的技术细分方向、薪酬分布、城市分布、学历分布、经验影响、企业规模与大数据需求关系、各行业对大数据的需求情况、企业福利诱惑、大数据领域的技能需求等方面进行描述。

以“薪酬”为核心的影响因素分析:主要从技术方向与薪酬的关系、城市地域对薪酬的影响、从业经验对薪酬的影响、学历对薪酬的影响、不同阶段的企业对薪酬的影响、不同行业对薪酬的影响等几个方面,深入剖析大数据领域的薪酬影响因素,并提出相应的建议。

数据的清洗与处理

对于刚刚上面txt格式文件,我另存为了csv格式,并要把中文名改成英文名称,不然下面读取的时候易出错

import pandas as pd
import numpy as np
#read_csv()表示读取csv格式文件,'gb2312'表示csv文件格式的编码
df=pd.read_csv('C:/Users/lkx941013/PycharmProjects/dataanalyis/DataAnalyst.csv',encoding='gb2312')
#读取前五行
df.head()

下面是从拉勾网 上抓取下来的数据,因为技术原因只能为大家粘贴一部分

从上面的图中,我们能看出关于工资方面应该做出处理,这里只是一个工资的区间,下面我们把工资清理成平均值形式

import pandas as pd
import numpy as np
df=pd.read_csv('C:/Users/lkx941013/PycharmProjects/dataanalyis/DataAnalyst.csv',encoding='gb2312')
 #drop_duplicates()是去重函数,subset参数表示选择选择以哪个列为去重基准,数据集中positionId是职位ID,值唯一,所以选择positionId为基准。
df_duplicates=df.drop_duplicates(subset='positionId',keep='first')#keep='first'表示保留第一个,删除后面的重复值;keep='last'表示保留最后一个,删除前面的重复值
def cut_word(word,method):
    position=word.find('-')       #查找“7k-8k”这种形式"-"的位置
    length=len(word)         
    if position !=-1:       # "-1" 是False的意思,表示字符串中存在'-'
        bottomsalary=word[:position-1]
        topsalary=word[position 1:length-1]
    else:
        bottomsalary=word[:word.upper().find('K')]    #这里是指不存在'10k-15k'这种形式,数据中存在7k以上,k有的大写有的小写
        topsalary=bottomsalary
    if method=="bottom":        #获得工资下限
        return bottomsalary
    else:
        return topsalary          #获得工资的上限
df_duplicates['topsalary']=df_duplicates.salary.apply(cut_word,method="top")  # apply()函数形式:apply(func,*args,**kwargs),*args相当于元组,**kwargs相当于字典
df_duplicates["bottomsalary"]=df_duplicates.salary.apply(cut_word,method="bottom")#apply()函数作用:用来间接的调用一个函数,并把参数传递给函数
df_duplicates.bottomsalary.astype('int')# 字符串转为数值型
df_duplicates.topsalary.astype('int')
df_duplicates["avgsalary"]=df_duplicates.apply(lambda x:(int(x.bottomsalary) int(x.topsalary))/2,axis=1)  #lambda是一种函数,举例:lambda x:x 1,x是参数,x 1是表达式;axis=1表示作用于行
df_duplicates

下面的图中,大家能够看到生成了一列平均的数值

这里的数据清洗工作完成的比较简单,当初数据采集的时候做了准备,估计工作后清洗会比较复杂。

图片 4

数据挖掘岗位现状

分两块描述,第一块是基本的统计数据,包括数据挖掘在那个城市需求最旺盛,对应聘人员的学历要求,行业的分布和公司的财务状况。第二块围绕着薪酬做相关性的分析,主要是工作资历与薪酬之间的关系,以及行业与薪酬之间的关系。

图片 5

首先可以看到大部分数据挖掘岗位都分布在北京,上海,深圳和杭州,北京该岗位需求相当旺盛,差不多占据了一半的职位数量。从左边的饼图可以看出,大部分数据挖掘岗位对应聘者的学历要求为至少是本科以上。

图片 6

左边的条形图显示大部分的数据挖掘岗位都分布在移动互联网领域,另外,右边的饼图可以看出,上市公司和成长型 B 轮及 D 轮以上的公司对数据挖掘岗位的需求最大。

图片 7

从左边这张图可以看出,对于有 1-3 年经验的应聘者,企业的普遍工资在 16-20 K 左右的水平,而对于 3-5 年工作经验的应聘者,则普遍的工资在 21-25 K,另外有意思的是,许多职位对工作经验没有要求,但是也愿意给出不错的薪酬。从右边的图可以看出,移动互联网领域职位数量多且工资相对较高,若想找份高薪的工作,在移动互联网行业做数据挖掘是个不错的选择。

2 大数据领域职位需求画像

数据分析

  • 总体薪酬情况
df_clean=df_duplicates[['city','companyShortName','companySize','education','positionName','positionLables','workYear','avgsalary','industryField']]
import matplotlib.pyplot as plt       
%matplotlib inline  #%matplotlib inline是jupyter自带的方式,允许图表在cell中输出。
plt.style.use("ggplot")    #使用R语言中的ggplot2配色作为绘图风格,为好看
from matplotlib.font_manager import FontProperties        #matplotlib.Font_manager 是一种字体管理工具
zh_font = FontProperties(fname="C:\WINDOWS\Fonts\simsun.ttc")#matplotlib.Font_manager.FontProperties(fname) 是指定一种字体,C:\WINDOWS\Fonts\simsun.ttc 是字体路径,直接复制到电脑搜索,你看能不能找到
fig=plt.figure(figsize=(8,5))        #关于绘图方面,文末放了一个链接,讲述的比较详细
ax=plt.subplot(111)
rect=ax.hist(df_duplicates["avgsalary"],bins=30)
ax.set_title(u'薪酬分布',fontProperties=zh_font)
ax.set_xlabel(u'K/月',fontProperties=zh_font)     
plt.xticks(range(5,100,5))     #xticks为x轴主刻度和次刻度设置颜色、大小、方向,以及标签大小。

从上面的图中,我们可能很容易就能看出这是一个右分布。大多数10k-25k每月,当然也只有少数人获得了更高的薪酬。同时也期待大家能够成为那些薪酬极高的人。但这只是拉勾网显示的工资,实际情况就不知道了。

  • 不同城市薪酬分布情况
ax=df_clean.boxplot(column='avgsalary',by='city',figsize=(9,7))
for label in ax.get_xticklabels():
    label.set_fontproperties(zh_font)

北京市薪酬分布中位数大约在20k,居全国首位。其次是上海、杭州、深圳,中位数大约为15k左右,而广州中位数只大约为12k。现在大家有没有想去北京发展了呢?说实话我是有点心动了。

  • 不同学历的薪酬分布
ax=df_clean.boxplot(column='avgsalary',by='education',figsize=(9,7))
for label in ax.get_xticklabels():
    label.set_fontproperties(zh_font)

我们很容易看出来学历越高发展所获得工资是越高啊,博士薪资遥遥领先,但是在top区域不如本科和硕士,那么分析会不会存在一些问题呢?让我们先看一下招聘人数。

df_clean.groupby(['city','education']).avgsalary.count().unstack()   #unstack()函数可进行行列转置,大家不妨去掉看下效果

图上的结果很明确了,从图中我们能够明确的知道要求博士学历的岗位只有上海3个、北京2个、深圳1个,这6个职位要求,所以说薪资的总体范围和薪资中位数,就是完全依赖那几家公司的,波动性比较大。但回过头想一下,博士学历岗位只有6个呢,如果数据没有误的情况下,我的看法是:1. 高学历的数据分析师比较稀缺,他们不通过职业网站找工作而是被一些公司直接给挖走了;2. 高学历的研究生可能就不做数据分析了,他们可能从事数据挖掘、大数据分析架构或是人工智能方面了(一点灼见)

  • 北京上海工作经验不同薪酬分布情况

对于方面经验不充足,但又想去北京和上海这两个城市发展的朋友们,用数据告诉你去哪个城市易于发展

df_bj_sh=df_clean[df_clean['city'].isin(['上海','北京'])]
ax=df_bj_sh.boxplot(column='avgsalary',by=['workYear','city'],figsize=(19,6))
for label_x in ax.get_xticklabels():
    label_x.set_fontproperties(zh_font)

从图中我们能够得出,对于工作一年以下的,上海和北京两个地方薪资基本一致,但是有能力的人在北京能够得到较高的薪水。对于工作1-3年的人,北京工资的中位数都要比上海的上四分位数要大了。如果你的工作经验还不大充足,你想好去哪里发展了吗?(相应的,北京的互联网人才是比较多,竞争也比较激烈)

  • 北上广深对数据分析职位需求量
def topN(df,n=5):
    counts=df.value_counts()    #value_counts()统计所有非零元素的个数  
    return counts.sort_values(ascending=False)[:n]    #sort_values()对数据进行排序,ascending是设置升序和降序
df_bj_sh_gz_sz=df_clean[df_clean['city'].isin(['上海','北京','广州','深圳'])]
df_bj_sh_gz_sz.groupby('city').positionName.apply(topN)

我们现在可以看出,虽然想抓取的是数据师职位的情况,但得到的是和数据分析相关的职位,自己还是要在获取数据、数据清理方面多下功夫啊。
不管怎样我们还是能够得出来,观察北上广深的数据分析师职位数量,还是北京力压群雄啊。

  • 公司所处行业领域词云图分析
import re  #re模块提供了对正则表达式的支持
import jieba as jb
from wordcloud import WordCloud
word_str = ','.join(df_clean['industryField']) # 以','为分隔符,将所有的元素合并成一个新的字符串,注意:csv文件中,单元格之间有逗号。
#对文本进行分词
word_split = jb.cut(word_str) #精确模式
#使用|作为分隔符
word_split1 = "|".join(word_split)
pattern=re.compile("移动|互联网|其他|金融|企业|服务|电子商务|O2O|数据|服务|医疗健康|游戏|社交网络|招聘|生活服务|文化娱乐|旅游|广告营销|教育|硬件|信息安全")
#匹配所有文本字符;pattern 我们可以理解为一个匹配模式,用re.compile()方法来获得这个模式
word_w=pattern.findall(word_split1)   #搜索word_split1,以列表形式返回全部能匹配的子串
word_s = str(word_w)
my_wordcloud = WordCloud(font_path="C:\WINDOWS\Fonts\simsun.ttc",width=900,height=400,background_color="white").generate(word_s)
plt.imshow(my_wordcloud)
plt.axis("off")    #取出坐标轴
plt.show()

如果仔细看得出来的这张云图有些怪怪的,怎么都有重复的词汇呢?我想着应该是分词的问题,一时半会没有解决,就暂时用了BDP个人版制作云图了。效果如下,但也不是太理想,所以接下来也要仔细研究下制作云图了。

如图所示:对于数据分析这一职位需求量大的主要是在互联网、移动互联网、金融、电子商务这些方面,所以找工作的话去这几个领域获得职位的几率估计是比较大的。我想这可能还有另一方面的原因:拉勾网本身主要关注的就是互联网领域,等自己技术成熟了,要爬虫获得一份包含所有行业的数据进行一次分析。

登录拉勾网,搜索“数据产品经理”,点开开发者工具后,观察代码后开始写爬虫。

从事数据挖掘行业,需要具备哪些技能组合

将爬取到的全部职位描述汇总在一起后,总共有差不多 30 万字的职位描述。这里首先使用 jiebaR 中文分词库对文本进行分析和挖掘。在挖掘之前,首先需要简历自己的词料库,我使用的词料库是从网上搜查得到,感兴趣可点击此处查询。

首先使用 jiebaR 库对 30 万字的职业描述进行关键字(TF_IDF 算法)提取,结果如下:

"数据挖掘" "算法" "数据" "经验" "熟悉" "机器学习" "优先"

关键字高度概括了企业对应聘者的需求,拿这些词造句的话,应该可以理解为:

「我们需要找一位熟悉数据结构和机器挖掘算法的人。另外,具备经验者优先。」

随后,再根据自己收集的语料库进行词频统计,做成云图,结果如下:

图片 8

从词云和术语出现次数可以看出,想要从事数据挖掘,除了要熟悉基本的编程语言和框架外( Python,Hadoop,Java,Spark,R ),统计学也被很多企业所提及。

2.1 先来个大菊整体情况!

我们需要苦练哪些技术?

大数据-细分技术领域需求分布图

我们将大数据领域细分为数据分析、大数据开发、数据挖掘&机器学习以及云计算等四个具体的子类。

目前我国的大数据领域整体还是偏基础分析方面,这也就是为何数据分析与大数据开发的需求量巨大,而偏高级的挖掘与机器学习的子领域则需要进一步的发展,及早投入还是有比较大的前景的。而作为偏基础设施的云计算领域,虽然已经有火的苗头,但从目前看需求量并不是很大。

听说大数据猿们收入很高?

大数据-薪酬分布图

在整体的分布中,5-10K的猿类占据了大头,接近2/5,但从月薪10K之后可以看到依然有不少的需求分布,特别是40K以上的高薪酬依然有64个JD需求出现(这里计算的薪酬是JD的上下限的均值,比较趋近于真实需求)。

并且在排除少部分面议需求的JD,我们可以看到,整体的平均薪酬为11808,着着实实是一个高收入的群体,赶紧拿出工资条看看,你到了及格线了没有?!

看看哪个城市搞大数据的需求多?

大数据-城市需求分布

帝都果真是帝都,硬生生的占据了全国36.5%的需求量,比上深广三个城市加起来需求还高。

据笔者北京深圳两地的切身体会,在大数据领域,北京确实不亏为执牛耳者,大数据的技术氛围是其他城市短时间内无法匹敌的,所以如果真的想投入这一行当,建议还是考虑去帝都喝几年的浑水,妥妥的有帮助。

值得注意的是杭州这个城市,在大阿里的带动下,在IT方面,其高新技术的需求量也很大,已经一举超越了北上广深中的大广州,跃居第四,潜力无穷啊。

不过在除上Top11城市之外的盆友,也不要捉鸡,其他城市依然占据有6.9%的分布,近300多个职位需求,可以看出大数据目前已经祖国各地遍地开花了。

我刚毕业,你们要我吗?

大数据-经验需求分布图

经验不限的已经占据了近一半的需求,在剩余的需求中,1-3年的大数据中低级工程师的需求比较高,3-5年的大数据中高级工程师需求次之,对于5-10的“砖家”依然还是有需求的。

But,10年以上是什么鬼?好吧,其实我在《你们是不是很缺大数据工程师?》一文中曾说过,大数据这个领域真正的发展有没有超过10年?张口就要10年背景的人,那只能呵呵了。当然,如果你只需要一个开发经验在10年以上的,那是可以理解的。

整体来说,大数据这个方向,平均经验不会超过2年,普遍在1.5左右,能够有3-5年的真实技术背景,就是半个“砖家”了,能够有七八年,那绝对是元老级人物了。

所以,整体来看,大数据整个领域在IT界,也绝对算是一个年轻领域了,所以还不在坑里的盆友,赶紧到坑里来,再不来,1-3年的就成砖家了,而到时经验不限估计就成绝响了。

我才本科学历毕业,我的学历够吗?

大数据-学历需求分布

所以,本科毕业的盆友们,俺在这里告诉你们,本科太够了,大数据的门槛并没有想象中高,这个领域的主力大军依然本科生与大专生。

所以,作为本科毕业的你,是不是该松一口气了,麻麻再也不用担心你找不到大数据相关的工作了。

都是什么样的企业公司需要大数据猿?

大数据-不同阶段企业需求分布图

从这里我们知道,大数据并不是什么高大上的技术,从0-100人的微型企业,到1W人以上的巨无霸级的公司,都在需求大数据猿。

并且整体分布并没有说呈现一边倒的趋势,整体分布还是比较平均的,各个规模阶段的企业公司都在需求大数据领域的人才。

由此可见,大数据这个技术领域不是一般的火爆,他依然成为一个企业的标配技术。你不用用它,你就OUT了!

听说大数据在互联网行业很火?

大数据-不同行业需求分布图

大数据这个技术确实是在互联网行业中率先火爆起来的,但是,我们依然不能忽视其他传统IT领域对新兴技术的敏感。

除了互联网/电子商务行业,传统的诸如计算机服务/软件、金融/基金/证券/投资、通讯行业以及其他专业服务领域等,都在热火朝天的搞大数据。

哪怕是万恶的地产商,他们也知道数据这玩意儿可以让更多人的心甘情愿的掏钱买房,所以大力投入资源在做大数据。

除了列举的部分TopN的行业之外,还有茫茫多的其他行业,也在热火朝天的搞大数据,占据了整体需求的30%左右。

不过据笔者所了解的,其他传统行业虽然也在搞大数据,但整体进度上会比互联网的慢上不少。

所以如果你真的想练就大数据的“本领”,建议还是优先选择互联网或者电子商务行业,等你学成归来,再去支援其他传统IT行业的“大数据西部”建设。

那些企业都是怎么勾引大数据猿们的?

大数据-企业职位吸引手段云图

企业使用最多Top5的安利手段分别为:五险一金、带薪年假、节日福利、绩效奖金、员工旅游。

而且,看来企业为了让大数据猿们跳入碗里来,真是无所不用其极啊,什么“五险一金”这种战略级常规必备选项就不说了,连尼玛“单身多”、“帅哥美女多”这种都来了,不明白的乍一看还以为是婚姻介绍所呢!

我们该苦练哪些生存技能?

大数据-需求技能云图

Hadoop生态的相关技术,例如hadoop、spark、HDFS、Hive等,基本已经成为了大数据领域的必备技能。

而在语言方面,依然是JAVA、Scala、Python等表现比较活跃。需要额外注意的是,大数据领域对于开源能力、以及学习能力等开放型的能力比较看重。

另外一个值得注意的现象是,虽然从之前的统计数据中,我们可以看到数据挖掘&机器学习类的需求远低于大数据开发以及数据分析等方面的需求,但从技能需求上看,数据挖掘、机器学习相关的技能的需求量很高,诸如用户画像、算法、个性化、推荐系统等。

这是否意味着企业已经有意识的在找寻能够往数据深度挖掘等方向发展的攻城狮?

分析结论

从总体薪酬分布情况上,数据分析这一职业工资普遍较高的,大多人是在10k-25之间每月,但这只是拉勾网显示的工资,具体的就不太清楚了。

从不同城市薪资分布情况得出,在北京工作的数据分析师工资中位数在20k左右,全国之首。其次是上海、杭州、深圳,如果要发展的话,还是北、上、深、杭比较好啊。

从不同学历薪资情况得出,学历越高发展所获得工资是越高,其中专科生略有劣势,我想的是数据分析应该对数学有一定要求,毕竟大学是学了数理统计、高等数学还线性代数的。

根据北京上海工作经验不同薪酬分布情况,得出如果有些工作经验去北京比上海获得的工资要高一些。

分析北上广深的数据分析师职位需求数量,北京以238个获得最高。

根据公司所处行业领域词云图分析,对于数据分析师需求量大的行业主要是互联网、电子商务、金融等领域。

图片 9

项目结构

地址:https://github.com/edvardHua/JobRequirementAnalysis
使用到的 R 包:ggplot2, jiebaR, wordcloud2
项目结构:

  ├── data
  │ ├── position- 1:63 拉勾网的原始数据,为 json 格式
  ├── cache
  │ ├── position_after_cleaning.csv 预处理后的数据,直接读取既可使用
  │ ├── ...
  ├── corpus
  │ ├── collected.dict.utf8  数据挖掘领域相关的语料库
  │ ├── ...
  ├── graphs
  │ ├── ...
  ├── src
  │ ├── curl.R 爬虫
  │ ├── clean.R 数据清洗
  │ ├── func.R 公共函数
  │ └── statistics.R 统计结果可视化
  │ ├── mining.R 关键字提取和词频统计
  └── tests
      └── test.R

2.1 一切向“钱”看!

我要选择一个钱多的技术方向!

大数据-薪酬-技术方向关系

在此之前我们知道,数据分析方向以及大数据开发方向的人才需求是最多的,但是当我们再深入向“钱”看的时候会发现,就平均薪酬来说,数据分析方向的的薪酬是大大比不上大数据开发人猿的。

而挖掘与机器学习方向,作为巅峰的存在,其平均月薪已经达到了1.6W的IT行业高水平,这仅仅是平均薪酬呐!

而笔者作为入坑四年多的选手,也一直不敢对外宣称咱是蓝翔毕业的,最多也就说说半路出身,开过挖掘机,无证上岗而已。

我们再来看一个补充数据:

大数据-薪酬-技术方向对应经验需求关系

由此可知,数据挖掘&机器学习这个细分领域,确实是需要门槛的,其平均经验需求最高,达到了2.18年,而数据分析的门槛相对较低,只有1.6,基本入行个一年多就能达标了。所以,这个价位贵也是有理由的,不止是年份,其技术需求也比较高。

已入大数据开发分析等坑的骚年们,可以考虑往更高层次的数据挖掘&机器学习细分领域发展,大数据领域的一个发展方向,必然是从基层开发、简单数据分析到高级挖掘过渡的,先占据技术高地,把自身立于不败之地。

最后,至于云计算~~,好吧,咱不说也罢,暂时不推荐入坑。

来,看看你有没有拖你们城市的后腿!

大数据-薪酬-所在城市影响

在之前我们已经知道,全国的平均薪酬(月薪,单位RMB)在11808左右,从图中可以看到,除了深圳、北京、上海,在大数据领域,其他城市都拖了北上深的后腿。

令人惊讶的是,在人才需求量远没有帝都多的深圳,其平均薪酬竟然是最高的,虽然领先于帝都并不多。这意味着深圳野心勃勃,在挖帝都的墙角?

好了,不说了,笔者已经哭晕在厕所了,对不起观众,拖全国大数据人民的后腿了/(ㄒoㄒ)/~~

来,看看你有没有白混这么多年!

大数据-薪酬-工作年限影响

现实是很残酷的,平均薪酬跟随者你的工作年份呈正向上涨,所以老老实实的安心踏实干吧,熬年头。

作为应届生最喜欢的“经验不限”,其平均月薪能够达到9174,想想当年笔者刚毕业那会儿,好吧,我又想去厕所哭一会儿了。是技术越来越值钱了,还是钱越越不值钱了?!大写的一脸懵逼!

对于大数据高端人才来说,其平均薪酬为接近3W,其实在我看来,这个水平是偏低的,但是据我所了解到的,之所以会出现这种情况,一样如我之前文章中所说的,很多偏传统的IT企业,其JD招聘喜欢把年龄要求放大,但是薪酬又普遍偏低,我想可能是由于这个原因导致的吧。

真实来讲,互联网企业的大数据招聘在薪酬这块是比较贴近真实的,特别是在大数据中高端人才需求上,还是比较大方的。

又回到了本科学历够不够的问题,纠结!

大数据-薪酬-学历影响

在上面,我们曾经疑问“本科毕业,学历够不够”?从需求数量来看,本科毕业的需求量一直是NO.1的。

BUT,在这里,我们又该纠结了,一看这平均薪酬不是这么回事儿啊!这硕士博士平均薪酬一节一节往上涨,不纠结都不行啊!

就笔者个人经验来讲,个人认为如果单纯的想从事大数据领域的人来说,博士还是建议慎重考虑,毕竟投入与产出好像并不是很划算,但是硕士这个学历建议还是值得考虑的,一方面是薪酬待遇的考量,另一方面是考虑自身在大数据领域里的进一步发展。

正如之前所说的,大数据领域的更深一层次发展,必然是以数据挖掘&机器学习等为主技术的阶段,而挖掘与机器学习领域对于基础知识的要求相对会更高一些,硕士毕业的更具有优势。

但同样,也存在风险,毕竟一个技术领域的需求市场是会饱和的,假设你现在在念本科,等你真正硕士毕业了,说不定黄花菜都凉了,整个大数据领域已成定局,彼时再入坑,说不定含金量就低了一些。

我要去大公司,大公司待遇好。扯!

大数据-薪酬-企业所处阶段影响

跟我们臆想的并不一样,大公司好像并没有更大方,反倒更小气。不过这点我也需要稍微的为大公司,应该说互联网大公司,正正名。

据我观察,导致超级大型企业的大数据职位需求平均薪酬偏低的,依然是偏传统的超大型企业,他们大量的需求偏中低端的数据分析人员,导致了薪酬偏低,互联网的大型企业对于薪酬待遇还是蛮对口的。

不过,整体来看,确实是企业的规模对于薪酬的影响几乎可以忽略,所以,如果你还在只是犹豫大小企业薪酬高低的时候,还犹豫个球,选个喜欢的进去就行了。

是时候进入互联网从事大数据工作了!

大数据-薪酬-所处行业影响

互联网作为大数据的发源地,其平均薪酬在所有行业中是最高的,这点事毋庸置疑的。

而通信行业,其价格偏低,笔者也可以稍微的猜测一下,是由于通信行业外包的大行其道,拉低了整个行业的大数据薪酬情况,这点大伙儿也可以一起讨论一下是不是因为这个原因。

值得探讨的是,部分专业服务,例如财务咨询、法律、人力资源市场等方面,其大数据职位的平均薪酬紧随互联网/电子商务之后,这说明越来越多的垂直专业服务领域,为了根据数据定制更为人性化的服务,已经开始把资源更多的往数据方面投入了。

思考总结

今天这篇文章进行了更新,主要是用爬虫获得了数据分析师职位信息,其实是多亏了猴哥昨天说"可以学会爬虫",我当时在想,猴哥可能认为我能做到,哈哈,自恋了。这篇文章的制作云图方面,出现了云图上的字有重复现象,接下来还是要弄清楚jieba分词原理和使用。在分析问题方面,还没有做到维度细分,分析思路方面还有很大欠缺,接下来要看一些分析报告。对于这篇文章,大家发现了问题,要多多指教啊,肯定及时更正。

福利1:如果爬虫没有实现的话,可暂时用这份数据进行 练习
福利2:numpy、pandas、matplotlib的使用

爬取结果

3 看到了这里,你想到了什么

*
*

决定毕业了就搞大数据?

突然很激动想转行了?

感觉自己拖了整个世界的后腿?

是时候考虑跳槽了?

后悔当年没有继续念书了?

突然很想去帝都见识一番了?

打算买一摞子书, 苦练技能了?

整体来说,大数据领域从10年左右开始在国内受到关注,历经了以MapReduce为核心的批量处理时代,再过渡到以Spark为核心的实时处理、内存处理的时代,再到多层混合架构。

直到今天整个数据中心融入了从数据收集,到数据清洗、到数据仓库存储、到分析挖掘、到实时处理、到上层应用,甚至是融合搜索、推荐、个性化等高深层次的数据应用。

形成了一整个数据解决方案,一整套完整的数据架构,所以说它俨然已经是一个技术领域也毫不为过!

就笔者个人认为,大数据已经在国内火了六七年,甚至是七八年,目前虽然从业者甚众,但在未来的一两年内,依然还有很大的需求量。

且目前国内整体层次上还处于比较初级的水平,在未来的两三年中,国人将不再满足于简单的数据分析,到时将会需求大量具有数据深度挖掘能力的人才。

所以,建议大数据领域的中初级盆友,可以适当的有意识的储备数据挖掘方面的相关知识。

(全文完)

图片 10

编辑:火爆棋牌 本文来源:拉勾数据分析实战:数据产品经理薪资解密

关键词: IT行业 程序... 大数据&数据挖