条数据验证防脱洗发水是不是伪命题
北京较好的手足癣医院 http://m.39.net/baidianfeng/a_8833423.html
上一篇文章: 护发这件事真的不是1支洗发水1支护发素 下一篇文章: 没有了
-点击上方“中国统计网”设置?星标不迷路!-
文末领取最近,小编陷入了一个脱发死循环。
照镜子隐隐若现的头皮,洗完头地上乌压压的断发,让他无时无刻不担心自己的发量,一担心怎么办呢?挠头呗!
越脱发,越担忧;越担忧,越挠头;越挠头,越……脱发...
“为什么不试试防脱洗发水呢?我有好几个同事在用。”我实在不忍心小编继续循环下去。
小编义正言辞:“我听说那些玩意儿没什么用啊!现在产品都喜欢打概念!”
“没有调查就没有发言权,你这样下定论太主观了。要不咱们从数据的角度来论证一下,防脱洗发水是不是个伪命题?”
“有点意思!”小编来了劲儿。
说干就干。要论证防脱洗发水是不是个伪命题,得先搞清楚谁对防脱洗发水最有发言权。
答案显而易见,买过防脱洗发水的朋友,他们对产品的评价,是最简单粗暴的论据。
所以,我们以淘宝为例,爬取5款热销洗发水评价数据,综合分析效果。
01数据获取
目前淘宝反爬(尤其是滑块等验证)实在让人头大,但是呢,我发现爬取评价数据,并不一定需要和登录滑块硬刚,用slnium是可以绕过的。
部分代码如下,对爬取感兴趣的同学可以在文末链接下载详细代码,不感兴趣的同学直接往下滑:
importpandasaspdfromslniumimportwbdrivrimportrandomimportosimporttimdrivr=wbdrivr.PhantomJS()dfgt_pag(drivr):rsult=pd.DataFram()foriindrivr.find_lmnts_by_xpath(//div[
class="rat-grid"]/tabl/tbody/tr):try:contnt=i.find_lmnt_by_xpath(td[class="tm-col-mastr"]/div[class="tm-rat-contnt"]).txt#评价日期dat=i.find_lmnt_by_xpath(td[class="tm-col-mastr"]/div[class="tm-rat-dat"]).txt#购买产品sku=i.find_lmnt_by_xpath(td[class="col-mta"]/div[class="rat-sku"]).txt#用户名usrnam=i.find_lmnt_by_xpath(td[class="col-author"]/div[class="rat-usr-info"]).txtappnd_tim=Nonappnd_contnt=Nonxcpt:contnt=i.find_lmnt_by_xpath(td[class="tm-col-mastr"]/div[class="tm-rat-prmir"]/div[class="tm-rat-contnt"]).txt#评价日期dat=i.find_lmnt_by_xpath(td[class="tm-col-mastr"]/div[class="tm-rat-prmir"]/div[class="tm-rat-tag"]/div[class="tm-rat-dat"]).txt#购买产品sku=i.find_lmnt_by_xpath(td[class="col-mta"]/div[class="rat-sku"]).txt#用户名usrnam=i.find_lmnt_by_xpath(td[class="col-author"]/div[class="rat-usr-info"]).txtappnd_tim=i.find_lmnt_by_xpath(td[class="tm-col-mastr"]/div[class="tm-rat-appnd"]/div[1]).txtappnd_contnt=i.find_lmnt_by_xpath(td[class="tm-col-mastr"]/div[class="tm-rat-appnd"]/div[2]).txtdf=pd.DataFram({用户名:[usrnam],购买产品:[sku],评价日期:[dat],初次评价内容:[contnt],追评时间:[appnd_tim],追评内容:[appnd_contnt]})rsult=pd.concat([rsult,df])rturnrsult,drivr02热门
转载请注明:http://www.fdblog.net/xfgjw/14370.html