FPs

找出共同喜好最多的豆友

之前有一个想法,遍历豆瓣的用户,找出共同喜好最多的朋友,由于豆瓣的反爬虫挺粗暴的,一直没想好怎么做,如果遍历ID,估计豆瓣埋了不少雷。

1:
抓下友邻列表:接口:https://www.douban.com/contacts/rlist?start=,过滤得到ID列表。

1
2
3
4
5
6
7
8
#!/usr/bin/env bash
list=""

for i in `seq 0 20 200`;do
  curl -s 'https://www.douban.com/contacts/rlist?start='"${i}" -H ... \
  | grep '<li id="u' | grep -oE '[0-9]+' >> ${list}
  sleep 3
done

2:
用第1步中的用户名ID列表,访问主页,得到共同喜好数,排序,

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
#!/usr/bin/env bash
list=""
out=""

for i in `cat ${list}`; do
  num=`curl -s 'https://www.douban.com/people/'"${i}/" -H ... |grep -Eo "共同的喜好\([0-9]+\)" |grep -Eo '[0-9]+' || echo "0"`
  echo $num "  " $i >> ${out}
  sleep 3
done

cat ${out} | sort -rn

得到下列结果:

喜好   ID               印象
141    46814962   @holys ,之前在广东的一个朋友,目前在小米工作,不知道是不是校友?
136    104099602 @邻家の柠檬叔 ,在北京的一个大叔,好像通过哲川师兄转的广播认识。
130    34411334  @nash_su ,不太了解,也是北京的朋友,看个人介绍是一个很故事的人。
128    44086637   @lastmayday ,可爱并且厉害的女生,在阿里做DBA的前端工程师?。
128    1596551    @大雨晴空 ,记得之前是在云风的公司工作的广州朋友,目前在澳大利亚。
127    1000916     @matchone ,不太了解,看坐标是老乡。
125    1657637   @bingo ,同样不太了解。
124    49827002   @Fancy ,看起来是一个码农兄弟。
120    18601023   @C ,香港,摄影,具体做什么不太了解,应该是一个很有意思的人。
107    3667894  @牧南 ,在北京的朋友。
103    57771053 @我爱打小怪 , 小麻同学。
99    3478006   @陶然 ,不太了解,看主页是一个弯弯的朋友。
97    71367443  @zangbianxuegu ,在北京的朋友。
95    3075052  @imagelife ,哲川介绍认识的运维大叔。
91    2648188  @lococo__0 ,看介绍也是在广州的码农。
80    2552349  @沐洲 ,也是在北京的朋友。
78    4328363  @yetone ,也是在北京的朋友。
77    4001142  @XTAo ,之前在豆瓣的运维,还是我现在的小组leader 的同校师弟=。=。
76    1175475   @E.T ,大山中学校友,之前也在豆瓣。
75    60269442  @gtdhuer ,深圳的朋友,不太了解。
74    102991781  @7酱 ,不看恐怖片的处女座。
.....略

几个感觉,IT 行业的朋友居多,同时在北京的朋友居多,两者应该有一定的相关性,毕竟北京是中国互联网的“半壁江山”。共同喜好基本集中在我看过的一些IT 类的书籍以及电影。
虽然这个“共同喜好”参考的价值不大,但是还是挺好玩的。

2016-05-29 douban