FPs

找出共同喜好最多的豆友

之前有一個想法,遍歷豆瓣的用戶,找出共同喜好最多的朋友,由於豆瓣的反爬蟲挺粗暴的,一直沒想好怎麼做,如果遍歷ID,估計豆瓣埋了不少雷。

1:
抓下友鄰列表:接口:https://www.douban.com/contacts/rlist?start=,過濾得到ID列表。

1
2
3
4
5
6
7
8
#!/usr/bin/env bash
list=""

for i in `seq 0 20 200`;do
  curl -s 'https://www.douban.com/contacts/rlist?start='"${i}" -H ... \
  | grep '<li id="u' | grep -oE '[0-9]+' >> ${list}
  sleep 3
done

2:
用第1步中的用戶名ID列表,訪問主頁,得到共同喜好數,排序,

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
#!/usr/bin/env bash
list=""
out=""

for i in `cat ${list}`; do
  num=`curl -s 'https://www.douban.com/people/'"${i}/" -H ... |grep -Eo "共同的喜好\([0-9]+\)" |grep -Eo '[0-9]+' || echo "0"`
  echo $num "  " $i >> ${out}
  sleep 3
done

cat ${out} | sort -rn

得到下列結果:

喜好   ID               印象
141    46814962   @holys ,之前在廣東的一個朋友,目前在小米工作,不知道是不是校友?
136    104099602 @邻家の柠檬叔 ,在北京的一個大叔,好像通過哲川師兄轉的廣播認識。
130    34411334  @nash_su ,不太瞭解,也是北京的朋友,看個人介紹是一個很故事的人。
128    44086637   @lastmayday ,可愛並且厲害的女生,在阿里做DBA的前端工程師?。
128    1596551    @大雨晴空 ,記得之前是在雲風的公司工作的廣州朋友,目前在澳大利亞。
127    1000916     @matchone ,不太瞭解,看坐標是老鄉。
125    1657637   @bingo ,同樣不太瞭解。
124    49827002   @Fancy ,看起來是一個碼農兄弟。
120    18601023   @C ,香港,攝影,具體做什麼不太瞭解,應該是一個很有意思的人。
107    3667894  @牧南 ,在北京的朋友。
103    57771053 @我爱打小怪 , 小麻同學。
99    3478006   @陶然 ,不太瞭解,看主頁是一個彎彎的朋友。
97    71367443  @zangbianxuegu ,在北京的朋友。
95    3075052  @imagelife ,哲川介紹認識的運維大叔。
91    2648188  @lococo__0 ,看介紹也是在廣州的碼農。
80    2552349  @沐洲 ,也是在北京的朋友。
78    4328363  @yetone ,也是在北京的朋友。
77    4001142  @XTAo ,之前在豆瓣的運維,還是我現在的小組leader 的同校師弟=。=。
76    1175475   @E.T ,大山中學校友,之前也在豆瓣。
75    60269442  @gtdhuer ,深圳的朋友,不太瞭解。
74    102991781  @7酱 ,不看恐怖片的處女座。
.....略

幾個感覺,IT 行業的朋友居多,同時在北京的朋友居多,兩者應該有一定的相關性,畢竟北京是中國互聯網的“半壁江山”。共同喜好基本集中在我看過的一些IT 類的書籍以及電影。
雖然這個“共同喜好”參考的價值不大,但是還是挺好玩的。

2016-05-29 douban