我們在使用爬蟲的時候,如果需要高頻率或者長時間去爬取一個網站的時候,都會使用代理IP,以防自己的IP被對方封禁,那麼,我們要怎麼來辨别自己用的是什麼代理呢?
我們可以通過header來區分
1.沒有使用代理服務器
REMOTE_ADDR = 自己的真實IP
HTTP_VIA = 沒數值或不顯示
HTTP_X_FORWARDED_FOR = 無數值或不顯示
2.使用透明代理服務器(Transparent Proxies)
REMOTE_ADDR = 最後一個代理服務器 IP
HTTP_VIA = 代理服務器 IP
HTTP_X_FORWARDED_FOR = 自己的真實IP,經過多個代理服務器時,這個值類似如下:118.155.8.45, 158.187.22.169, 119.181.68.23
3.使用普通匿名代理服務器(Anonymous Proxies)
REMOTE_ADDR = 最後一個代理服務器 IP
HTTP_VIA = 代理服務器 IP
HTTP_X_FORWARDED_FOR = 代理服務器 IP ,經過多個代理服務器時,這個值類似如下:119.188.68.169, 119.188.68.231
此類代理服務器隐藏了真實IP,但是向訪問對象透露了您是使用代理服務器訪問他們的。
4.使用高匿名代理服務器(High Anonymity Proxies (Elite proxies))
REMOTE_ADDR = 代理服務器 IP
HTTP_VIA = 沒數值或不顯示
HTTP_X_FORWARDED_FOR = 沒數值或不顯示 ,經過多個代理服務器時,這個值類似如下:119.188.68.169, 119.188.68.231
此類代理服務器完全用代理服務器的信息替代了你的所有信息,就像你就是完全使用那台代理服務器直接訪問對象一樣。
以上就是辨别代理的方法,希望對大家有所幫助。
,