python爬蟲中文-tft每日頭條

在使用爬蟲程序下爬數據時候，經常會遇到亂碼的問題，那遇到亂碼該怎麼辦呢？

一般大家看到亂碼，下意識的覺得會不會是爬蟲爬錯東西了？其實沒有，這個就是簡單的編碼的問題。

一般在爬蟲程序中，涉及到編碼格式的地方有兩處，一處是在發起請求後，對返回的内容進行解碼；另一處是在保存文件時，設置編碼格式。下面我們分開來說。

1. 發起請求，獲取網頁内容階段

一般的網站的編碼格式都是 UTF-8，所以當你系統的默認編碼也是 UTF-8 時，也就是說，你的默認編碼方式和目标網站的編碼方式一緻時，即使不明确設置編碼方式，也不會出問題。

但是如果不一緻，便會出現亂碼。這也是為什麼經常有明明在我電腦上運行是好的，為什麼在你電腦上就亂碼了這樣的問題。這種問題解決也很簡單，隻要在代碼中設置一下 encoding 即可。這裡建議一種方法，r.encoding = r.apparent_encoding ，這個可以自動推測目标網站的編碼格式，省的你自己去一個個設置（當然極少數情況下它可能會推測錯誤出現亂碼，到時候你再手動去查看網頁編碼，手動設置吧）。

def fetchURL(url): headers = { 'accept':'text/html,application/xhtml xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8', 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36', } r = requests.get(url,headers=headers) # 這裡設置編碼格式 r.encoding = r.apparent_encoding return r.text

2. 保存文件時的編碼錯誤

這個是讀者朋友們反映較多的一個問題，就是爬取過程中沒問題，但是用 excel 打開保存好的 csv 文件時出現亂碼（用記事本打開沒問題），這個其實就是文件的編碼方式和 Excel 的解碼方式不一緻導緻的。

在 dataframe.to_csv 這句，參數裡添加一個 encoding='utf_8_sig'，指定文件的編碼格式，應該就可以解決了。

import pandas as pd def writePage(urating): ''' Function : To write the content of html into a local file ''' dataframe = pd.DataFrame(urating) dataframe.to_csv('filename.csv',encoding='utf_8_sig', mode='a', index=False, sep=',', header=False )

之前亂碼的 csv 文件，可以用記事本打開，然後點另存為，然後選擇編碼格式，ANSI ，unicode，UTF-8 都可以，然後保存之後，再次用 excel 打開就是正常的了。

3. 常見亂碼類型

常見的亂碼情況有以下幾種，大家可以參考一下。

python爬蟲中文（爬蟲遇到亂碼怎麼辦）1