首页
/
每日頭條
/
生活
/
python爬蟲中文
python爬蟲中文
更新时间:2026-06-11 06:03:14

在使用爬蟲程序下爬數據時候,經常會遇到亂碼的問題,那遇到亂碼該怎麼辦呢?

一般大家看到亂碼,下意識的覺得會不會是爬蟲爬錯東西了?其實沒有,這個就是簡單的編碼的問題。

一般在爬蟲程序中,涉及到編碼格式的地方有兩處,一處是在發起請求後,對返回的内容進行解碼;另一處是在保存文件時,設置編碼格式。下面我們分開來說。

1. 發起請求,獲取網頁内容階段

一般的網站的編碼格式都是 UTF-8,所以當你系統的默認編碼也是 UTF-8 時,也就是說,你的默認編碼方式和目标網站的編碼方式一緻時,即使不明确設置編碼方式,也不會出問題。

但是如果不一緻,便會出現亂碼。這也是為什麼經常有 明明在我電腦上運行是好的,為什麼在你電腦上就亂碼了 這樣的問題。這種問題解決也很簡單,隻要在代碼中設置一下 encoding 即可。 這裡建議一種方法,r.encoding = r.apparent_encoding ,這個可以自動推測目标網站的編碼格式,省的你自己去一個個設置(當然極少數情況下它可能會推測錯誤出現亂碼,到時候你再手動去查看網頁編碼,手動設置吧)。

def fetchURL(url): headers = { 'accept':'text/html,application/xhtml xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8', 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36', } r = requests.get(url,headers=headers) # 這裡設置編碼格式 r.encoding = r.apparent_encoding return r.text

2. 保存文件時的編碼錯誤

這個是讀者朋友們反映較多的一個問題,就是爬取過程中沒問題,但是用 excel 打開保存好的 csv 文件時出現亂碼(用記事本打開沒問題),這個其實就是文件的編碼方式和 Excel 的解碼方式不一緻導緻的。

在 dataframe.to_csv 這句,參數裡添加一個 encoding='utf_8_sig',指定文件的編碼格式,應該就可以解決了。

import pandas as pd def writePage(urating): ''' Function : To write the content of html into a local file ''' dataframe = pd.DataFrame(urating) dataframe.to_csv('filename.csv',encoding='utf_8_sig', mode='a', index=False, sep=',', header=False )

之前亂碼的 csv 文件,可以用記事本打開,然後點另存為,然後選擇編碼格式,ANSI ,unicode,UTF-8 都可以,然後保存之後,再次用 excel 打開就是正常的了。

3. 常見亂碼類型

常見的亂碼情況有以下幾種,大家可以參考一下。

python爬蟲中文(爬蟲遇到亂碼怎麼辦)1

,
Comments
Welcome to tft每日頭條 comments! Please keep conversations courteous and on-topic. To fosterproductive and respectful conversations, you may see comments from our Community Managers.
Sign up to post
Sort by
Show More Comments
推荐阅读
用羅漢果泡水要把殼去掉嗎
用羅漢果泡水要把殼去掉嗎
用羅漢果泡水要把殼去掉嗎?羅漢果泡水是不需要去殼的,而且也不會影響到羅漢果的口味和藥效但是有一點大家需要知道羅漢果有一定的副作用:那就是太甜了,而且對脾胃有一定的傷害,所以要适量的喝,我來為大家講解一下關于用羅漢果泡水要把殼去掉嗎?跟着小編...
2026-06-11
健身減壓小組
健身減壓小組
健身減壓小組?運動之所以能緩解壓力,讓人保持平和的心态,與腓肽效應有關腓肽是身體的一種激素,當運動達到一定量時,身體産生的腓肽效應能愉悅神經,甚至可以把壓力和不愉快帶走适當的運動鍛煉,有利于消除疲勞,上班族們整天朝九晚五,單調而枯燥長時間單...
2026-06-11
漢末霸業登庸條件
漢末霸業登庸條件
東漢末年,因漢室衰頹,實力不濟,引得衆多英雄豪傑紛紛出場,相互征伐,以争奪天下。經曆了一段時間的紛亂鬥争,類似于袁紹、董卓一類的草莽之人已然退場,留下的便是形成了魏蜀吳三國鼎立之勢的領袖——曹操、劉備、孫權。這三國也就實際上取代了東漢,開創...
2026-06-11
東海航空延誤補償
東海航空延誤補償
極目新聞3月7日訊(記者劉楒睿)3月6日,網傳2月20日東海航空DZ6297,編号B5311南通飛往西安的航班發生鬥毆事件,在飛行過程中機長與一男性乘務長發生争執,在飛行過程中相互毆打。3月7日,東海航空發布聲明稱,已對涉事人員停止工作,公...
2026-06-11
華為暢享9s參數什麼時候發行的
華為暢享9s參數什麼時候發行的
IT之家7月12日消息近日工信部網站上出現了一款型号為POT-AL00的華為暢享9s産品,手機的規格與現有手機相同,不過新增了128GB的機身存儲方案。華為于3月份在國内市場推出了型号為POT-AL00a的暢享9s智能手機,這款手機發售初期...
2026-06-11
Copyright 2023-2026 - www.tftnews.com All Rights Reserved