首页
/
每日頭條
/
生活
/
python爬蟲中文
python爬蟲中文
更新时间:2025-12-26 16:47:25

在使用爬蟲程序下爬數據時候,經常會遇到亂碼的問題,那遇到亂碼該怎麼辦呢?

一般大家看到亂碼,下意識的覺得會不會是爬蟲爬錯東西了?其實沒有,這個就是簡單的編碼的問題。

一般在爬蟲程序中,涉及到編碼格式的地方有兩處,一處是在發起請求後,對返回的内容進行解碼;另一處是在保存文件時,設置編碼格式。下面我們分開來說。

1. 發起請求,獲取網頁内容階段

一般的網站的編碼格式都是 UTF-8,所以當你系統的默認編碼也是 UTF-8 時,也就是說,你的默認編碼方式和目标網站的編碼方式一緻時,即使不明确設置編碼方式,也不會出問題。

但是如果不一緻,便會出現亂碼。這也是為什麼經常有 明明在我電腦上運行是好的,為什麼在你電腦上就亂碼了 這樣的問題。這種問題解決也很簡單,隻要在代碼中設置一下 encoding 即可。 這裡建議一種方法,r.encoding = r.apparent_encoding ,這個可以自動推測目标網站的編碼格式,省的你自己去一個個設置(當然極少數情況下它可能會推測錯誤出現亂碼,到時候你再手動去查看網頁編碼,手動設置吧)。

def fetchURL(url): headers = { 'accept':'text/html,application/xhtml xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8', 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36', } r = requests.get(url,headers=headers) # 這裡設置編碼格式 r.encoding = r.apparent_encoding return r.text

2. 保存文件時的編碼錯誤

這個是讀者朋友們反映較多的一個問題,就是爬取過程中沒問題,但是用 excel 打開保存好的 csv 文件時出現亂碼(用記事本打開沒問題),這個其實就是文件的編碼方式和 Excel 的解碼方式不一緻導緻的。

在 dataframe.to_csv 這句,參數裡添加一個 encoding='utf_8_sig',指定文件的編碼格式,應該就可以解決了。

import pandas as pd def writePage(urating): ''' Function : To write the content of html into a local file ''' dataframe = pd.DataFrame(urating) dataframe.to_csv('filename.csv',encoding='utf_8_sig', mode='a', index=False, sep=',', header=False )

之前亂碼的 csv 文件,可以用記事本打開,然後點另存為,然後選擇編碼格式,ANSI ,unicode,UTF-8 都可以,然後保存之後,再次用 excel 打開就是正常的了。

3. 常見亂碼類型

常見的亂碼情況有以下幾種,大家可以參考一下。

python爬蟲中文(爬蟲遇到亂碼怎麼辦)1

,
Comments
Welcome to tft每日頭條 comments! Please keep conversations courteous and on-topic. To fosterproductive and respectful conversations, you may see comments from our Community Managers.
Sign up to post
Sort by
Show More Comments
推荐阅读
八年級下冊英語unit2複習
八年級下冊英語unit2複習
八年級下冊英語unit2複習?九年級英語下冊複習---Unit2Ithinkthatmooncakesaredelicious.,下面我們就來聊聊關于八年級下冊英語unit2複習?接下來我們就一起去了解一下吧!八年級下冊英語unit2複習九...
2025-12-26
羊水栓塞為什麼很危險
羊水栓塞為什麼很危險
羊水栓塞為什麼很危險?6月11日淩晨,已經懷孕39周的27歲孕媽肖女士突然感到腹部陣陣疼痛,想着孩子快要出生了,便收拾好東西在愛人的陪同下來到南方醫科大學第五附屬醫院由于已經不是第一次生産了,肖女士挺淡定的,然而令她想不到的是,接下來的形勢...
2025-12-26
葛根糕的做法和配方
葛根糕的做法和配方
葛根糕的做法和配方?葛根糕的用料:葛根粉250g、水500ml、糖120g、椰漿400ml;,我來為大家科普一下關于葛根糕的做法和配方?以下内容希望對你有幫助!葛根糕的做法和配方葛根糕的用料:葛根粉250g、水500ml、糖120g、椰漿4...
2025-12-26
pkpm怎麼學習
pkpm怎麼學習
1、裂縫與撓度裂縫,模型裡計算裂縫是按矩形截面計算彎矩,而不考慮翼緣影響,實際上翼緣影響是很大的,也就是說模型計算出的結果裂縫偏大,一般梁支座裂縫不考慮,因為本來強柱弱梁也是要出現塑性鉸的,但是梁底部裂縫要考慮,而且梁尤其是KL底筋配筋結果...
2025-12-26
羅永浩在淘寶上做什麼生意
羅永浩在淘寶上做什麼生意
羅永浩做錘子手機,至少花掉了26億。這次AR創業,天使輪融資4億,還不夠,還要通過淘寶帶貨賺錢?羅永浩創業,是真的很花錢。羅永浩做錘子科技的時候,主要是造手機,從天眼查,可以看到,錘子科技公開的融資接近20億,再加上衆所周知的欠債6億,也就...
2025-12-26
Copyright 2023-2025 - www.tftnews.com All Rights Reserved