首页
/
每日頭條
/
科技
/
獲取html代碼方法
獲取html代碼方法
更新时间:2026-01-30 08:48:36

通過上一章的内容,現在網頁文件中,我們還須要去除的就是HTML代碼了。

下面我們要研究一下HTML代碼的主要特點,不管什麼樣的html代碼,他們均被左右尖括号所包圍,就像這個樣子<代碼>,因此,我們就有了去除的方法,把括号中的内容和聯通括号一起去除掉,就可以了。

下面開始,根據我們的想法,可以寫出,下面這樣的主程序

獲取html代碼方法(網頁代碼中提取文字)1

看上圖,再上一張定義的函數,我們把它移動到了通用函數庫中

第21行,這是我們新增的代碼,執行完這個代碼,就去除掉了HTML标記,剩下的就應該是純文字内容了。在這裡,我們定義了一個函數,名字叫做去除html代碼。

下面我們研究一下,這個函數的内容,如下圖

獲取html代碼方法(網頁代碼中提取文字)2

因為使用了正則表達式,因此,在程序運行前,必須導入模塊re

第3行,導入我們所需要的re模塊,我們想用到正則表達式

第5行,定義函數

第6行,用右尖括号分格隔成列表

第8行,對列表元素進行遍曆

第9行,使用正則挑出有效的内容,其實就是去除以前孤立的右尖括号的内容。

第10行,對有效的内容進行左尖括号分隔

第11行,左尖括号前面的内容就是有效的文字内容

完整的程序如下

獲取html代碼方法(網頁代碼中提取文字)3

下面我們對程序進行下測試,在上一章中,程序運行後得到如下的内容(内容太長,隻截取一小部分)

獲取html代碼方法(網頁代碼中提取文字)4

本次程序改造後,運行得到下面的内容

獲取html代碼方法(網頁代碼中提取文字)5

獲取html代碼方法(網頁代碼中提取文字)6

從上面兩個圖片可以看出,我們确實把文字内容提取出來了。

,
Comments
Welcome to tft每日頭條 comments! Please keep conversations courteous and on-topic. To fosterproductive and respectful conversations, you may see comments from our Community Managers.
Sign up to post
Sort by
Show More Comments
推荐阅读
電腦待機是什麼意思
電腦待機是什麼意思
電腦待機是什麼意思?待機(XP)是指在節能的、依賴系統的中間狀态,我來為大家科普一下關于電腦待機是什麼意思?以下内容希望對你有幫助!電腦待機是什麼意思待機(XP)是指在節能的、依賴系統的中間狀态。在中央處理器單元(CPU)空閑且在指定的時間...
2026-01-30
手機合約套餐想換其他套餐怎麼辦
手機合約套餐想換其他套餐怎麼辦
手機合約套餐想換其他套餐怎麼辦?手機卡不用到營業廳也可以取消合約套餐,還不了解的朋友可以先點贊收藏,再繼續閱讀,今天小編就來說說關于手機合約套餐想換其他套餐怎麼辦?下面更多詳細答案一起來看看吧!手機合約套餐想換其他套餐怎麼辦手機卡不用到營業...
2026-01-30
vivo健康使用手機在哪
vivo健康使用手機在哪
vivo健康使用手機在哪?全局護眼,在設置中,我們找到顯示與亮度,進而找到全局護眼,點開即可選擇開啟方式,包含手動和自動兩種,而在自動模式中,我們也可以設定開始與結束時間,筆者個人認為,系統默認的20:00-7:00便較為合理,在臨近睡覺時...
2026-01-30
預繳土地增值稅怎麼交
預繳土地增值稅怎麼交
1、土地增值稅規範文件,分别有(包括但不限于):(1)《中華人民共和國土地增值稅暫行條例》,國務院令[1993]第138号,1994年1月1日起施行;(2)《中華人民共和國土地增值稅暫行條例實施細則》,财法字[1995]第6号,1995年1...
2026-01-30
給孩子一個安全座椅
給孩子一個安全座椅
給孩子一個安全座椅?給手機安一個“安全座椅”給手機個“安全座椅”,車用手機支架你得知道這些,下面我們就來說一說關于給孩子一個安全座椅?我們一起去了解并探讨一下這個問題吧!給孩子一個安全座椅給手機安一個“安全座椅”給手機個“安全座椅”,車用手...
2026-01-30
Copyright 2023-2026 - www.tftnews.com All Rights Reserved