首页
/
每日頭條
/
科技
/
獲取html代碼方法
獲取html代碼方法
更新时间:2024-11-18 07:13:36

通過上一章的内容,現在網頁文件中,我們還須要去除的就是HTML代碼了。

下面我們要研究一下HTML代碼的主要特點,不管什麼樣的html代碼,他們均被左右尖括号所包圍,就像這個樣子<代碼>,因此,我們就有了去除的方法,把括号中的内容和聯通括号一起去除掉,就可以了。

下面開始,根據我們的想法,可以寫出,下面這樣的主程序

獲取html代碼方法(網頁代碼中提取文字)1

看上圖,再上一張定義的函數,我們把它移動到了通用函數庫中

第21行,這是我們新增的代碼,執行完這個代碼,就去除掉了HTML标記,剩下的就應該是純文字内容了。在這裡,我們定義了一個函數,名字叫做去除html代碼。

下面我們研究一下,這個函數的内容,如下圖

獲取html代碼方法(網頁代碼中提取文字)2

因為使用了正則表達式,因此,在程序運行前,必須導入模塊re

第3行,導入我們所需要的re模塊,我們想用到正則表達式

第5行,定義函數

第6行,用右尖括号分格隔成列表

第8行,對列表元素進行遍曆

第9行,使用正則挑出有效的内容,其實就是去除以前孤立的右尖括号的内容。

第10行,對有效的内容進行左尖括号分隔

第11行,左尖括号前面的内容就是有效的文字内容

完整的程序如下

獲取html代碼方法(網頁代碼中提取文字)3

下面我們對程序進行下測試,在上一章中,程序運行後得到如下的内容(内容太長,隻截取一小部分)

獲取html代碼方法(網頁代碼中提取文字)4

本次程序改造後,運行得到下面的内容

獲取html代碼方法(網頁代碼中提取文字)5

獲取html代碼方法(網頁代碼中提取文字)6

從上面兩個圖片可以看出,我們确實把文字内容提取出來了。

,
Comments
Welcome to tft每日頭條 comments! Please keep conversations courteous and on-topic. To fosterproductive and respectful conversations, you may see comments from our Community Managers.
Sign up to post
Sort by
Show More Comments
推荐阅读
周星馳蘇乞兒剪輯
周星馳蘇乞兒剪輯
電影《武狀元蘇乞兒》中,導演拍攝請教周星馳,帶兵4天完成打鬥戲。我也是在無意間刷西瓜視頻的時候看到這位西瓜視頻創作人——老野啃片,才偶然知道原來4天就完成了打戲,并且他對幕後電影故事做了詳細的解答,讓我漲了不少電影冷知識。《武狀元蘇乞兒》這...
2024-11-18
最近手機刷機軟件哪個好用
最近手機刷機軟件哪個好用
刷機知識普及刷機,大部分人認為是升級,但其實刷機還分平級刷,降級刷,和升級刷,這些算是無用的知識點,就不詳細解釋,因為大部分有刷機需求的用戶隻有一個目的:獲得更好的使用體驗,提高手機流暢度。那刷機和恢複出廠的區别在哪呢?其實兩者差别不大,兩...
2024-11-18
工作需要經常看電腦怎麼護眼
工作需要經常看電腦怎麼護眼
現如今上班族的壓力越來越大,忙的時候幾乎一天都是對着電腦的電子屏幕敲敲打打,尤其是一些IT小編之類的行業,眼部健康成為了當代炙手可熱的話題。當然,對于繁忙的上班族來說,少用電腦肯定是不現實的,但是電腦中隐藏的護眼功能,一定要學以緻用。怎樣開...
2024-11-18
籃球場上的狀态
籃球場上的狀态
nba統計球員的數據太多太多了,最常見的便是三雙,得分,籃闆,助攻,當然還有出場時間,搶斷,蓋帽,失誤,命中率等等,但是卻又許許多多我們所忽略的,比如防守以及進攻效率,奔跑裡程數,對進攻者的防守幹擾,對籃闆球的威脅,支配球以及處理球的能力等...
2024-11-18
張家輝說古天樂你瘋夠了嗎
張家輝說古天樂你瘋夠了嗎
今年雙十一又在一片買買買和系統抽搐中進入了尾聲,28秒10億的成交額,也讓天貓破了去年52秒沖破10億的記錄。然而在全民因為打折樂嗨了的日子,卻有一群粉絲為自己的偶像操碎了心。最近,有媒體曝光,古天樂在參加某節目時,竟然用的是一款滑蓋手機。...
2024-11-18
Copyright 2023-2024 - www.tftnews.com All Rights Reserved