首页
/
每日頭條
/
科技
/
獲取html代碼方法
獲取html代碼方法
更新时间:2026-01-16 01:53:09

通過上一章的内容,現在網頁文件中,我們還須要去除的就是HTML代碼了。

下面我們要研究一下HTML代碼的主要特點,不管什麼樣的html代碼,他們均被左右尖括号所包圍,就像這個樣子<代碼>,因此,我們就有了去除的方法,把括号中的内容和聯通括号一起去除掉,就可以了。

下面開始,根據我們的想法,可以寫出,下面這樣的主程序

獲取html代碼方法(網頁代碼中提取文字)1

看上圖,再上一張定義的函數,我們把它移動到了通用函數庫中

第21行,這是我們新增的代碼,執行完這個代碼,就去除掉了HTML标記,剩下的就應該是純文字内容了。在這裡,我們定義了一個函數,名字叫做去除html代碼。

下面我們研究一下,這個函數的内容,如下圖

獲取html代碼方法(網頁代碼中提取文字)2

因為使用了正則表達式,因此,在程序運行前,必須導入模塊re

第3行,導入我們所需要的re模塊,我們想用到正則表達式

第5行,定義函數

第6行,用右尖括号分格隔成列表

第8行,對列表元素進行遍曆

第9行,使用正則挑出有效的内容,其實就是去除以前孤立的右尖括号的内容。

第10行,對有效的内容進行左尖括号分隔

第11行,左尖括号前面的内容就是有效的文字内容

完整的程序如下

獲取html代碼方法(網頁代碼中提取文字)3

下面我們對程序進行下測試,在上一章中,程序運行後得到如下的内容(内容太長,隻截取一小部分)

獲取html代碼方法(網頁代碼中提取文字)4

本次程序改造後,運行得到下面的内容

獲取html代碼方法(網頁代碼中提取文字)5

獲取html代碼方法(網頁代碼中提取文字)6

從上面兩個圖片可以看出,我們确實把文字内容提取出來了。

,
Comments
Welcome to tft每日頭條 comments! Please keep conversations courteous and on-topic. To fosterproductive and respectful conversations, you may see comments from our Community Managers.
Sign up to post
Sort by
Show More Comments
推荐阅读
投标标書怎麼做又快又準确
投标标書怎麼做又快又準确
工欲善其事,必先利其器。标書制作也不例外,要想做出一份優質的标書,必然少不了标書制作軟件的幫助,不少專業的标書制作軟件都提供了非常專業的标書模闆,還具有一鍵生成标書的功能。下面就給大家整理了5款專業的标書制作軟件,讓你事半功倍,從小白飛躍成...
2026-01-16
老電腦win7系統
老電腦win7系統
不少人升級到windows10之後,感覺水土不服,尤其是一些舊筆記本電腦用戶更是苦不堪言,許多人想要回到Windows7系統,卻發現那麼簡單。下面的方法,可助你輕松實現系統降級。Windows7直升Windows10用戶如果是從低版本系統升...
2026-01-16
最具性價比的筆記本升級
最具性價比的筆記本升級
最具性價比的筆記本升級?随着科技的不斷發展,市面上的觸屏筆記本也是越來越多有的人認為觸屏操作方便快捷,極大地提高了生産力但也有人覺得:觸屏交給智能手機和平闆電腦即可,對于筆記本而言,鍵盤鼠标的搭配已經能夠滿足日常辦公,多出來的觸屏功能除了帶...
2026-01-16
pdf用什麼打開
pdf用什麼打開
pdf用什麼打開?把電腦裡的迅捷PDF編輯器打開接着點擊“打開更多文件”選項,選中要打開的PDF文件,今天小編就來說說關于pdf用什麼打開?下面更多詳細答案一起來看看吧!pdf用什麼打開把電腦裡的迅捷PDF編輯器打開。接着點擊“打開更多文件...
2026-01-16
如何查看電腦總使用時長
如何查看電腦總使用時長
如何查看使用電腦的次數和時間?買了一台新電腦後,想知道,以前沒有用過的,怎麼查看這個,方法很簡單,可以通過系統的事件查看器來确定開關機的時間,事件查看器記錄下所有開關機的記錄,具體步驟如下。一種檢查電腦使用次數和時間的方法有許多方法可以打開...
2026-01-16
Copyright 2023-2026 - www.tftnews.com All Rights Reserved