通過上一章的内容,現在網頁文件中,我們還須要去除的就是HTML代碼了。
下面我們要研究一下HTML代碼的主要特點,不管什麼樣的html代碼,他們均被左右尖括号所包圍,就像這個樣子<代碼>,因此,我們就有了去除的方法,把括号中的内容和聯通括号一起去除掉,就可以了。
下面開始,根據我們的想法,可以寫出,下面這樣的主程序
看上圖,再上一張定義的函數,我們把它移動到了通用函數庫中
第21行,這是我們新增的代碼,執行完這個代碼,就去除掉了HTML标記,剩下的就應該是純文字内容了。在這裡,我們定義了一個函數,名字叫做去除html代碼。
下面我們研究一下,這個函數的内容,如下圖
因為使用了正則表達式,因此,在程序運行前,必須導入模塊re
第3行,導入我們所需要的re模塊,我們想用到正則表達式
第5行,定義函數
第6行,用右尖括号分格隔成列表
第8行,對列表元素進行遍曆
第9行,使用正則挑出有效的内容,其實就是去除以前孤立的右尖括号的内容。
第10行,對有效的内容進行左尖括号分隔
第11行,左尖括号前面的内容就是有效的文字内容
完整的程序如下
下面我們對程序進行下測試,在上一章中,程序運行後得到如下的内容(内容太長,隻截取一小部分)
本次程序改造後,運行得到下面的内容
從上面兩個圖片可以看出,我們确實把文字内容提取出來了。
,