超文本标記語言(Hyper Text Markup Language,簡稱為HTML)是一種創建網頁的标準标記語言。這不是一個編程語言,而是一個标記語言,使用各種标簽來描述一個頁面的樣子,作為一個數據分析入門學習者,我們不需要完全學會怎麼編寫,怎麼調試,隻需要我們會看的懂,然後知道定位到我們需要的内容就即可。
網頁組成
一個網頁通常是由HTML元素、CSS樣式和JavaScript腳本組成,但是對于數據采集來說,有用的隻有HTML元素。通俗一點講,網頁就是一個房子,html就是簡單的毛坯,CSS就是給房子來個精裝修,Js腳本就是給房子通上了水電。要是把房子的精裝修拆除,房子也可以用,就是有點難看,網頁也是一樣,把CSS樣式拿走,内容還在,但是就不太美觀。一個網頁的大體結構如下:
title頁面标題/titlescript src=jquery-2.2.0.min.js/scriptlink type=text/css rel=stylesheet href=style.css /headbodyh1這是标題 段落1 段落2 /body/html
由标簽和/html分别開頭和結尾。隻有/body的部分才會在浏覽器顯示出來,/head部分通常是寫一些配置或者引入一些css或者js文件。
HTML标簽 上面的網頁示例中有很多的标簽,比如說,這表示一個段落,通常标簽都是成對的。但是也有一些隻有單個,沒有結束标簽,比如: link br等。這是需要了解到的,我們需要知道這些标簽是表達的什麼,裡面存放的什麼内容,好比我們需要知道一套房子每個房間是幹啥的,這樣的話,是去做飯還是去睡覺,都可以找到對的房間。數據采集的時候也是一樣,需要知道我們的要找的東西在哪個标簽下存放着,下表中例舉幾個常見的标簽。
HTML屬性 屬性是為了給HTML标簽增加了更豐富的信息,而且需要在開始标簽中定義。比如最常用的超鍊接
a href=http://www.mlscoder.cn馬拉松程序員
很多時候,需要獲取某一頁面中的所有超鍊接,就是通過尋找所有标簽中的href屬性中的值,來得到結果。在Html中需要重點認識的屬性有下面5個
屬性名 | 屬性含義 |
class | 表示元素的一個或多個類名 |
id | 表示元素在頁面的中唯一id |
style | 表示元素的行内css樣式,高于class中樣式 |
title | 表示元素内的額外信息,鼠标懸停顯示 |
type | 表示元素的類型,一般配合input标簽使用 |
,