一、信息檢索機制及其發展
信息檢索Information Retrieval(IR)是一門緻力于如何對大容量信息進行有效地存儲與獲取的科學。廣義的IR通常是指在一定的技術設備環境條件下,對以某種方式組織的信息資源按其表達方式,依據特定用戶的需求,制訂構造策略,構造檢索表達方式以實現檢索目标過程的總稱。而Information Retrieval System(IRS)則是借助計算機技術手段來存儲信息以滿足日後信息查詢需要的一種檢索工具。這裡的信息可以是文本的、視頻或音頻的,但現行的大多數的信息檢索系統仍隻能以存儲與檢索文本的信息和文獻為主。雖然IR 技術日新月異,但IR的本質自始自終都沒有變,變動的隻是信息媒體形式、信息檢索系統IRS的吞吐能力以及IRS存儲與匹配的方法而已。
二、人工智能
近30年來因特網規模呈幾何級數飛速發展,人們迫切需要适合于網絡時代的先進的信息檢索技術。适應快速、準确地檢索有關信息,并且能夠從大量的網上數據中發現隐含的、有價值的信息,各種智能檢索技術、尤其是人工智能技術浮出水面。人工智能學科是涉及數學、計算機科學、控制論、心理學、哲學等學科的交叉學科和邊緣學科,其應用領域包括問題求解、專家系統、機器學習、模式識别、自動定理證明、自然語言理解、人工神經網絡和智能檢索等。人工智能用于信息檢索主要有基于本體論、神經網絡、遺傳算法、自然語言理解和ID3算法等的智能檢索方法。
三、人工智能技術在信息檢索中的應用
人工智能研究機器模拟人腦所從事的感覺、認知、記憶、學習、聯想、計算、推理、判斷、決策、抽象、概括等思維活動,解決人類專家才能處理的複雜問題。它的研究和應用領域包括問題求解、邏輯推理與定理證明、自然語言理解、自動程序設計、專家系統、機器學習、模式識别、機器視覺、智能控制、智能檢索,以及智能調度與指揮等。
(一)信息過濾技術
過濾包括兩方面的含義:一是信息檢索技術中的過濾,一般稱為信息過濾,如搜索引擎過濾,數據挖掘等。二是網絡安全方面的過濾。傳統的過濾主要有基于包的過濾、基于應用的過濾和基于文本的過濾等幾種。基于文本的過濾實現簡單,但缺少靈活性,隻能對達到匹配的文本一刀切,無法對文章的語義進行分析。引入了人工智能技術的智能過濾技術能夠識别文檔内容實現智能化的過濾,同時能減少網絡管理員維護過濾系統的負擔。神經網絡是人工智能範疇中機器學習的一種應用,在許多技術中都有應用。
(二)異構信息整合與全息檢索
異構信息檢索技術發展的特點包括支持各種格式化文件,如TBXT、HTML、XML、RTF、MS Office、PDF、PS2/PS、MARC、ISO2709等處理和檢索;支持多語種信息的檢索;支持結構化數據、半結構化數據及非結構化數據的統一處理;和關系數據庫檢索的無縫集成以及其他開放檢索接口的集成等。所謂“全息檢索”的概念就是支持一切格式和方式的檢索,從目前實踐來講,發展到異構信息整合檢索的層面,基于自然語言理解的人機交互以及多媒體信息檢索整合等方面尚有待取得進一步突破。
四、應用人工智能算法的視頻圖像檢索系統
目前存在一個新的實現視頻圖像檢索系統的方法。在這個系統中,成熟的人工智能算法将被應用到視頻圖像的分類、索引與檢索中。在本系統中,視頻圖像的特征選取包括了顔色直方圖的計算、紋理的分析及應用運動跟蹤算法KLT對局部視頻數據進行運動跟蹤,這些特征構成了圖像特征向量。人工智能算法,包括反饋式人工智能神經網及自适應匹配算法,将會根據這些特征向量對視頻片斷進行分類和檢索。系統的工作區域是一個二維平面,各種視頻片斷将會根據特征向量的不同,被人工智能系統聚類到不同的區域, 從而實現視頻片斷的分類和聚集。用戶在查詢的時候,隻要在特定的區域進行放大操作,就可以把視頻檢索限定在一個較小的區域,從而快速的實現視頻片斷的檢索查詢。具體的工作流程可以分為五個階段:
(一)系統訓練階段
在這個階段中,系統的人工神經系統将被初始化,并且在系統與用戶的交互操作中進行訓練,使之适應具體的圖像特征向量,更好地實現視頻片斷的分類與聚集。
(二)視頻片斷的聚集操作
經過訓練的人工神經系統将被應用到視頻片斷的聚集分類操作中,具有相似的特征向量的視頻片斷将會被聚集到相近的區域中,不同的片斷将會被區域的遠近程度來區分開來。
(三)視頻片斷的檢索操作
因為視頻片斷在上一階段已經進行了分類和聚集,用戶隻要在局部區域進行放大檢索操作就可以查詢到所需的視頻片斷。從以上的工作流程可以得知,系統對視頻的分類與檢索有兩個核心的環節:第一是特征的提取,即如何選取合适的特征用于表征視頻圖像;第二是分類使用的人工智能算法,即根據提取的視頻特征快速準确地對視頻圖像進行分類和檢索。
(四)特征提取算法
本系統應用的特征提取算法包括顔色直方圖,用于分析圖像的基本顔色信息,獲得圖像的顔色分布狀況;紋理分析算法,用于圖像模式的分析; 然後對于局部聚集的圖像應用運動跟蹤算法KLT,進一步提高圖像的分類準确率。
(五)用于分類和檢索的人工智能算法
本系統采用了兩種成熟的人工智能算法:反饋式人工神經網,利用分類結果的準确程度對系統的參數進行反饋式調節;自适應匹配算法,利用輸入向量對最相似的系統向量進行調節。實驗表明自适應匹配算法具有高速準确的效用。
五、人工智能在網絡信息檢索中的應用
人工智能在網絡信息檢索中的應用,主要表現在:如何利用計算機軟硬件系統模仿、延伸與擴展人類智能的理論、方法和技術。目前,人工智能在網絡信息檢索領域的應用主要是在以下兩個方面:
(一)網絡智能知識服務系統
網絡智能知識服務系統的設計開發是專門為了解決目前網絡信息資源浩瀚而獲取難的矛盾。網絡智能知識服務系統可分為知識采集系統、智能知識處理系統、智能知識服務系統和知識庫四部分。
1、知識采集系統。知識采集系統的主要任務是完成資源的加工整理,完成信息到知識之間的轉換功能。
2、智能知識處理系統。該系統是将采集來的知識與知識庫中已有的知識進行智能的分類和匹配操作,然後将符合入庫條件的知識傳入庫中。
3、智能知識庫存儲系統。這是知識庫建設的最主要組成部分,同時也關系到知識服務的效果和質量。
(二)智能代理技術
智能代理(Intelligent Agent,IA)技術,起始于20世紀80年代,是人工智能技術的一個重要研究領域目前,國外從事智能代理技術研究的不僅有大學、研究機構和諸多信息技術公司。并且有些智能代理産品或嵌入智能代理技術的産品已經投入使用,這些情況表明發展智能代理技術是一個趨勢,它将是克服現有網絡檢索問題的有效手段。
1、定義。智能代理是一種軟件程序,它使用戶通過代理通信協議進行信息交換,以實現問題的自動解決。一般來說,智能代理具有如下特點:智能性、代理性、自治性、主動性、移動性、協作性。
2、智能代理的作用。智能代理有着強大的功能,用途也是十分廣泛的,通常可分為網絡管理、信息管理和優化用戶界面。
(三)智能搜索代理的原理
智能搜索代理是智能代理在信息檢索中的一種應用,它以用戶需求為先導來進行信息搜集和信息加工,根據用戶特定的需求以及在一段時期内的偏好為衡量标準來篩選信息。用戶界面提供友好的自然語言查詢,當用戶的查詢請求不明确時,智能搜索代理會利用知識庫中的推理機制推斷用戶的潛在要求,選擇與用戶習慣最相近的需求進行檢索。
人工智能技術的發展是時代對社會智能化需求的體現,而人工智能與信息檢索的結合則是人們對信息獲取智能化的有益嘗試。在信息檢索系統中納入人工智能技術将使傳統的信息檢索系統具有更好的用戶界面、更高的檢索效率和更豐富的檢索手段。人工智能技術的引入正在使傳統的信息檢索系統發生了巨大的變化。以兩者作為結合點的智能信息檢索系統,也将随着這兩方面研究的不斷發展而更加完善、強大。
在不久的将來,多智時代一定會徹底走入我們的生活,有興趣入行未來前沿産業的朋友,可以收藏多智時代,及時獲取人工智能、大數據、雲計算和物聯網的入門知識和資訊信息,讓我們一起攜手,引領人工智能的未來
,