首页
/
每日頭條
/
科技
/
數據預處理的内容和方法
數據預處理的内容和方法
更新时间:2024-09-30 19:21:59

數據預處理的内容和方法(統計前的數據預處理)1

數據預處理的内容和方法(統計前的數據預處理)2

剛剛拿到醫學研究數據,就像是從菜市場買回來的做菜的原材料。因此菜頭要切走、爛葉子要揀出來,魚鱗要刮掉......雖然這些都是零碎複雜的操作,但卻是做出一頓美味佳肴的必經之路。而數據的預處理則具有同樣的意義。

為什麼需要預處理?

首先便是數據的專業性非常強。雖然說都是來自于醫學界,但是不同研究領域,或者說不同科室間醫生的研究數據的專業含義就有非常多的區别。有些醫生用的是這個量表,有些則是其他評分方法,而對于這些不同的研究工具,其專業解釋就顯得麻煩的多了。但是不管如何解釋,最終我們都可以轉化成數據的格式,用數據來說話,用數據來解釋的。

其次,一般的臨床醫學、流行病學研究的數據量并不多,相比于其他行業,醫學研究數據顯得較為小巧一點(當然生物信息學的發展以及很多移動醫療産品,催生了醫療大數據的發展,基因、蛋白以及日常監測數據可以以ET計算)。而對于一般研究而言,樣本量和變量都不多的情況,便讓臨床工作繁忙的醫生有更多可能去掌握他們的數據處理和分析的技術了。

第三,未經過處理的Rawdata,可以非常混亂,結構不完整,甚至還有數據錄入錯誤等低級的錯誤發生。這些錯誤都會對日後的分析工作産生嚴重影響。

接着,先了解一下數據整理與分析流程:

數據預處理的内容和方法(統計前的數據預處理)3

在确定好研究目的,通俗點講,就是課題已經申請下來了後,接下來的工作就是按照研究計劃收集數據,再之後就是對收集到的數據進行整理、組織。最後就是分析與撰寫結果報告了。

數據預處理的一般工作包括如下幾個方面:明确數據分析的目标、數據的分布狀态、數據清洗、數據變換、數據精簡。

數據預處理的最重要的目的就是為了提高數據的質量。而我們通過以下幾個方面去評價數據的質量:數據的完整性,就是指數據是否有缺失的情況;數據的合理性,就是指數據是否在合理正常的範圍内;數據的一緻性,就是指數據前後的邏輯關系是否合理。而對于這些存在各種質量問題的數據,我們亦稱為髒數據。

不同的質量問題有不同的處理方法,而是否能夠解決這些問題,對研究來說至關重要。因為你很難從一份質量很差的數據得到任何有說服力的結果。

對于一份Raw data,在簡單了解研究的背景後,首先去了解數據的分布狀況,包括數據的樣本數(case),變量數,并且了解各個變量的均值、中位數、衆數、缺失數等等。這些通過不同的軟件都能達到,而用SPSS軟件的方法便是其中之一,這些統計描述的指标,在SPSS軟件中隻需要通過pointand click的方法便可以生成一份結果。

這些指标的計算将有助于對數據的進一步認識,了解其集中趨勢和離散程度。比如通過最大最小值,你可以判斷出,該變量是否有異常值,而在統計分析前發現這些異常值,将有助于你去尋找這些異常的case,重新檢查數據。

數據的分布狀況

①均值、②中值、③衆數、④全距、⑤四分位數、⑥标準差、⑦缺失數

其他的都好理解,重點說下4和5。

數據預處理的内容和方法(統計前的數據預處理)4

數據清洗

數據清理就是指發現并糾正數據中可以識别的錯誤,包括檢查數據的一緻性、處理無效、缺失、重複值。而缺失值則是一個很常見的問題,在一些隊列研究的随訪記錄,往往很難保證數據百分之一百的完成,因此缺失值的處理是一門藝術。限于篇幅,今天就先不展開。

數據一緻性可以有不同理解,例如數據有兩個變量,分别記錄了研究對象的出生日期和年齡,這兩個變量似乎是一樣的,但是還是有細微的區别,例如,知道出生日期,不論什麼時候用到這個變量,都可以很輕松的根據當前日期計算該對象的年齡,可以精确到日,而年齡則多數為收集信息時就定下來的,倒不是說年齡這個變量沒有用,隻是有些時候,這個變量更直接一點,對于臨床醫生也更容易掌握。但是如果這兩者無法對應,則至少有一個是錯誤的。

數據變換

數據預處理的内容和方法(統計前的數據預處理)5

數據變換則是在完成數據清理之後的過程。所謂數據變換就是指原數據不能滿足各方面的要求,将數據從一種形式變為另一種的過程。轉換類型有分類型-數值型,數值型-分類型,例如,将日期轉化為當前年齡、各種量表的計分、評分(格拉斯哥昏迷評分法、SCL90抑郁量表等)。

一般我們在錄入數據的時候,就是根據量表、問卷、病曆來錄入,有時候這些總分或者計分在原始的記錄表格中可能會沒有,所以在數據分析前,需要把這些衍生變量計算出來。還有一些數據類型的轉換,如在做決策樹分析的時候,一般需要用分類型的變量,但是如果需要研究的變量是一個數值型變量,可能就需要考慮專業意義,得到幾個數據的截點,把他轉化成一個分類變量。

數據精簡

數據精簡的含義主要包括兩個方面,一是從樣本數精簡,二是從變量上精簡。樣本數精簡可以理解成保留一些數據質量較好的樣本,而剔除質量欠佳的,或者選擇更加平衡的子樣本。

變量精簡則是根據研究目的來篩選一些需要用于分析或者更有利于分析的變量,剔除一些無關的變量。通過數據精簡能使你的數據庫更加小巧,更利于臨床醫生去控制。

,
Comments
Welcome to tft每日頭條 comments! Please keep conversations courteous and on-topic. To fosterproductive and respectful conversations, you may see comments from our Community Managers.
Sign up to post
Sort by
Show More Comments
推荐阅读
主動管理類信托與資金池信托
主動管理類信托與資金池信托
主動管理類信托與資金池信托?清理傘形信托的行動餘音未了中國證券報記者了解到,由于涉及傘形信托,近日一項具有“私募孵化器”性質的業務——“私募工廠”相關産品正面臨清理,今天小編就來說說關于主動管理類信托與資金池信托?下面更多詳細答案一起來看看...
2024-09-30
手機上pdf格式文件怎麼修改
手機上pdf格式文件怎麼修改
在日常工作當中,我們經常會對PDF文件手足無措,最頭疼的莫過于,領導甩給你一份PDF文件,讓你10分鐘内改好内容,因為PDF格式難以修改導出為其他格式比如PPT,Word常常都會出現格式錯亂,雖然市面上,也有不少PDF格式轉換器,今天給你們...
2024-09-30
華為智選鎖和小米智能鎖對比評測
華為智選鎖和小米智能鎖對比評測
出門總是忘記帶鑰匙,這種情況大多由自己的潛意識習慣造成的,有時候還需要花費幾十甚至幾百塊請開鎖師傅來開鎖,費時又費力。并且使用傳統鎖需要鑰匙時刻帶身上,如果出門隻需要帶手機,那真的是非常輕松了。所以最近一直在物色一款指紋智能密碼鎖,科技創新...
2024-09-30
大一新生入學為什麼不要帶電腦
大一新生入學為什麼不要帶電腦
各大高校的錄取工作正在如火如荼地進行,很快考生們就能接到來自各個學校的錄取通知書。對于考生來說,沒有什麼事情會比被心儀的大學錄取更值得開心,收到錄取通知書,也就證明自己成為了準大一新生。準大一新生們在正式報道之前,都會對即将到來的大學生活充...
2024-09-30
五菱佳辰混動版值得買嗎
五菱佳辰混動版值得買嗎
,時長00:50,
2024-09-30
Copyright 2023-2024 - www.tftnews.com All Rights Reserved