應(yīng)用案例 | 數(shù)據(jù)分析+醫(yī)學(xué)——讓疾病無所遁形
從古至今,疾病的防預(yù)和控制始終是一個(gè)重大的挑戰(zhàn)。隨著科技的不斷進(jìn)步,數(shù)據(jù)分析逐漸成為醫(yī)學(xué)健康領(lǐng)域中不可或缺的工具。數(shù)據(jù)分析不僅能幫助醫(yī)學(xué)專業(yè)人員更好地理解疾病的模式和趨勢(shì),還可以協(xié)助患者對(duì)自己的健康狀況進(jìn)行更加準(zhǔn)確的判斷。那么數(shù)據(jù)分析是如何幫助醫(yī)學(xué)人員進(jìn)行病情診斷的呢?我們通過一個(gè)具體案例一起來探討。
數(shù)據(jù)分析師帶你走進(jìn)醫(yī)學(xué)前線
近年來癌癥已經(jīng)成為全球很大的健康問題,高居所有死因的第1位。其中乳腺癌發(fā)病率呈逐年上升趨勢(shì),躍居女性惡性瘤子的第1位(據(jù)估計(jì)已接近0.03%,即全球每1萬人就有接近3人患有乳腺癌)。但是,乳腺癌早期一般沒有明顯癥狀,多數(shù)情況下需經(jīng)過多次、多項(xiàng)檢查才可能診斷出結(jié)果。基于此,我們可以利用機(jī)器學(xué)習(xí)模型對(duì)病人的情況進(jìn)行預(yù)測(cè),及時(shí)檢測(cè)出早期癥狀,減少癌癥的致死率。
首先,我們來看此案例的數(shù)據(jù)情況(如下圖),原始數(shù)據(jù)樣本總數(shù)961個(gè),字段包含序號(hào)、BIRADS等級(jí)、年齡、腫塊形狀、腫塊邊緣、腫塊密度、嚴(yán)重度。
遵循數(shù)據(jù)分析流程的個(gè)步驟,我們對(duì)案例進(jìn)行逐步分析:
PART
01
數(shù)據(jù)探索和預(yù)處理
數(shù)據(jù)探索:
在這個(gè)階段,我們首先對(duì)數(shù)據(jù)進(jìn)行描述性統(tǒng)計(jì),通過描述性統(tǒng)計(jì)結(jié)果查看數(shù)據(jù)形態(tài)以及缺失值與異常值的情況。描述性統(tǒng)計(jì)結(jié)果如下:
數(shù)據(jù)預(yù)處理:
數(shù)據(jù)預(yù)處理需要根據(jù)描述性統(tǒng)計(jì)的結(jié)果以及后面模型對(duì)數(shù)據(jù)集的要求來進(jìn)行處理,所以我們對(duì)數(shù)據(jù)進(jìn)行了如下處理:
(1)缺失值處理:使用數(shù)據(jù)加工模塊對(duì)缺失值進(jìn)行刪除。
(2)連續(xù)型變量離散化:對(duì)年齡字段使用變量離散化算法,降低規(guī)則復(fù)雜度,離散為三類,0類年齡段為0-44歲,1類年齡段為45-70歲,2類年齡段為71-100歲。
PART
02
模型構(gòu)建和評(píng)估
在這個(gè)階段,我們需要明確解決目標(biāo)問題會(huì)用到哪些算法以及那種算法。確定算法后就可以著手模型的搭建,Datahoop平臺(tái)簡(jiǎn)化了我們構(gòu)建算法的步驟,可以直接將數(shù)據(jù)帶入模型算法中,設(shè)置參數(shù)就可以進(jìn)行模型訓(xùn)練與調(diào)優(yōu)。
頭一個(gè)模型我們選擇邏輯回歸模型。邏輯回歸模型的數(shù)學(xué)背景相對(duì)簡(jiǎn)單,可以直觀地表示因變量和自變量之間的關(guān)系,易于理解和解釋。首先我們將指定的特征與標(biāo)簽給到模型,并指定迭代次數(shù)100次來進(jìn)行模型訓(xùn)練(下圖為邏輯回歸算法模型的建立過程)。
通過結(jié)果展示發(fā)現(xiàn)模型訓(xùn)練集acc=81%,測(cè)試集acc=80%,該模型已經(jīng)可以較為準(zhǔn)確的預(yù)測(cè)乳腺癌,但是基于模型的復(fù)雜程度,準(zhǔn)確率已經(jīng)很難提升。
第二個(gè)模型我們選擇GBDT(梯度提升決策樹)模型。GBDT模型可以自動(dòng)捕捉變量之間的非線性關(guān)系和交互效應(yīng),且無需進(jìn)行特殊的特征工程就可以進(jìn)行高度準(zhǔn)確的預(yù)測(cè)。
GBDT模型的建立過程與邏輯回歸模型一樣,將指定的特征與標(biāo)簽給到模型,并指定迭代次數(shù)100次來進(jìn)行模型訓(xùn)練,發(fā)現(xiàn)模型訓(xùn)練集acc=85%,測(cè)試集acc=82%,模型有點(diǎn)過擬合,需要調(diào)整迭代次數(shù)或者學(xué)習(xí)率。在此我們選擇調(diào)整迭代次數(shù),當(dāng)?shù)螖?shù)為30次時(shí)模型比較好,調(diào)整后的訓(xùn)練集acc=85%,測(cè)試集acc=86%。(模型結(jié)果如下圖所示)
PART
03
模型解讀與應(yīng)用
通過模型對(duì)比,發(fā)現(xiàn)GBDT的準(zhǔn)確率更高,訓(xùn)練集acc=85%,測(cè)試集acc=86%。但是在疾病預(yù)測(cè)業(yè)務(wù)中,我們并不只關(guān)注模型的準(zhǔn)確率,而是更加關(guān)注模型的準(zhǔn)確率Precision(準(zhǔn)確率Precision就是在所有樣本當(dāng)中,惡性瘤子有沒有被全部檢測(cè)出來,也可以理解為模型對(duì)1類樣本的辨別能力強(qiáng)不強(qiáng)。)對(duì)比兩個(gè)模型的準(zhǔn)確率我們發(fā)現(xiàn)GBDT模型的準(zhǔn)確率高于邏輯回歸模型,說明GBDT模型識(shí)別惡性瘤子的能力比邏輯回歸模型好。
在實(shí)際醫(yī)學(xué)業(yè)務(wù)中,我們可以把GBDT模型嵌入到公眾號(hào)里,病人可以根據(jù)提示輸入病情信息獲得初步診斷,輔助醫(yī)生結(jié)合其他檢查結(jié)果判斷需不需要進(jìn)行下一步檢查,以更好的確定具體病癥,及早采取措施。
通過上述案例我們不難發(fā)現(xiàn)數(shù)據(jù)分析在的疾病監(jiān)測(cè)中具有很大的應(yīng)用潛力。然而本案例只體現(xiàn)了數(shù)據(jù)分析在疾病的早期診斷和預(yù)測(cè)方面的效用。在個(gè)性化治理方面,數(shù)據(jù)分析可以更好地監(jiān)測(cè)和評(píng)估藥物的成效和副作用;在實(shí)時(shí)監(jiān)測(cè)和警報(bào)方面,數(shù)據(jù)分析可以用于開發(fā)智能警報(bào)系統(tǒng),及時(shí)通知醫(yī)護(hù)人員病人的異常情況……所以數(shù)據(jù)分析正成為我們戰(zhàn)勝疾病的有力工具。通過合理利用這一工具,我們可以構(gòu)建一個(gè)更加健康、安全和幸福的社會(huì)。
CPDA數(shù)據(jù)分析師簡(jiǎn)介
公司成立于2003年,致力于為企業(yè)培養(yǎng)數(shù)字化轉(zhuǎn)型的數(shù)據(jù)分析師人才,旗下“CPDA數(shù)據(jù)分析師”認(rèn)證培訓(xùn),是經(jīng)國(guó)家工信部教育與考試中心和中國(guó)商業(yè)聯(lián)合會(huì)數(shù)據(jù)分析專業(yè)委員會(huì)授權(quán)指定的培訓(xùn)品牌。
為了能更好地落實(shí)國(guó)家政策,支持國(guó)家的產(chǎn)業(yè)改革,培養(yǎng)出更多更出色的數(shù)據(jù)分析人才,特面向全國(guó)招募培訓(xùn)授權(quán)中心。
CPDA數(shù)據(jù)分析師證書:
是中國(guó)數(shù)據(jù)分析行業(yè)證書,由中國(guó)商業(yè)聯(lián)合會(huì)數(shù)據(jù)分析專業(yè)委員會(huì)頒發(fā),考取CPDA證書是對(duì)個(gè)人執(zhí)業(yè)能力的肯定,與市場(chǎng)上的其他證書有著本質(zhì)區(qū)別。
特色授課方式:
通過20年的課程研發(fā)和實(shí)踐,形成符合數(shù)據(jù)分析學(xué)科特性和學(xué)員學(xué)習(xí)習(xí)慣的組合授課方式:70+小時(shí)視頻網(wǎng)課+6天面授+ 2門選修課+近1000道模擬習(xí)題+Datahoop大數(shù)據(jù)分析平臺(tái)工具+海量微課資源供學(xué)員不斷提升,報(bào)名成為CPDA學(xué)員后,您將享有上述所有課程和工具。
中國(guó)商業(yè)聯(lián)合會(huì)數(shù)據(jù)分析專業(yè)委員會(huì)成立于2008年4月,是經(jīng)國(guó)有資產(chǎn)監(jiān)督管理委員會(huì)審核同意、中華人民共和國(guó)民政部正式批準(zhǔn)和登記的中國(guó)數(shù)據(jù)分析行業(yè)組織。以數(shù)據(jù)分析師及數(shù)據(jù)分析師事務(wù)所等從事與數(shù)據(jù)分析行業(yè)相關(guān)的團(tuán)體與個(gè)人自愿組成的全國(guó)性數(shù)據(jù)分析行業(yè)組織,是中國(guó)較早堅(jiān)持發(fā)展專業(yè)型、靠專業(yè)推動(dòng)市場(chǎng)的行業(yè)組織。
- 826人 關(guān)注加盟
- 11579人 咨詢加盟
- 12月27日 來自的安徽省合肥市姜仁希咨詢了 品牌 皇家扒雞
- 12月27日 來自的咨詢留言咨詢了 品牌 川魂帽牌貨冒菜
- 12月27日 來自的咨詢留言咨詢了 品牌 火焰川土雞煲啫啫煲
- 12月27日 來自的安徽省馬鞍山市王二咨詢了 品牌 簡(jiǎn)而優(yōu)學(xué)習(xí)機(jī)
- 12月27日 來自的何偉平咨詢了 品牌 錦江酒店中國(guó)區(qū)
- 12月27日 來自的咨詢留言咨詢了 品牌 愛零食的喵
- 12月27日 來自的李言柒咨詢了 品牌 愛零食的喵
- 12月27日 來自的肖女士咨詢了 品牌 愛零食的喵
- 12月27日 來自的咨詢留言咨詢了 品牌 華陽串根香火鍋串串
- 12月27日 來自的吉林省長(zhǎng)春市宋先生咨詢了 品牌 秦氏膏藥
注冊(cè)會(huì)員-關(guān)注品牌-線下推薦-深層交流-確定成交 找項(xiàng)目就是這么高效
注 冊(cè)