國內數(shù)據(jù)挖掘研究起步雖然較晚,但是發(fā)展特別迅速,特別是醫(yī)學研究領域。目前,我國絕大部分醫(yī)院信息管理系統(tǒng)只具備簡單數(shù)據(jù)的查詢與基本統(tǒng)計功能,隱藏在臨床數(shù)據(jù)背后的潛在關聯(lián)與知識并沒有被充分挖掘利用,大量臨床診療活動記錄數(shù)據(jù)有待挖掘開發(fā)。數(shù)據(jù)挖掘(Data Mining,DM)是近年來十分活躍的一個研究領域,是隨著數(shù)據(jù)庫、人工智能、統(tǒng)計分析和模式識別等技術發(fā)展而出現(xiàn)的一門新興技術,最早由美國第十一屆人工智能協(xié)會(American Association for Artificial Intelligence,AAAI)在 1989 年舉辦的全國人工智能大會(The National Conference on Artificial Intelligence)上提出。數(shù)據(jù)挖掘又稱為數(shù)據(jù)庫知識發(fā)現(xiàn)(Knowledge Discovery in Databases,KDD),指從大量不完全、有噪聲、模糊并隨機的業(yè)務數(shù)據(jù)中,提取隱含其中的事先不知道但有潛在利用價值的信息和知識的過程,數(shù)據(jù)挖掘結果多以概念、規(guī)則、規(guī)律、模式等形式呈現(xiàn)。
數(shù)據(jù)挖掘主要任務是描述和預測。描述的目標是概括數(shù)據(jù)中潛在的關聯(lián)模式,關聯(lián)模式可以是相關、趨勢、聚類、軌跡和異常分布,主要分析方法包括關聯(lián)分析、聚類分析、差異分析等。預測的目標是利用容易觀察的特征變量如體重指數(shù)、空腹血糖,預測不容易或不能觀察的特征變量如經(jīng)皮腎鏡取石術后患者是否發(fā)生嚴重感染,主要分析方法包括分類和回歸等。在數(shù)據(jù)挖掘算法基礎上,一些重要數(shù)據(jù)挖掘技術還包括關聯(lián)規(guī)則、鏈分析、決策樹、人工神經(jīng)網(wǎng)絡、遺傳算法、模糊處理等。
相對于經(jīng)典統(tǒng)計分析,數(shù)據(jù)挖掘有獨有的本質特征。數(shù)據(jù)挖掘是在沒有明確假設的前提下,去挖掘未知信息,進而發(fā)現(xiàn)新知識并加以驗證。數(shù)據(jù)挖掘所得結論或知識,具有先前未知或認知不充分、真實性、實用性三個基本特征。特別需要指出的是,數(shù)據(jù)挖掘的出現(xiàn)不是為了替代經(jīng)典統(tǒng)計分析方法,而是經(jīng)典統(tǒng)計分析方法學的延伸、擴展、整合而成的數(shù)據(jù)分析流程(Workflows)。(一)推動從循證醫(yī)學到精準醫(yī)學的變革循證醫(yī)學研究(Evidence-based Medicine)是求證醫(yī)學、實證醫(yī)學,即遵循證據(jù)的醫(yī)學,是慎重、準確和明智地應用當前所能獲得的最好的研究證據(jù),依托醫(yī)生個人專業(yè)技能和多年臨床經(jīng)驗,結合患者的價值和愿望,將三者完美結合制定患者適宜的診療方案。隨著生物醫(yī)學特別是基因組學、蛋白質組學等生物信息學發(fā)展,出現(xiàn)了轉化醫(yī)學(Translational Medicine)。轉化醫(yī)學促進基礎醫(yī)學研究成果向臨床診療實踐轉化,其中最成功的是腫瘤靶向治療(Targeted Therapy)。2015 年 1 月 20 日,美國總統(tǒng)奧巴馬在國情咨文演講時提出了精準醫(yī)學(Precision Medicine)計劃,是繼 2011 年美國基因組學與生物醫(yī)學智庫發(fā)表《邁向精準醫(yī)學 :建立生物醫(yī)學與疾病新分類學的知識網(wǎng)絡》后提供的更明確和詳細的路徑規(guī)劃。精準醫(yī)學是在利用生物組學技術采集數(shù)據(jù)基礎上,借助數(shù)據(jù)挖掘實現(xiàn)計算機生物學分析,尋找疾病臨床表型特異標志物和分子網(wǎng)絡。數(shù)據(jù)挖掘為循證醫(yī)學向精準醫(yī)學、從對癥醫(yī)療模式向個體醫(yī)療模式轉換鋪平了道路,實現(xiàn)以個人臨床表型數(shù)據(jù)為基礎、結合生物組學數(shù)據(jù)信息,為患者量身設計出最佳治療方案,以達到治療效益最大化和醫(yī)療資源配置最優(yōu)化的醫(yī)療模式。以精準醫(yī)學為導向的數(shù)據(jù)挖掘,仍需要解決如常規(guī)思維模式桎梏、大數(shù)據(jù)管理能力不足、復雜網(wǎng)絡環(huán)境下動態(tài)數(shù)據(jù)利用與隱私保護之間的矛盾、平衡大數(shù)據(jù)共享機制與知識產(chǎn)權保護等問題。在現(xiàn)代科學研究中,人們主要依賴抽樣數(shù)據(jù)、局部數(shù)據(jù)和方便數(shù)據(jù),甚至在無法獲得觀察數(shù)據(jù)的時候,純粹依賴經(jīng)驗、理論、假設和價值觀去發(fā)現(xiàn)醫(yī)療領域的未知規(guī)律。由于局部數(shù)據(jù)和方便數(shù)據(jù)的局限性,使人們的認識世界往往帶著一定的表面、膚淺、簡單、低效等偏倚色彩。大數(shù)據(jù)時代的來臨,使人類第一次有機會和條件在更多領域、更深層次獲取利用全局數(shù)據(jù)、完整數(shù)據(jù)和系統(tǒng)數(shù)據(jù),更深入地探索現(xiàn)實世界規(guī)律,獲取過去不可能獲取的數(shù)據(jù)和知識。大數(shù)據(jù)不只是用隨機抽樣調查分析,而是主要采用觀察對象的整體特征數(shù)據(jù)進行分析,這就使臨床數(shù)據(jù)挖掘研究具有要全體不拒抽樣、要效率不拒精確、要相關不拒因果的特征。臨床隨機對照試驗能夠提供最高等級的臨床證據(jù),嚴格控制試驗條件下,在可能有效的受控目標人群中進行標準化治療,所需樣本量小,隨訪時間也短。然而,隨機對照試驗并不能解決所有的臨床問題。利用真實世界數(shù)據(jù)開展挖掘研究,用產(chǎn)生的真實世界證據(jù)(Real World Evidence)取代傳統(tǒng)臨床試驗,進行更廣適應證研究。醫(yī)療大數(shù)據(jù)來自真實的臨床診療活動場景,納入以非隨機方式分配治療措施的有多種疾病的患者進行研究,其結果反映實際診療過程和真實條件下的診療情況,是一種非隨機、開放性、無安慰劑研究,因而結論具有很高的外部真實性。以臨床數(shù)據(jù)挖掘為導向的真實世界研究,以臨床應用場景為底層邏輯基礎。在臨床診療實踐中,根據(jù)患者病情和全身狀況,臨床醫(yī)師變化策略采用多種治療措施、確定治療劑量。同時,有更長期限觀察干預措施的遠期效果和不良結局,也觀察更多類型的結局指標,如機體功能指標、患者自主報告結局、成本效益等。利用真實世界數(shù)據(jù)開展數(shù)據(jù)挖掘,需要多角度評價數(shù)據(jù)質量,嚴格的數(shù)據(jù)質量管理才能提高臨床數(shù)據(jù)挖掘研究水平,確保研究結果的外部真實性和臨床實用價值。臨床醫(yī)學地位特殊、診療結果生死攸關,這就賦予了臨床數(shù)據(jù)挖掘的特殊性和復雜性。且其涉及醫(yī)學倫理與法律問題,使得臨床數(shù)據(jù)挖掘與常規(guī)數(shù)據(jù)挖掘之間存在著較大差異。第一,臨床數(shù)據(jù)挖掘研究有更好的人群代表性和外部真實性(External validity),或者普遍性(Generalizability)。研究對象的整體性和真實性,彌補了隨機對照試驗研究對象的局限性和特殊性,為解決臨床問題提供了真實的臨床實踐場景,研究結果和證據(jù)更接近,也更有助于臨床實踐。第二,臨床表型存在著個體差異(Variation)。這賦予了臨床數(shù)據(jù)挖掘區(qū)別于常規(guī)數(shù)據(jù)挖掘的本質特征。從理論上來講,臨床特征相同的患者對治療或藥物反應是相似的,但先天遺傳性因素或后天環(huán)境因素的差異,使得少數(shù)患者出現(xiàn)或質或量上的差異性個性化反應。如腫瘤患者對新輔助放化療的完全應答、部分應答、不應答及特異性進展等。因此,臨床數(shù)據(jù)挖掘需針對患者進行個體化判斷或預測,為個體化治療方案提供依據(jù)。第三,因為直接面對臨床數(shù)據(jù)的復雜結構,故臨床數(shù)據(jù)挖掘很難有通用方法(General Solution)解決各種臨床科學問題。相較于可以將數(shù)據(jù)直接代入公式或模型來反映特征變量關系的理化學科,沒有一個普適性模型能夠指導臨床數(shù)據(jù)挖掘研究,而是需要多模型、多方法、多階段反復迭代地探索研究。計算機信息技術的發(fā)展,數(shù)據(jù)挖掘新技術的出現(xiàn),雖有助于克服這一難題,但迭代反復仍是臨床數(shù)據(jù)挖掘的顯著特征。第四,臨床數(shù)據(jù)挖掘具有倫理性、法律性和社會性。臨床數(shù)據(jù)所有權、數(shù)據(jù)隱私、數(shù)據(jù)安全、預期收益以及管理成本等都使得臨床數(shù)據(jù)挖掘與常規(guī)數(shù)據(jù)挖掘存在顯著不同。人類疾病的復雜性、健康重要性、數(shù)據(jù)特殊性,個人、團體和人群水平的臨床結局變異性以及數(shù)據(jù)挖掘技術共同促進了臨床數(shù)據(jù)挖掘的快速進步。同時,復雜多變的臨床數(shù)據(jù)也為數(shù)據(jù)挖掘技術的進步提供了廣闊的舞臺。