成人a片不需要播放器|无码高清欧美性爱|黄色三级片在线免费播放)2|超碰久操福利a级黄论片|国产一级婬片A片AAA情欲王朝|亚洲第一免费网页|看免费AV片av天堂1|国内成人一个色在线|青青艹在线观看色欧美性爱|黄色视频无遮挡免费观看

歡迎訪問智慧醫(yī)療網(wǎng) | 網(wǎng)站首頁
 

“醫(yī)院災備新時代”——數(shù)據(jù)庫災備運維分析

發(fā)布時間:2024-01-16 來源: 醫(yī)信局 瀏覽量: 字號:【加大】【減小】 手機上觀看

打開手機掃描二維碼
即可在手機端查看

數(shù)據(jù)庫災備系統(tǒng)包括:備份系統(tǒng)和容災系統(tǒng)。兩者實現(xiàn)原理和承擔的作用是不同的。備份記錄的是數(shù)據(jù)庫一段時間的變化,用于恢復數(shù)據(jù)庫到過去的某一個時間點時的狀態(tài),應對的場景主要是由于誤刪除、測試開發(fā)等原因需要把數(shù)據(jù)庫恢復到某一個時間點的情況。容災系統(tǒng)對應的是生產(chǎn)系統(tǒng)的實時或者準實時映像,應對的場景是在生產(chǎn)系統(tǒng)崩潰時及時把應用切換到容災系統(tǒng)上,確保生產(chǎn)系統(tǒng)的持續(xù)運行。


維護測試環(huán)境


俗話說:“養(yǎng)兵千日,用兵一時”,為了確保在關鍵時刻能夠用備份系統(tǒng)或容災系統(tǒng)快速恢復生產(chǎn)數(shù)據(jù)庫的正常運行,平時必須做好足夠的演練。所以,在進行數(shù)據(jù)庫備份和容災系統(tǒng)建設時,建設方都會為生產(chǎn)數(shù)據(jù)庫系統(tǒng)建設一個數(shù)據(jù)庫恢復測試環(huán)境。而數(shù)據(jù)庫管理員日常的一個重要工作就是維護測試環(huán)境,并定期做數(shù)據(jù)庫恢復測試和容災數(shù)據(jù)庫切換測試。測試系統(tǒng)維護工作主要有以下內(nèi)容:檢查災備測試環(huán)境的存儲是否足夠,用于進行數(shù)據(jù)庫災備測試的環(huán)境不可能與生產(chǎn)環(huán)境一樣,其CPU處理能力和內(nèi)存可能會比生產(chǎn)系統(tǒng)要少,但其存儲系統(tǒng)的大小一定不能低于生產(chǎn)數(shù)據(jù)庫的數(shù)據(jù)文件的大小;檢查操作系統(tǒng)版本是否滿足要求,盡量保證測試環(huán)境的操作系統(tǒng)版本與生產(chǎn)環(huán)境一樣,因為這樣才能盡可能真實地模擬在真正的生產(chǎn)環(huán)境中做數(shù)據(jù)庫恢復時可能會遇到各種問題;檢查數(shù)據(jù)庫軟件版本是否滿足要求,要保證測試環(huán)境的數(shù)據(jù)庫軟件版本與生產(chǎn)環(huán)境一樣, 包括補丁程序;檢查測試環(huán)境的日志中是否有報錯信息,重點檢查操作系統(tǒng)和存儲系統(tǒng)的管理日志中是否有報錯信息,如果有應該及時處理。

定期演練


數(shù)據(jù)庫備份恢復演練的最終目的是確保在將來的某個時刻,如果要進行數(shù)據(jù)庫恢復操作時,能夠快速、準確地在規(guī)定時間內(nèi)恢復整個生產(chǎn)數(shù)據(jù)庫。要不斷通過針對各種數(shù)據(jù)庫故障的恢復演練來完善數(shù)據(jù)庫恢復方案。數(shù)據(jù)庫備份恢復演練通常包括以下內(nèi)容:恢復整個數(shù)據(jù)庫,這個部分是用來檢驗整個生產(chǎn)數(shù)據(jù)庫發(fā)生不可修復的故障后,是否能夠利用數(shù)據(jù)庫備份系統(tǒng)進行恢復;恢復部分數(shù)據(jù)文件,并且打開數(shù)據(jù)庫,這個部分主要是用來應對部分數(shù)據(jù)文件受到損壞,僅僅需要在生產(chǎn)數(shù)據(jù)庫上恢復部分數(shù)據(jù)文件的情景;將數(shù)據(jù)庫恢復到過去的某個歷史時刻,然后打開數(shù)據(jù)庫,這個部分主要是用來應對某些人為“誤操作”引起的數(shù)據(jù)丟失或修改的情景,不僅要把數(shù)據(jù)庫的數(shù)據(jù)文件恢復出來,還要利用數(shù)據(jù)庫日志文件將數(shù)據(jù)庫修復至“誤操作”之前。

在進行數(shù)據(jù)庫恢復演練時,需要做如下記錄:記錄每個具體操作指令(包括具體的命令、參數(shù)等);記錄每個操作完成所需的時間;記錄所有操作可能遇到的各種問題以及處理方法和處理時間;記錄數(shù)據(jù)庫恢復后的檢查過程。將上述記錄整理成恢復演練技術文檔《數(shù)據(jù)庫恢復技術方案》,供下次演練時參考。這也是今后在正式生產(chǎn)環(huán)境中做數(shù)據(jù)庫恢復操作時的重要參考資料。

數(shù)據(jù)庫恢復演練的步驟如下:為不影響容災系統(tǒng)的正常工作,可以把容災系統(tǒng)上的數(shù)據(jù)文件拷貝一份到測試環(huán)境中,這樣,在進行切換演練時,就無須擔心影響到容災系統(tǒng);在測試環(huán)境中停止數(shù)據(jù)同步操作,在打開容災數(shù)據(jù)庫前,需要停止容災數(shù)據(jù)庫的數(shù)據(jù)同步操作;在測試環(huán)境中打開數(shù)據(jù)庫,將測試環(huán)境的數(shù)據(jù)庫打開并假設作為生產(chǎn)數(shù)據(jù)庫使用;將部分用于測試的應用終端連接到測試環(huán)境中,將用于測試的終端應用程序連接至測試環(huán)境的數(shù)據(jù)庫上,在測試終端上測試各種關鍵應用;應用開發(fā)人員根據(jù)測試的切換時間,檢查應用程序在這個時間點之后的業(yè)務操作是否正常;清理測試環(huán)境,將測試用的數(shù)據(jù)庫從測試環(huán)境中清除;整理切換演練技術文檔,將整個切換演練過程的所有操作命令、各個步驟所需時間等記錄下來,并將其整理成《數(shù)據(jù)庫容災切換技術方案》。


數(shù)據(jù)庫災備系統(tǒng)日常運維


數(shù)據(jù)庫管理員的日常工作之一就是檢查數(shù)據(jù)庫災備系統(tǒng)的運行是否正常。主要檢查以下幾個方面:①上次的數(shù)據(jù)庫備份是否正常完成;②上次數(shù)據(jù)庫備份所需時間是否正常;③備份系統(tǒng)的介質(zhì)是否有報錯信息;④容災數(shù)據(jù)庫與生產(chǎn)數(shù)據(jù)庫之間的數(shù)據(jù)同步是否正常;⑤容災端數(shù)據(jù)庫的參數(shù)是否與生產(chǎn)數(shù)據(jù)庫的參數(shù)匹配。

把檢查災備系統(tǒng)是否正常運行作為數(shù)據(jù)庫管理員的日常運維工作是非常必要的。有一個非常大型的醫(yī)院HIS系統(tǒng)出現(xiàn)了硬件故障,導致HIS數(shù)據(jù)庫無法打開。當用戶決定利用數(shù)據(jù)庫備份進行恢復時,才發(fā)現(xiàn)備份系統(tǒng)早已報錯,數(shù)個星期前就已經(jīng)停止備份了。而且用戶沒有建設數(shù)據(jù)庫容災系統(tǒng)。雖然最終打開了HIS數(shù)據(jù)庫,但是不可避免地丟失了很多數(shù)據(jù),這些數(shù)據(jù)需要手工補錄。

沒有不出問題的生產(chǎn)數(shù)據(jù)庫,數(shù)據(jù)庫管理員總會遇到這樣或者那樣的情況,需要修復生產(chǎn)數(shù)據(jù)庫,盡快恢復業(yè)務應用。其實,如果具備了前面提到的《數(shù)據(jù)庫恢復技術方案》和《數(shù)據(jù)庫容災切換技術方案》,數(shù)據(jù)庫管理員是不需要擔心的。如果生產(chǎn)數(shù)據(jù)庫真的出了非常嚴重的故障,數(shù)據(jù)庫管理員只需按照已制訂好的預案處理就行了。以下是關于數(shù)據(jù)庫恢復和數(shù)據(jù)庫容災切換的實際操作流程:

1. 檢查生產(chǎn)環(huán)境是否滿足數(shù)據(jù)庫恢復要求。硬件環(huán)境是否完好;存儲空間是否足夠;操作系統(tǒng)是否正常;數(shù)據(jù)庫軟件是否完備;備份軟件是否正常。

2. 檢查數(shù)據(jù)庫備份情況。

3. 近期備份是否正常,確定利用哪次的數(shù)據(jù)庫備份進行恢復;備份介質(zhì)是否正常。

4. 開始恢復生產(chǎn)數(shù)據(jù)庫,根據(jù)演練情況預估恢復時間;根據(jù)演練步驟進行數(shù)據(jù)庫恢復操作。

5. 應用測試,測試生產(chǎn)數(shù)據(jù)庫是否可用:檢查生產(chǎn)數(shù)據(jù)是否可用;檢查是否有數(shù)據(jù)需要手工補錄。

6. 正式啟動生產(chǎn)數(shù)據(jù)庫和應用程序,通知各個科室可以正式使用業(yè)務操作;現(xiàn)場觀察生產(chǎn)環(huán)境運行情況;做一次生產(chǎn)數(shù)據(jù)庫的備份。

7. 容災數(shù)據(jù)庫切換流程  檢查容災數(shù)據(jù)庫環(huán)境是否正常;重點檢查容災系統(tǒng)的數(shù)據(jù)庫參數(shù);檢查容災環(huán)境的存儲。

8. 應用測試,將應用終端轉接到容災數(shù)據(jù)庫上;檢查容災數(shù)據(jù)庫的數(shù)據(jù)是否完備;檢查應用的性能是否滿足要求。

9. 正式切換數(shù)據(jù)庫系統(tǒng),將所有的醫(yī)院客戶端的數(shù)據(jù)庫配置都轉接到容災數(shù)據(jù)庫上;現(xiàn)場觀察生產(chǎn)環(huán)境運行情況;對容災數(shù)據(jù)庫做一次數(shù)據(jù)庫備份。

10. 修復原來的生產(chǎn)環(huán)境,將修復好的生產(chǎn)環(huán)境作為容災端做數(shù)據(jù)同步;將修復好的生產(chǎn)環(huán)境作為容災端,重新配置數(shù)據(jù)庫容災系統(tǒng)。

11. 將現(xiàn)有的生產(chǎn)數(shù)據(jù)庫反向切換回修復好的生產(chǎn)環(huán)境,按照之前的步驟將數(shù)據(jù)庫從容災端切換回生產(chǎn)端。


常見災備系統(tǒng)運維問題


PDCA循環(huán)(plan:計劃;do:實施;check:檢查;action:修正)是一個非常好的方法,可以用來檢查災備運維期間遇到的問題,然后調(diào)整災備系統(tǒng)的策略和實施過程。需要關注以下問題:

(一)不注意檢查災備系統(tǒng)的運行狀態(tài)

很多情況下都是災備系統(tǒng)早已出現(xiàn)問題,用戶在平時沒有進行檢查。結果在真正出現(xiàn)問題后,卻發(fā)現(xiàn)災備系統(tǒng)無法頂上。究其原因,一方面,是主觀上重視不夠,認為災備系統(tǒng)只要建設好了就不用管它了。另一方面,醫(yī)院信息化的人手不足,能夠應付好平時的生產(chǎn)系統(tǒng)就很不錯了。針對醫(yī)院信息化的特點,建議使用專業(yè)的應用監(jiān)控平臺來監(jiān)控生產(chǎn)和容災系統(tǒng)的運行情況,一旦出現(xiàn)問題,這類監(jiān)控平臺會主動通知系統(tǒng)管理員。

(二)不進行數(shù)據(jù)庫恢復測試

醫(yī)院信息科的管理流程中沒有關于數(shù)據(jù)庫恢復測試的工作內(nèi)容。甚至于在建設數(shù)據(jù)庫容災系統(tǒng)時也因為各種原因而沒有實施數(shù)據(jù)庫恢復測試,更不用說有具體的數(shù)據(jù)庫恢復技術方案了。90%以上的數(shù)據(jù)庫故障都可以在較短時間內(nèi)恢復,前提是要有詳細的數(shù)據(jù)庫恢復方案。

(三)忽略容災系統(tǒng)的硬件資源

因為資金限制,絕大多數(shù)醫(yī)院在建設容災系統(tǒng)時,僅僅考慮了數(shù)據(jù)不丟失或少丟失,并沒有真正考慮到容災系統(tǒng)的計算能力問題。對于三甲醫(yī)院,容災系統(tǒng)的計算能力至少應該是生產(chǎn)系統(tǒng)負載的110%以上。如正常的生產(chǎn)系統(tǒng)負載是50%,生產(chǎn)系統(tǒng)的CPU個數(shù)假設是10個。那么容災系統(tǒng)的CPU個數(shù)應該不少于:10×50%×110%=6(個)。這樣,如果容災系統(tǒng)真正頂上作為生產(chǎn)系統(tǒng)使用,也有10%的資源空閑。

(四)不注意災備系統(tǒng)的恢復時間和切換時間

因為平時沒有做數(shù)據(jù)庫恢復和切換演練,在真正出現(xiàn)數(shù)據(jù)庫故障時,往往給不出大致的系統(tǒng)恢復時間。這會造成決策上的失誤,沒有使用正確的方法來恢復數(shù)據(jù)庫,造成應用系統(tǒng)長時間不能恢復正常。

(五)不注意災備系統(tǒng)本身為生產(chǎn)環(huán)境引入的風險

很多IT系統(tǒng)故障都是最近對系統(tǒng)做了改動,但是卻沒有注意到這些改動帶來的風險而造成的。在建設容災系統(tǒng)時,或多或少都會對生產(chǎn)系統(tǒng)做改動。無論這種改動多么小,都會為生產(chǎn)系統(tǒng)帶來新的風險。在工程施工和日常運維中涉及現(xiàn)有生產(chǎn)系統(tǒng)的更改時一定要考慮風險分析和風險控制。


Copyright ? 2022 上海科雷會展服務有限公司 旗下「智慧醫(yī)療網(wǎng)」版權所有    ICP備案號:滬ICP備17004559號-5