MySQL · 引擎特性 · InnoDB崩潰恢復(fù)

發(fā)布時(shí)間：2017年07月19日作者： IT網(wǎng)絡(luò)文摘 (該文來(lái)自筆記，點(diǎn)擊查看原文)

前言

數(shù)據(jù)庫(kù)系統(tǒng)與文件系統(tǒng)最大的區(qū)別在于數(shù)據(jù)庫(kù)能保證操作的原子性，一個(gè)操作要么不做要么都做，即使在數(shù)據(jù)庫(kù)宕機(jī)的情況下，也不會(huì)出現(xiàn)操作一半的情況，這個(gè)就需要數(shù)據(jù)庫(kù)的日志和一套完善的崩潰恢復(fù)機(jī)制來(lái)保證。本文仔細(xì)剖析了InnoDB的崩潰恢復(fù)流程，代碼基于5.6分支。

基礎(chǔ)知識(shí)

lsn: 可以理解為數(shù)據(jù)庫(kù)從創(chuàng)建以來(lái)產(chǎn)生的redo日志量，這個(gè)值越大，說(shuō)明數(shù)據(jù)庫(kù)的更新越多，也可以理解為更新的時(shí)刻。此外，每個(gè)數(shù)據(jù)頁(yè)上也有一個(gè)lsn，表示最后被修改時(shí)的lsn，值越大表示越晚被修改。比如，數(shù)據(jù)頁(yè)A的lsn為100，數(shù)據(jù)頁(yè)B的lsn為200，checkpoint lsn為150，系統(tǒng)lsn為300，表示當(dāng)前系統(tǒng)已經(jīng)更新到300，小于150的數(shù)據(jù)頁(yè)已經(jīng)被刷到磁盤(pán)上，因此數(shù)據(jù)頁(yè)A的最新數(shù)據(jù)一定在磁盤(pán)上，而數(shù)據(jù)頁(yè)B則不一定，有可能還在內(nèi)存中。
redo日志: 現(xiàn)代數(shù)據(jù)庫(kù)都需要寫(xiě)redo日志，例如修改一條數(shù)據(jù)，首先寫(xiě)redo日志，然后再寫(xiě)數(shù)據(jù)。在寫(xiě)完redo日志后，就直接給客戶端返回成功。這樣雖然看過(guò)去多寫(xiě)了一次盤(pán)，但是由于把對(duì)磁盤(pán)的隨機(jī)寫(xiě)入(寫(xiě)數(shù)據(jù))轉(zhuǎn)換成了順序的寫(xiě)入(寫(xiě)redo日志)，性能有很大幅度的提高。當(dāng)數(shù)據(jù)庫(kù)掛了之后，通過(guò)掃描redo日志，就能找出那些沒(méi)有刷盤(pán)的數(shù)據(jù)頁(yè)(在崩潰之前可能數(shù)據(jù)頁(yè)僅僅在內(nèi)存中修改了，但是還沒(méi)來(lái)得及寫(xiě)盤(pán))，保證數(shù)據(jù)不丟。
undo日志: 數(shù)據(jù)庫(kù)還提供類似撤銷的功能，當(dāng)你發(fā)現(xiàn)修改錯(cuò)一些數(shù)據(jù)時(shí)，可以使用rollback指令回滾之前的操作。這個(gè)功能需要undo日志來(lái)支持。此外，現(xiàn)代的關(guān)系型數(shù)據(jù)庫(kù)為了提高并發(fā)(同一條記錄，不同線程的讀取不沖突，讀寫(xiě)和寫(xiě)讀不沖突，只有同時(shí)寫(xiě)才沖突)，都實(shí)現(xiàn)了類似MVCC的機(jī)制，在InnoDB中，這個(gè)也依賴undo日志。為了實(shí)現(xiàn)統(tǒng)一的管理，與redo日志不同，undo日志在Buffer Pool中有對(duì)應(yīng)的數(shù)據(jù)頁(yè)，與普通的數(shù)據(jù)頁(yè)一起管理，依據(jù)LRU規(guī)則也會(huì)被淘汰出內(nèi)存，后續(xù)再?gòu)拇疟P(pán)讀取。與普通的數(shù)據(jù)頁(yè)一樣，對(duì)undo頁(yè)的修改，也需要先寫(xiě)redo日志。
檢查點(diǎn): 英文名為checkpoint。數(shù)據(jù)庫(kù)為了提高性能，數(shù)據(jù)頁(yè)在內(nèi)存修改后并不是每次都會(huì)刷到磁盤(pán)上。checkpoint之前的數(shù)據(jù)頁(yè)保證一定落盤(pán)了，這樣之前的日志就沒(méi)有用了(由于InnoDB redolog日志循環(huán)使用，這時(shí)這部分日志就可以被覆蓋)，checkpoint之后的數(shù)據(jù)頁(yè)有可能落盤(pán)，也有可能沒(méi)有落盤(pán)，所以checkpoint之后的日志在崩潰恢復(fù)的時(shí)候還是需要被使用的。InnoDB會(huì)依據(jù)臟頁(yè)的刷新情況，定期推進(jìn)checkpoint，從而減少數(shù)據(jù)庫(kù)崩潰恢復(fù)的時(shí)間。檢查點(diǎn)的信息在第一個(gè)日志文件的頭部。
崩潰恢復(fù): 用戶修改了數(shù)據(jù)，并且收到了成功的消息，然而對(duì)數(shù)據(jù)庫(kù)來(lái)說(shuō)，可能這個(gè)時(shí)候修改后的數(shù)據(jù)還沒(méi)有落盤(pán)，如果這時(shí)候數(shù)據(jù)庫(kù)掛了，重啟后，數(shù)據(jù)庫(kù)需要從日志中把這些修改后的數(shù)據(jù)給撈出來(lái)，重新寫(xiě)入磁盤(pán)，保證用戶的數(shù)據(jù)不丟。這個(gè)從日志中撈數(shù)據(jù)的過(guò)程就是崩潰恢復(fù)的主要任務(wù)，也可以成為數(shù)據(jù)庫(kù)前滾。當(dāng)然，在崩潰恢復(fù)中還需要回滾沒(méi)有提交的事務(wù)，提交沒(méi)有提交成功的事務(wù)。由于回滾操作需要undo日志的支持，undo日志的完整性和可靠性需要redo日志來(lái)保證，所以崩潰恢復(fù)先做redo前滾，然后做undo回滾。

我們從源碼角度仔細(xì)剖析一下數(shù)據(jù)庫(kù)崩潰恢復(fù)過(guò)程。整個(gè)過(guò)程都在引擎初始化階段完成(

`延伸閱讀`


        		
        			
        			ssh框架
        			2016-09-30
        			
        			
        			
        			阿里移動(dòng)安全 [無(wú)線安全]玩轉(zhuǎn)無(wú)線電——不安全的藍(lán)牙鎖
        			2017-07-26
        			
        			
        			
        			消息隊(duì)列NetMQ 原理分析4-Socket、Session、Option和Pipe
        			2024-03-26
        			
        			
        			
        			Selective Search for Object Recognition 論文筆記【圖片目標(biāo)分割】
        			2017-07-26
        			
        			
        			
        			詞向量-LRWE模型-更好地識(shí)別反義詞同義詞
        			2017-07-26
        			
        			
        			
        			從棧不平衡問(wèn)題 理解 calling convention
        			2017-07-26
        			
        			
        			
        			php imagemagick 處理 圖片剪切、壓縮、合并、插入文本、背景色透明
        			2017-07-26
        			
        			
        			
        			Swift實(shí)現(xiàn)JSON轉(zhuǎn)Model - HandyJSON使用講解
        			2017-07-26
        			
        			
        			
        			阿里移動(dòng)安全 Android端惡意鎖屏勒索應(yīng)用分析
        			2017-07-26
        			
        			
        			
        			集合結(jié)合數(shù)據(jù)結(jié)構(gòu)來(lái)看看(二)
        			2017-07-26
        			
        			
        			
        		
        		
        		學(xué)習(xí)是年輕人改變自己的最好方式

分類導(dǎo)航

MySQL · 引擎特性 · InnoDB崩潰恢復(fù)

前言

基礎(chǔ)知識(shí)

`延伸閱讀`

我想了解如何學(xué)習(xí)