分類導航

大數(shù)據(jù)操作：刪除和去重

發(fā)布時間：2017年06月19日作者： IT網(wǎng)絡文摘 (該文來自筆記，點擊查看原文)

一些看似簡單的數(shù)據(jù)操作，當作用于海量數(shù)據(jù)集時，就會出現(xiàn)“意料之外，卻在情理之中”的問題，海量數(shù)據(jù)操作，需要采用特殊方法，才能“曲徑通幽”。在刪除海量數(shù)據(jù)時，需要注意日志的增長，索引碎片的增加和數(shù)據(jù)庫的恢復模式，特別是利用大容量日志操作，來減少日志的增長和提高數(shù)據(jù)插入的速度。對于大數(shù)據(jù)去重，通過一些小小的改進，比如創(chuàng)建索引，設置忽略重復值選項等，能夠提高去重的效率。

一，從海量數(shù)據(jù)中刪除數(shù)據(jù)

從海量數(shù)據(jù)表中刪除一半數(shù)據(jù)，看似簡單，使用delete命令，如果真這么干，SQL Server產(chǎn)生的事務日志暴增，估計會把服務器硬盤爆掉。數(shù)據(jù)庫的恢復模式會影響日志文件的增長，在刪除海量數(shù)據(jù)時，根據(jù)采用的方法，相應地把恢復模式設置為simple，或bulk_logged 模式，能夠在很大程度上減少刪除操作產(chǎn)生的事務日志，從而避免日志暴增。

另外，在刪除數(shù)據(jù)時，把表上的多余索引刪除（注意，是刪除多余的索引），只保留一個必需的索引；在數(shù)據(jù)刪除完成之后，再重建索引，能夠提高數(shù)據(jù)刪除操作的性能。有人做過實驗，從存儲1.6億條記錄的大表中刪除數(shù)據(jù)，每刪除400萬條要消耗1.5 - 3小時，越到后面速度越慢，為什么？這是因為，每次刪除數(shù)據(jù)時，數(shù)據(jù)庫都要相應地更新索引，這是很慢的硬盤 IO操作，并且，越到后面，索引碎片越多，更新索引就越慢，這就是在刪除400萬條記錄時，一開始只消耗1.5小時，后面要消耗3小時原因。

最后，根據(jù)保留數(shù)據(jù)占總數(shù)據(jù)量的比例，選擇不同的方法刪除數(shù)據(jù)。如果大表中保留的數(shù)據(jù)較少，可以先把保留的數(shù)據(jù)存儲到臨時表中，然后，把原始表刪除，這樣能夠利用大容量日志操作，來減少日志的增長和提高數(shù)據(jù)插入的速度。

1，循環(huán)刪除，避免日志文件暴增

在從海量數(shù)據(jù)表中刪除大量數(shù)據(jù)時，為了避免日志文件暴增，通常采用循環(huán)刪除方法：首先設置恢復模式為simple，然后每次刪除操作都只刪除部分數(shù)據(jù)，這樣，當單個刪除操作執(zhí)行完成時，事務日志會被及時清理，事務日志一般保持單個刪除操作的事務日志量。

循環(huán)刪除的偽代碼如下，該方法仍有一些局限性，耗時過長，并且會長期使數(shù)據(jù)庫處于簡單恢復模式下：

--ALTER DATABASE database_name SET RECOVERY SIMPLE ;  while @index<@EndIndexbegin
    delete table_name 
    where index<=@index;    set @index+=@Incrementend

2，將數(shù)據(jù)插入導其他表中，

延伸閱讀

ssh框架 2016-09-30

阿里移動安全 [無線安全]玩轉無線電——不安全的藍牙鎖 2017-07-26

消息隊列NetMQ 原理分析4-Socket、Session、Option和Pipe 2024-03-26

Selective Search for Object Recognition 論文筆記【圖片目標分割】 2017-07-26

詞向量-LRWE模型-更好地識別反義詞同義詞 2017-07-26

從棧不平衡問題理解 calling convention 2017-07-26

php imagemagick 處理圖片剪切、壓縮、合并、插入文本、背景色透明 2017-07-26

Swift實現(xiàn)JSON轉Model - HandyJSON使用講解 2017-07-26

阿里移動安全 Android端惡意鎖屏勒索應用分析 2017-07-26

集合結合數(shù)據(jù)結構來看看(二) 2017-07-26

學習是年輕人改變自己的最好方式

我想了解如何學習

姓名：

手機：

留言：

16年我們追求卓越 24項主流技術引領先鋒 1000課時打造職場干將 50000行代碼練就非凡本領

關于萬碼學堂

校園環(huán)境

聯(lián)系我們

網(wǎng)站地圖

關于學習

課程體系

關于萬碼

課程體系

報名方法

申請試聽

在線報名

常見問題

大家關注

在線提問

學習方面

關注我們

新浪微博

聯(lián)系我們

聯(lián)系微信

0532-85025005

馬上咨詢，周一至周日8:00-18:00

在線客服

萬碼學員實訓作品

IT企業(yè)招聘信息

在萬碼學堂奮斗的歲月

編程知識分享

你想了解的萬碼學堂

青島軟件培訓課程

IT行業(yè)動態(tài)

職場人生

學習編程的感想

萬碼學員風采

萬碼學堂技術專家

欄目導航：如何學習軟件關于萬碼學堂開班信息關注點

旗下網(wǎng)站：青島IT培訓網(wǎng) 程序猿編程派青島電腦學校青島Android培訓青島軟件培訓云培訓萬碼學堂官網(wǎng) 青島大學生IT培訓

青島青軟職業(yè)培訓學校萬碼學堂（辦學許可證編號：人社民3702023080012號）魯ICP備09077726號 qingruanit.net

青島市市南區(qū)南京路122號B1棟3層咨詢電話0532-85025005

感谢您访问我们的网站，您可能还对以下资源感兴趣：
国产一卡2卡三卡4卡