Data lake, yapılandırılmış veya yapılandırılmamış her türlü verinin işlenmeden ham haliyle depolandığı büyük ölçekli veri deposudur. Data warehouse'dan farkı şudur: warehouse veriyi temizlenmiş ve yapılandırılmış halde tutar, lake ise her şeyi olduğu gibi saklar. Büyük şirketler log dosyaları, müşteri davranışları, sensör verileri ve sosyal medya verilerini data lake'te biriktirip sonradan analiz eder. AWS S3, Azure Data Lake ve Google Cloud Storage bu amaçla kullanılan çözümlerdir.
Data lake, yönetilmezse "data swamp" yani veri bataklığına dönüşür. Her şeyi topla, bir gün işleriz mantığıyla doldurulan lake zamanla içinden çıkılmaz hale gelir. Neyin nerede olduğunu bilen kalmaz, veri kalitesi düşer ve uyumluluk riski artar. Veri kataloğu, erişim kontrolü ve düzenli temizlik data lake'i kullanılabilir kılmak için zorunludur.