Mongodb Veritabanınızı Google Cloud Storage'a Aktarın

3 min read

Apr 6, 2021

Bu yazı tek tek neyin ne olduğunu açıklayan bir yazı olmayacak ancak kısaca yazıda geçen teknolojilerden bahsetmek istiyorum. Mongodb birçok programlama diline destek veren, ölçeklenebilir açık kaynak kodlu bir NoSQL veritabanıdır. Verileri SQL veritabanlarından farklı olarak JSON formatta tutmaktadır. Bu da bizim istediğimiz bir özellik. Mongodb NoSQL yapısıyla Heybooster’ın tüm ihtiyaçlarına çözüm sunuyordu. Bu yüzden veritabanı olarak Mongodb’yi tercih ettik.

Neden Google Cloud Storage?

Yazının kalanında “Google Cloud Storage” yerine “GCS” yazacağım. Öncelikle ne olduğundan bahsedelim. Wikipedia’a göre aşağıdaki gibi bir tanımı var. Bu tanım ne olduğunu anlamaya yetecektir diye düşünüyorum.

Google Cloud Storage, Google Cloud Platform altyapısındaki verileri depolamak ve bunlara erişmek için RESTful bir çevrimiçi dosya depolama web hizmetidir. Hizmet, Google’ın bulutunun performansını ve ölçeklenebilirliğini gelişmiş güvenlik ve paylaşım yetenekleriyle birleştirir

Peki Biz Ne İstiyorduk?

Gelelim asıl konuya, biz ne istiyorduk? Bizim isteğimiz gün içinde oluşan veritabanındaki bazı verileri yedeklemek. Yani günlük veritabanı yedeği diyebiliriz. Peki bunu nasıl yapacağız? Mongodb database tool içinde bulunan mongodump programını kullanarak veritabanını export edebileceğiz. Sonra? Sonrası için ilk planımız Digital Ocean‘dan bir ubuntu makine açıp orda yedeklemekti ancak GCS’a göre çok daha pahalıya geliyordu. Bizim kararımız bu noktada netleşti.

Operasyon Başlasın 👊

Kararlarımızı verdikten sonra gereklilikleri sağlayıp kod yazmaya başladık. Kodu yazı sonunda paylaşacağım ama önce gerekliliklerden kısaca bahsedeyim. Verilerini elde edeceğimiz veritabanının username, password gibi bilgilerine ihtiyacımız var. Sonrasında GCS için credential işlemleri ve gerekli GCS kütüphanesini yüklememiz gerekiyor. Bunları yaptıktan sonra kodumuzu yazabiliriz.

Gelelim koda.

import os
from dotenv import load_dotenv
from google.cloud import storage
from bson.objectid import ObjectId
from datetime import datetime
import time
from os import listdir
from os.path import isfile, join

load_dotenv()

DB_USER = os.environ['DB_USER']
DB_PASSWORD = os.environ['DB_PASSWORD']
DB_NAME = os.environ['DB_NAME']
BUCKET_NAME = os.environ['BUCKET_NAME']

def mongodump_reports(archive_file):
today = datetime.today()
date = datetime(today.year, today.month, today.day, 0, 0, 0)
# Required for ignoring the documents older than 1 day
idMin = ObjectId(format(int(date.timestamp()), 'x') + "0000000000000000")

# Using --out options to fix the file name
DB_DUMP_COMMAND = """
mongodump --uri "mongodb://{}:{}@heybooster-shard-00-00-yue91.mongodb.net:27017,heybooster-shard-00-01-yue91.mongodb.net:27017,heybooster-shard-00-02-yue91.mongodb.net:27017/{}?authSource=admin&replicaSet=heybooster-shard-0&retryWrites=true&ssl=true&w=majority" --collection reports --out {} --query""".format(
DB_USER, DB_PASSWORD, DB_NAME, archive_file) + """ '{"_id": {"$gte": ObjectId("'""" + str(idMin) + """'")}}'"""
os.system(DB_DUMP_COMMAND)

def list_blobs(bucket_name):
"""Lists all the blobs in the bucket."""

storage_client = storage.Client.from_service_account_json(
'credentials.json')

# Note: Client.list_blobs requires at least package version 1.17.0.
return storage_client.list_blobs(bucket_name)

def upload_backup_file(bucket_name, archive_file, destination_blob):
"""Uploads a file to the bucket."""

storage_client = storage.Client.from_service_account_json(
'credentials.json')
bucket = storage_client.bucket(bucket_name)

current = os.getcwd()
a = listdir(archive_file)[0]
path = current + "/" + archive_file + "/" + a
files = [f for f in listdir(path) if isfile(join(path, f))]
for file in files:
archive_file = path + '/' + file
destination_blob = destination_blob + '_' + file
blob = bucket.blob(destination_blob)
blob.upload_from_filename(archive_file)

print("File {} uploaded to {}.".format(archive_file, destination_blob))

def remove_old_reports(bucket_name, archive_file):
"""Deletes a blob from the bucket."""

storage_client = storage.Client.from_service_account_json(
'credentials.json')

bucket = storage_client.bucket(bucket_name)
blob = bucket.blob(archive_file)
blob.delete()

print("Blob {} deleted.".format(archive_file))

def start():
archive_file_name = "mongo_backup_" + time.strftime('%x').replace('/', '_')
destination_blob_name = archive_file_name
mongodump_reports(archive_file_name)
upload_backup_file(BUCKET_NAME, archive_file_name, destination_blob_name)

if __name__ == '__main__':
start()

Kod karmaşık olmadığı için anlaşılır diye düşünüyorum. Kısaca bahsedeyim, veritabanımızı export eden fonksiyon “mongodump_export”un yaptığı şey mongodump komutunu çalıştırmak. Başka bir görevi yok. “list_blobs” isimli fonksiyon ise bucket içindeki dosyaları listelememizi sağlıyor. “upload_backup_file” ise istediğimiz dosyanın bucketa yüklenmesini sağlıyor. “remove_old_file” isminden anlaşıldığı gibi eski dosyaları silmemizi sağlıyor. Tabi bunu dosya ismini parametre olarak alarak yapıyor.

Kodumuz bundan ibaret. Serverda bu kodun günlük olarak çalışmasını sağlamamız yeterli. Anlamadığınız bir yer varsa sorabilirsiniz. Umarım işinize yaramıştır. İyi günler dilerim :)

Written by

Şahin Seçil

Latest

From the blog

The latest industry news, interviews, technologies, and resources.

View all posts

Technical SEO

3 min read

Based on your Vue 3 Project, why should you use the Composition API or the Options API?

Hello everyone, it is very valuable for me to share the technologies and information I learned in Heybooster with you, if you are ready, let's get started...

Technical SEO

6 min read

Improve Page Speed in 7 Steps

How important could page speed be? The answer is, extremely important! Slow page speed on your most popular pages will badly affect your conversions as well as your SEO rankings. Did you know that if your website takes longer than 3 seconds to fully load, more than half your visitors will leave immediately?

View all posts