cliff diving taking the plunge dive into a project ocean swimming by aydinmutlu getty 2400x1600

ডাটা লেক কি? বড় জন্য ব্যাপকভাবে মাপযোগ্য স্টোরেজ

2011 সালে, জেমস ডিক্সন, তৎকালীন ব্যবসায়িক গোয়েন্দা সংস্থা পেন্টাহোর CTO, এই শব্দটি তৈরি করেছিলেন। ডাটা লেক. তিনি ডেটা মার্টের সাধারণ তথ্য সাইলোর বিপরীতে ডেটা লেককে বর্ণনা করেছিলেন, যা সেই সময়ে জনপ্রিয় ছিল:

আপনি যদি বোতলজাত জলের একটি স্টোর হিসাবে ডেটা মার্টের কথা ভাবেন — পরিষ্কার এবং প্যাকেজ করা এবং সহজে ব্যবহারের জন্য কাঠামোবদ্ধ — ডেটা লেক হল আরও প্রাকৃতিক অবস্থায় একটি বিশাল জলের দেহ৷ ডেটা লেকের বিষয়বস্তু হ্রদটি ভরাট করার জন্য একটি উত্স থেকে প্রবাহিত হয় এবং লেকের বিভিন্ন ব্যবহারকারীরা পরীক্ষা করতে, ডুব দিতে বা নমুনা নিতে আসতে পারেন।

তখন থেকে ডেটা লেকগুলি বিকশিত হয়েছে এবং এখন বড় ডেটা স্টোরেজ এবং বিশ্লেষণের ভাগের জন্য ডেটা গুদামগুলির সাথে প্রতিযোগিতা করে৷ বিভিন্ন সরঞ্জাম এবং পণ্যগুলি ডেটা লেকে দ্রুত SQL কোয়েরি সমর্থন করে এবং তিনটি প্রধান ক্লাউড প্রদানকারীই ডেটা লেক স্টোরেজ এবং বিশ্লেষণ অফার করে। এমনকি নতুন আছে ডাটা লেকহাউস ধারণা, যা সাশ্রয়ী মূল্যের স্টোরেজ সহ শাসন, নিরাপত্তা এবং বিশ্লেষণকে একত্রিত করে। এই নিবন্ধটি ডেটা লেকগুলির মধ্যে একটি উচ্চ ডাইভ, সেগুলি কী, সেগুলি কীভাবে ব্যবহার করা হয় এবং কীভাবে আপনার ডেটা লেকটি ডেটা সোয়াম্পে পরিণত না হয় তা নিশ্চিত করা সহ।

তথ্য হ্রদ ব্যাখ্যা

ডাটা লেক এটি মূলত একটি একক ডেটা রিপোজিটরি যা বিশ্লেষণের জন্য প্রস্তুত না হওয়া পর্যন্ত আপনার সমস্ত ডেটা ধারণ করে, বা সম্ভবত শুধুমাত্র সেই ডেটা যা আপনার ডেটা গুদামের সাথে খাপ খায় না। সাধারণত, একটি ডেটা লেক তার নেটিভ ফাইল ফরম্যাটে ডেটা সঞ্চয় করে, তবে বিশ্লেষণকে আরও দক্ষ করার জন্য ডেটা অন্য ফর্ম্যাটে রূপান্তরিত হতে পারে। ডেটা লেক থাকার লক্ষ্য হল ডেটা থেকে ব্যবসা বা অন্যান্য বিশ্লেষণাত্মক মান বের করা।

ডেটা লেকগুলি বাইনারি ডেটা হোস্ট করতে পারে, যেমন ছবি এবং ভিডিও, অসংগঠিত ডেটা, যেমন পিডিএফ নথি, এবং আধা-কাঠামোগত ডেটা, যেমন CSV এবং JSON ফাইল, সেইসাথে স্ট্রাকচার্ড ডেটা, সাধারণত রিলেশনাল ডেটাবেস থেকে। স্ট্রাকচার্ড ডেটা বিশ্লেষণের জন্য আরও উপযোগী, তবে আধা-গঠিত ডেটা সহজেই একটি কাঠামোগত আকারে আমদানি করা যেতে পারে। বুদ্ধিমান অটোমেশন ব্যবহার করে আনস্ট্রাকচার্ড ডেটা প্রায়ই স্ট্রাকচার্ড ডেটাতে রূপান্তর করা যায়।

ডেটা লেক বনাম ডেটা গুদাম

প্রশ্নটি আপনার ডেটা লেক বা ডেটা গুদাম প্রয়োজন কিনা তা নয়; আপনি সম্ভবত উভয় প্রয়োজন, কিন্তু বিভিন্ন উদ্দেশ্যে. এগুলিকে একত্রিত করাও সম্ভব, কারণ আমরা শীঘ্রই আলোচনা করব৷ শুরু করার জন্য, আসুন ডেটা লেক এবং ডেটা গুদামগুলির মধ্যে প্রধান পার্থক্যগুলি দেখুন:

  • তথ্য সূত্র: ডেটা লেকের জন্য ডেটার সাধারণ উৎসগুলির মধ্যে রয়েছে লগ ফাইল, ক্লিক-স্ট্রীম থেকে ডেটা, সোশ্যাল মিডিয়া পোস্ট এবং ইন্টারনেট সংযুক্ত ডিভাইস থেকে ডেটা। ডেটা গুদামগুলি সাধারণত লেনদেনের ডেটাবেস, লাইন-অফ-বিজনেস অ্যাপ্লিকেশন এবং বিশ্লেষণের জন্য অপারেশনাল ডাটাবেস থেকে আহরিত ডেটা সংরক্ষণ করে।
  • স্কিমা কৌশল: একটি ডেটা লেকের জন্য ডাটাবেস স্কিমা সাধারণত বিশ্লেষণের সময় প্রয়োগ করা হয়, যাকে বলা হয় স্কিমা অন রিড. এন্টারপ্রাইজ ডেটা গুদামগুলির জন্য ডাটাবেস স্কিমা সাধারণত ডেটা স্টোর তৈরির আগে ডিজাইন করা হয় এবং ডেটা আমদানি করার সময় প্রয়োগ করা হয়। এই বলা হয় স্কিমা-অন-রাইট.
  • স্টোরেজ অবকাঠামো: ডেটা গুদামগুলিতে প্রায়শই উল্লেখযোগ্য পরিমাণে ব্যয়বহুল RAM এবং SSD ডিস্ক থাকে যাতে দ্রুত প্রশ্নের ফলাফল প্রদান করা যায়। ডেটা লেকগুলি প্রায়ই কমোডিটি কম্পিউটারের ক্লাস্টারে সস্তা স্পিনিং ডিস্ক ব্যবহার করে। ডেটা গুদাম এবং ডেটা লেক উভয়ই এসকিউএল কোয়েরির গতি বাড়ানোর জন্য ব্যাপকভাবে সমান্তরাল প্রক্রিয়াকরণ (MPP) ব্যবহার করে।
  • কাঁচা বনাম কিউরেটেড ডেটা: একটি ডেটা গুদামের ডেটা এমন জায়গায় কিউরেট করা উচিত যেখানে ডেটা গুদামটিকে একটি সংস্থার জন্য “সত্যের একক উত্স” হিসাবে বিবেচনা করা যেতে পারে৷ ডেটা লেকের ডেটা কিউরেট করা যেতে পারে বা নাও হতে পারে: ডেটা লেকগুলি সাধারণত কাঁচা ডেটা দিয়ে শুরু হয়, যা পরে বিশ্লেষণের জন্য ফিল্টার এবং রূপান্তরিত করা যেতে পারে।
  • কে ব্যবহার করে: ডেটা গুদাম ব্যবহারকারীরা সাধারণত ব্যবসা বিশ্লেষক। ডেটা লেক ব্যবহারকারীরা প্রায়শই ডেটা বিজ্ঞানী বা ডেটা ইঞ্জিনিয়ার হয়, অন্তত প্রাথমিকভাবে। ব্যবসায়িক বিশ্লেষকরা ডেটা কিউরেট হয়ে গেলে অ্যাক্সেস পান।
  • বিশ্লেষণের ধরন: ডেটা গুদামগুলির জন্য সাধারণ বিশ্লেষণের মধ্যে রয়েছে ব্যবসায়িক বুদ্ধিমত্তা, ব্যাচ রিপোর্টিং এবং ভিজ্যুয়ালাইজেশন। ডেটা লেকের জন্য, সাধারণ বিশ্লেষণের মধ্যে রয়েছে মেশিন লার্নিং, ভবিষ্যদ্বাণীমূলক বিশ্লেষণ, ডেটা আবিষ্কার এবং ডেটা প্রোফাইলিং।

ডেটা মার্ট সম্পর্কে কী?

ডেটা মার্ট বিশ্লেষণ ডাটাবেস যা একটি একক বিভাগ বা ব্যবসায়িক ইউনিটের ডেটাতে সীমাবদ্ধ, ডেটা গুদামের বিপরীতে, যা বিশ্লেষণের জন্য উপযুক্ত ফর্মে একটি কোম্পানির সমস্ত রিলেশনাল ডেটা একত্রিত করে। ডেটা মার্টগুলি শুধুমাত্র বিভাগের সাথে প্রাসঙ্গিক ডেটা ধারণ করে দক্ষ বিশ্লেষণের প্রস্তাব দেয়; যেমন, তারা সহজাতভাবে siloed হয়. কেউ কেউ দাবি করেন যে সিলোয়িং কোন ব্যাপার না কারণ ব্যবসায়িক ইউনিটের বাদ দেওয়া ডেটার প্রয়োজন নেই। বাস্তব জীবনে, এটি প্রায়শই গুরুত্বপূর্ণ হয়—এখানে সর্বদা একজন উচ্চতর ব্যক্তি থাকে যাদের একাধিক ব্যবসায়িক ইউনিটের সম্মিলিত ডেটার উপর ভিত্তি করে প্রতিবেদনের প্রয়োজন হয়। এটি একটি কারণ যে আমরা বর্তমানে অনেক ডেটা লেক এবং ডেটা গুদাম এবং কয়েকটি ডেটা মার্ট দেখতে পাচ্ছি।

কপিরাইট © 2022 IDG Communications, Inc.