अमेज़न रेडशिफ्ट डेटाटाइप क्या हैं?

Amezana Redasiphta Detata Ipa Kya Haim



Amazon Redshift AWS द्वारा पेश किया गया एक क्लाउड समाधान है जो डेटा वेयरहाउस के उद्देश्य को पूरा करता है। डेटा वेयरहाउस क्लाउड में एक बड़ा स्थान है जो भारी मात्रा में डेटा संग्रहीत करता है। डेटा वेयरहाउस और डेटाबेस के बीच अंतर यह है कि डेटाबेस न केवल वर्तमान डेटा को संग्रहीत करता है बल्कि डेटा का पूरा इतिहास भी संग्रहीत करता है।

यह लेख AWS द्वारा Amazon Redshift और इस सेवा द्वारा समर्थित डेटा प्रकारों के बारे में जानेगा।







अमेज़न रेडशिफ्ट क्या है?

यह डेटा वेयरहाउसिंग का एक क्लाउड समाधान है जो पर आधारित है 'पोस्टग्रेएसक्यूएल' . यह नामक तकनीक का उपयोग करता है 'बड़े पैमाने पर समानांतर प्रसंस्करण (एमपीपी)' पेटाबाइट डेटा को बिजली की गति से संसाधित करने के लिए। यह ऐतिहासिक डेटा और स्ट्रीमिंग समाधानों के आधार पर वास्तविक समय की भविष्यवाणी के लिए एक आसान समाधान प्रदान करता है।



निम्नलिखित चित्र Amazon Redshift की कार्य प्रणाली को दर्शाता है:







अमेज़ॅन रेडशिफ्ट कैसे काम करता है, इसकी यह ग्राफिकल व्याख्या बहुत सरल और स्पष्ट है। यह हमें इस बारे में जानकारी देता है कि आउटपुट उत्पन्न करने और डेटा-संचालित एप्लिकेशन बनाने के लिए डेटा को कैसे पुनर्प्राप्त किया जाता है और आगे संसाधित किया जाता है।

Amazon Redshift का डेटा वेयरहाउस आर्किटेक्चर नीचे दिए गए चित्र में भी देखा जा सकता है:



अब, हम इस सेवा के उपयोग और सुविधाओं की ओर बढ़ेंगे।

विशेषताएँ

जैसा कि पहले ही उल्लेख किया गया है, अमेज़ॅन रेडशिफ्ट पोस्टग्रेएसक्यूएल पर आधारित है और मैसिवली पैरेलल प्रोसेसिंग नामक तकनीक का उपयोग करता है जो इसे कुछ ही समय में डेटा के पेटाबाइट को संसाधित करने में सक्षम बनाता है। इसलिए, Redshift अच्छी संख्या में सुविधाएँ और उपयोग प्रदान करता है। इनमें से कुछ विशेषताएं नीचे हैं:

  • डेटा सुरक्षा और एन्क्रिप्शन.
  • व्यापारिक विश्लेषणात्मक।
  • डेटा-संचालित एप्लिकेशन समर्थन।
  • पूर्वानुमानित विश्लेषण.
  • स्वचालित कार्य पुनरावृत्ति.
  • समवर्ती डेटा स्केलिंग।
  • डेटा भण्डारण।

इस सेवा की कुछ अतिरिक्त विशेषताएं नीचे दिए गए चित्र में देखी जा सकती हैं:

ये Redshift द्वारा प्रदान की जाने वाली अधिकांश सुविधाएँ थीं और अब हम इस सेवा द्वारा समर्थित डेटा प्रकारों की ओर बढ़ेंगे।

डेटा के प्रकार

अमेज़ॅन रेडशिफ्ट एक डेटा वेयरहाउसिंग समाधान है जिसमें बड़ी संख्या में सुविधाएं हैं। यह संरचित और असंरचित दोनों डेटा प्रकारों का समर्थन करता है। चूंकि यह PostgreSQL पर आधारित है, इसलिए डेटा को सरल SQL क्वेरी के माध्यम से हेरफेर किया जा सकता है।

अब, एक और सवाल उठता है, यानी, ये डेटा प्रारूप एक दूसरे से कैसे भिन्न हैं? आइए इन दो डेटा प्रारूपों पर चर्चा करें।

संरचित डेटा

एक उच्च स्वरूपित डेटा प्रकार जिसे मशीन लर्निंग एल्गोरिदम द्वारा आसानी से अनुवादित किया जाता है, संरचित डेटा कहा जाता है। एक SQL डेटाबेस संरचित डेटा के साथ काम करता है। संरचित डेटा सारणीबद्ध रूप में होता है जैसे रिलेशनल डेटाबेस द्वारा उपयोग किया जाने वाला डेटा

व्यापक रूप से उपयोग की जाने वाली SQL डेटाबेस प्रबंधन प्रणालियों में से एक MYSQL है। इसकी वास्तुकला नीचे दिए गए चित्र में देखी जा सकती है:

असंरचित डेटा

असंरचित डेटा पैटर्न रहित और प्रारूप रहित डेटा होता है जैसे गैर-संबंधपरक डेटाबेस में उपयोग किया जाने वाला डेटा। MongoDB एक प्रसिद्ध गैर-संबंधपरक डेटाबेस है। SQL क्वेरीज़ गैर-संबंधपरक डेटाबेस पर काम नहीं करती हैं, इसलिए इन डेटाबेस को NoSQL डेटाबेस भी कहा जाता है।

जैसा कि पहले ही उल्लेख किया गया है, MongoDB एक गैर-संरचित डेटाबेस प्रबंधन प्रणाली है और इसकी वास्तुकला नीचे दिए गए चित्र में देखी जा सकती है:

हम डेटाबेस में उपयोग किए जाने वाले दो मूलभूत डेटा प्रकारों से गुजर चुके हैं और अब हम वास्तविक डेटा प्रकारों की ओर बढ़ेंगे जो अमेज़ॅन रेडशिफ्ट द्वारा समर्थित हैं। ये डेटा प्रकार हैं:

  • संख्यात्मक डेटा
  • चरित्र डेटा
  • दिनांक समय डेटा
  • बूलियन डेटा
  • एचएलएलएसकेच डेटा
  • सुपर डेटा
  • प्रतिस्थापन डेटा

आइए इन डेटा प्रकारों पर चर्चा करें:

संख्यात्मक डेटा

यह डेटा प्रकार स्व-व्याख्यात्मक है। यह पूर्णांक, दशमलव, फ़्लोटिंग पॉइंट और अन्य संख्यात्मक डेटा प्रकारों के रूप में डेटा का समर्थन करता है।

पूर्णांक डेटा प्रकार की विशेषताओं को नीचे दिए गए चित्र में देखा जा सकता है:

दशमलव डेटा प्रकार उपयोगकर्ता से सटीकता के आधार पर डेटा संग्रहीत करता है। इसकी विशेषताएँ इस प्रकार हैं:

चरित्र डेटा

CHAR और VARCHAR डेटा प्रकार वर्ण-आधारित डेटा प्रकारों की श्रेणी में आते हैं। NCHAR और NVARCHAR भी कैरेक्टर टाइप डेटा प्रकार हैं। CHAR और VARCHAR के विपरीत, ये दो डेटा प्रकार निश्चित लंबाई, यूनिकोड वर्ण संग्रहीत करते हैं। आइए इन डेटा प्रकारों के गुणों को देखें, जैसे:

  • CHAR, CHARACTER, NCHAR की रेंज 4KB है।
  • VARCHAR, NVARCHAR की सीमा 64KB है।
  • BPCHAR की सीमा 256 बाइट्स है।
  • TEXT की सीमा 260 बाइट्स है।

दिनांक समय डेटा

दिनांक समय डेटा प्रकार DATE, TIME, TIMETZ, TIMESTAMP, TIMESTAMPTZ हैं। इन डेटा प्रकारों की कार्यात्मक क्षमताएं इस प्रकार हैं:

  • DATE बस कैलेंडर तिथियों को संग्रहीत करता है।
  • TIME बिना किसी समय क्षेत्र के संदर्भ के समय को संग्रहीत करता है। यह डिफ़ॉल्ट रूप से UTC है.
  • TIMETZ समय क्षेत्र के संदर्भ में समय संग्रहीत करता है। यह डिफ़ॉल्ट रूप से उपयोगकर्ता तालिकाओं और सिस्टम तालिकाओं दोनों में UTC है।
  • टाइमस्टैम्प में न केवल समय बल्कि तारीखें भी शामिल होती हैं। यह डिफ़ॉल्ट रूप से उपयोगकर्ता तालिकाओं और सिस्टम तालिकाओं दोनों में UTC है।
  • TIMESTAMPTZ में न केवल समय बल्कि तारीखें भी शामिल हैं। यह डिफ़ॉल्ट रूप से केवल उपयोगकर्ता तालिकाओं में UTC है।

बूलियन डेटा

बूलियन डेटा प्रकार एक बाइनरी डेटा प्रकार है, जिसका अर्थ है कि केवल दो मान हैं। बूलियन डेटा प्रकार की विशेषता तालिका नीचे चित्र में दी गई है:

एचएलएलएसकेच डेटा

इस डेटा प्रकार का उपयोग स्केच को संग्रहीत करने के लिए किया जाता है। रेडशिफ्ट रेखाचित्रों को विरल या सघन रूप में प्रस्तुत कर सकता है। स्केच विरल के रूप में शुरू होते हैं और धीरे-धीरे सघन हो जाते हैं जब सघन प्रारूप लिंक का अनुसरण करके अधिक दक्षता प्रदान करता है।

सुपर डेटा

यह डेटा प्रकार असंरचित डेटा से संबंधित है जो सरणियों, नेस्टेड संरचनाओं या JSON के रूप में हो सकता है। डेटा का कोई मॉडल या प्रारूप नहीं है. उपयोगकर्ता लिंक पर जाकर अधिक जानकारी प्राप्त कर सकते हैं।

प्रतिस्थापन डेटा

यह डेटा प्रकार वर्णों को भी संग्रहीत करता है। हालाँकि, लंबाई सीमित है. अमेज़ॅन रेडशिफ्ट VARBYTE डेटा को किसी भी पूर्णांक प्रकार या वर्ण प्रकार डेटा में कास्टिंग करने की अनुमति देता है। इस डेटाटाइप के बारे में अधिक जानकारी प्राप्त करने के लिए, नीचे दिए गए लिंक का अनुसरण करें।

Amazon Redshift और इसके द्वारा समर्थित डेटा प्रकारों में बस इतना ही है।

निष्कर्ष

अमेज़ॅन रेडशिफ्ट एक AWS सेवा है जो अपने मूल रूप में डेटा वेयरहाउस के उद्देश्य को पूरा करती है लेकिन एनालिटिक्स और भविष्यवाणी के लिए एक बहुत शक्तिशाली और विशिष्ट समाधान है। इस आलेख में रेडशिफ्ट और उसके द्वारा समर्थित डेटा प्रकारों पर चर्चा की गई है। इन डेटा प्रकारों को उनकी विशेषताओं के साथ संक्षेप में समझाया गया था।