बिग डेटा क्या है? (What is Big Data in Hindi)
बिग डेटा शब्द कंप्यूटर साइंस के क्षेत्र में पिछले कुछ समय से लगातार चर्चा का विषय बना हुआ है, लेकिन बहुत से लोग नहीं जानते कि बिग डेटा क्या है। बिग डेटा डेटा का एक संग्रह है जिसकी मात्रा बहुत ज्यादा होती है, और समय के साथ तेजी से बढ़ती रहती है। यह बड़े आकार का और जटिलता पूर्ण डेटासेट होता है और कोई भी साधारण/पारंपरिक टूल इसे स्टोर या प्रोसेस नहीं कर सकता है। वैश्विक डेटा का लगभग 90% डेटा केवल पिछले 2 वर्षों में ही आया है।
बिग डेटा के बारे में कुछ बातें, जो बिग डेटा के संदर्भ को समझने में आपकी समझ को और भी आसान बना देगा –
- यह डेटा की एक बड़ी मात्रा को दर्शाता है जो समय के साथ साथ तेजी से बढ़ता रहता है।
- यह डेटा इतना बड़ा होता है कि इसकी प्रोसेसिंग और एनालिसिस पारंपरिक डेटा प्रोसेसिंग तकनीकों का उपयोग करके नहीं किया जा सकता है।
- इसमें डेटा माइनिंग, डेटा स्टोरेज, डेटा एनालिसिस, डेटा शेयरिंग और डेटा विज़ुअलाइज़ेशन आदि शामिल हैं।
बिग डेटा के प्रकार (Types of Big Data in Hindi )
बिग डेटा को तीन भागों में वर्गीकृत किया जाता है:
- Structured Data (स्ट्रक्चर्ड डेटा)
- Unstructured Data (अनस्ट्रक्चर्ड डेटा)
- Semi-Structured Data (सेमीस्ट्रक्चर्ड डेटा)

आइए समझते हैं कि यह तीनों पॉइंट बिग डेटा से कैसे संबंधित है –
स्ट्रक्चर्ड डेटा (Structured Data in Hindi)
कोई भी डेटा जिसे फिक्स्ड फॉर्मेट में स्टोर, एक्सेस और प्रोसेस किया जा सकता है, उसे ‘स्ट्रक्चर्ड’ डेटा कहते है। स्ट्रक्चर्ड डेटा के साथ काम करना सबसे आसान होता है। समय के साथ, कंप्यूटर साइंस में हुई प्रगति ने इस तरह के डेटा के साथ काम करने की तकनीक विकसित करने में सफलता हासिल कर ली है।
उदाहरण के तौर पर आपने स्प्रेडशीट पर कार्य किया होगा जिसमें डेटा को रॉ और कॉलम की फिक्स्ड फॉर्मेट में स्टोर किया जाता है।
क्या आप जानते हैं? एक रिलेशनल डेटाबेस मैनेजमेंट सिस्टम (Relational Database Management System) में स्टोर डेटा ‘स्ट्रक्चर्ड’ डेटा का ही एक उदाहरण है।
जिसे नीचे दी गयी एम्प्लॉई टेबल से समझ सकते हैं –
ID | Name | Age | Salary |
1 | Adam | 34 | 13000 |
2 | Alex | 28 | 15000 |
3 | Stuart | 20 | 18000 |
4 | Ross | 42 | 19020 |
अनस्ट्रक्चर्ड डेटा (Unstructured Data in Hindi)
अनिश्चित फॉर्मेट वाले किसी भी डेटा को अनस्ट्रक्चर्ड डेटा कहा जाता है। अन-स्ट्रक्चर्ड डेटा की प्रोसेसिंग में बहुत सी चुनौतियों का सामना करना पड़ता है ताकि इस डेटा को जानकारी लायक और मूल्यवान बनाया जा सके। अन-स्ट्रक्चर्ड का सबसे बड़ा उदाहरण डेटा का विषम होना है जिसमें साधारण टेक्स्ट फ़ाइलों से लेकर, इमेजेज, वीडियो आदि सभी सम्मिलित होते है।
आजकल ऑर्गनाइजेशन्स के पास डेटा का खजाना मौजूद है, लेकिन दुर्भाग्य से, वे नहीं जानते कि इसको तेजी से कैसे उपयोगी बनाया जाए क्योंकि यह डेटा रॉ फॉर्म में या अनस्ट्रक्चर्ड फॉर्म में है।

सेमीस्ट्रक्चर्ड डेटा (Semi-Structured Data in Hindi)
सेमीस्ट्रक्चर्ड डेटा वह डेटा होता है जो डेटा मॉडल के अनुरूप नहीं होता है लेकिन यह कुछ स्ट्रक्चर्ड फॉर्म में होता है। सेमीस्ट्रक्चर्ड डेटा में ‘स्ट्रक्चर्ड और अनस्ट्रक्चर्ड’ डेटा के दोनों प्रकार होते हैं। यह ऐसा डेटा है जो एक रिलेशनल डेटाबेस के फॉर्म में नहीं होता है लेकिन इसमें कुछ ऑर्गनाइज़ेशनल प्रॉपर्टीज होती हैं जो डेटा एनालिसिस को आसान बनाती हैं और कुछ प्रोसेस के साथ, हम उन्हें रिलेशनल डेटाबेस में स्टोर कर सकते हैं।
<book category="web">
<title lang="en">XQuery Kick Start</title>
<author>James McGovern</author>
<author>Per Bothner</author>
<author>Kurt Cagle</author>
<author>James Linn</author>
<author>Vaidyanathan Nagarajan</author>
<year>2003</year>
<price>49.99</price>
</book>
अब सवाल उठता है – यह बिग डेटा कहां से आ रहा है?
बिग डेटा के कुछ उदाहरण (Some Examples of Big Data in Hindi)
बिग डेटा के कुछ उदाहरण निम्नलिखित हैं –
सोशल मीडिया (Social Media):
फेसबुक और गूगल जैसी बड़ी डेटा कंपनियां हमारे द्वारा की जाने वाली गतिविधियों से डेटा प्राप्त करती हैं। जिसमें अन्य उदाहरण यूट्यूब, ट्विटर, लिंक्डइन, ब्लॉग, स्लाइडशेयर, इंस्टाग्राम, वर्डप्रेस, आदि हैं।
Facebook (फेसबुक): आंकड़े बताते हैं कि सोशल मीडिया साइट फेसबुक के डेटाबेस में हर दिन 500+ टेराबाइट नया डेटा जुड़ जाता है। यह डेटा मुख्य रूप से फोटो और वीडियो, मैसेज, कमेंट्स आदि से बनता है।
Youtube (यूट्यूब): आंकड़े बताते हैं कि पूरी दुनिया में YouTube पर प्रतिदिन लगभग 440,000 टेराबाइट (TB) डेटा का उपयोग किया जाता हैं। वह भी तब जब इसमें वीडियो अपलोड का डेटा शामिल नहीं किया है।
Google: एक अनुमान के मुताबिक गूगल एक दिन में लगभग 20 Petabytes डेटा प्रोसेस करता है।
पब्लिक वेब (Public Web):
इसमें विकिपीडिया, हेल्थकेयर सर्विसेज, मौसम, ट्रैफिक आदि से आने वाला डेटा शामिल हैं।
डॉक्यूमेंट (Docs)
अलग अलग फॉर्मेट के डॉक्यूमेंट जैसे HTML, CSV, PDF, XLS, Word, XML आदि से भी बिग डेटा बनता है।
मीडिया (Media)
इमेजेस, वीडियो, ऑडियो, लाइव स्ट्रीम, पॉडकास्ट आदि।
अतः हम कह सकते हैं कि बिग डेटा भी एक डेटा ही है, लेकिन यह आकार में बहुत बड़ा होता है।