स्पार्क स्ट्रिमिङ डेटा सफाई संयन्त्र
(I) DStream र RDD
हामीलाई थाहा छ, स्पार्क स्ट्रिमिङ गणना स्पार्क कोरमा आधारित छ, र स्पार्क कोरको कोर RDD हो, त्यसैले स्पार्क स्ट्रिमिङ पनि RDD सँग सम्बन्धित हुनुपर्छ। यद्यपि, स्पार्क स्ट्रिमिङले प्रयोगकर्ताहरूलाई प्रत्यक्ष रूपमा RDD प्रयोग गर्न दिँदैन, तर DStream अवधारणाहरूको सेटलाई सारांशित गर्दछ, DStream र RDD समावेशी सम्बन्धहरू हुन्, तपाईंले यसलाई जाभामा सजावट ढाँचाको रूपमा बुझ्न सक्नुहुन्छ, अर्थात्, DStream RDD को वृद्धि हो, तर व्यवहार RDD जस्तै छ।
DStream र RDD दुवैका धेरै अवस्थाहरू छन्।
(१) मा समान रूपान्तरण कार्यहरू छन्, जस्तै map, reduceByKey, आदि, तर केही अद्वितीय पनि छन्, जस्तै Window, mapWithStated, आदि।
(२) सबैमा कार्य कार्यहरू हुन्छन्, जस्तै foreachRDD, गणना, आदि।
प्रोग्रामिङ मोडेल एकरूप छ।
(ख) स्पार्क स्ट्रिमिङमा DStream को परिचय
DStream मा धेरै कक्षाहरू छन्।
(१) डेटा स्रोत वर्गहरू, जस्तै इनपुटडीस्ट्रीम, विशिष्ट डाइरेक्टकाफ्काइनपुटस्ट्रीम, आदि।
(२) रूपान्तरण कक्षाहरू, सामान्यतया MappedDStream, ShuffledDStream
(३) आउटपुट वर्गहरू, सामान्यतया जस्तै ForEachDStream
माथिको कुराबाट, सुरु (इनपुट) देखि अन्त्य (आउटपुट) सम्मको डेटा DStream प्रणालीद्वारा गरिन्छ, जसको अर्थ प्रयोगकर्ताले सामान्यतया RDD हरू प्रत्यक्ष रूपमा उत्पन्न र हेरफेर गर्न सक्दैन, जसको अर्थ DStream सँग RDD हरूको जीवन चक्रको लागि जिम्मेवार हुने अवसर र दायित्व छ।
अर्को शब्दमा, स्पार्क स्ट्रिमिङमा एउटा छस्वचालित सफाईप्रकार्य।
(iii) स्पार्क स्ट्रिमिङमा RDD उत्पादनको प्रक्रिया
स्पार्क स्ट्रिमिङमा RDD हरूको जीवन प्रवाह निम्नानुसार मोटामोटी छ।
(१) InputDStream मा, प्राप्त डेटा RDD मा रूपान्तरण हुन्छ, जस्तै DirectKafkaInputStream, जसले KafkaRDD उत्पन्न गर्छ।
(२) त्यसपछि MappedDStream र अन्य डेटा रूपान्तरण मार्फत, यो समयलाई रूपान्तरणको लागि नक्सा विधिसँग सम्बन्धित सिधै RDD भनिन्छ।
(३) आउटपुट क्लास अपरेशनमा, RDD खुला हुँदा मात्र, तपाईंले प्रयोगकर्तालाई सम्बन्धित भण्डारण, अन्य गणनाहरू, र अन्य अपरेशनहरू गर्न दिन सक्नुहुन्छ।