स्पार्क स्ट्रिमिङ डेटा सफाई संयन्त्र
(I) DStream र RDD
हामीलाई थाहा छ, स्पार्क स्ट्रिमिङ गणना स्पार्क कोरमा आधारित छ, र स्पार्क कोरको कोर RDD हो, त्यसैले स्पार्क स्ट्रिमिङ पनि RDD सँग सम्बन्धित हुनुपर्छ।यद्यपि, स्पार्क स्ट्रिमिङले प्रयोगकर्ताहरूलाई सीधा RDD प्रयोग गर्न दिँदैन, तर DStream अवधारणाहरूको सेटलाई सार दिन्छ, DStream र RDD समावेशी सम्बन्धहरू हुन्, तपाईंले यसलाई जाभामा सजावट ढाँचाको रूपमा बुझ्न सक्नुहुन्छ, त्यो हो, DStream RDD को वृद्धि हो, तर व्यवहार RDD जस्तै छ।
DStream र RDD दुबैमा धेरै सर्तहरू छन्।
(1) समान रूपान्तरण कार्यहरू छन्, जस्तै नक्सा, reduceByKey, आदि, तर केही अनौठो पनि छन्, जस्तै Window, mapWithStated, आदि।
(२) सबैसँग कार्य कार्यहरू छन्, जस्तै foreachRDD, गणना, आदि।
प्रोग्रामिङ मोडेल एकरूप छ।
(B) स्पार्क स्ट्रिमिङमा DStream को परिचय
DStream ले धेरै कक्षाहरू समावेश गर्दछ।
(1) डाटा स्रोत वर्गहरू, जस्तै InputDStream, विशिष्ट DirectKafkaInputStream, आदि।
(२) रूपान्तरण कक्षाहरू, सामान्यतया MappedDStream, ShuffledDStream
(3) आउटपुट वर्गहरू, सामान्यतया जस्तै ForEachDStream
माथिबाट, सुरु (इनपुट) देखि अन्त्य (आउटपुट) सम्मको डाटा DStream प्रणालीद्वारा गरिन्छ, जसको मतलब प्रयोगकर्ताले सामान्यतया RDD हरू सीधै उत्पन्न र हेरफेर गर्न सक्दैन, जसको मतलब DStream सँग अवसर र दायित्व छ। RDDs को जीवन चक्रको लागि जिम्मेवार।
अर्को शब्दमा, स्पार्क स्ट्रिमिङमा एउटा छस्वचालित सफाईसमारोह।
(iii) स्पार्क स्ट्रिमिङमा RDD उत्पादनको प्रक्रिया
स्पार्क स्ट्रिमिङमा RDDs को जीवन प्रवाह निम्नानुसार नराम्रो छ।
(1) InputDStream मा, प्राप्त डाटा RDD मा परिणत हुन्छ, जस्तै DirectKafkaInputStream, जसले KafkaRDD उत्पन्न गर्दछ।
(२) त्यसपछि MappedDStream र अन्य डेटा रूपान्तरण मार्फत, यस समयलाई प्रत्यक्ष रूपमा रूपान्तरणको लागि नक्सा विधिसँग सम्बन्धित RDD भनिन्छ।
(३) आउटपुट क्लास सञ्चालनमा, RDD खुलासा हुँदा मात्र, तपाईंले प्रयोगकर्तालाई सम्बन्धित भण्डारण, अन्य गणनाहरू र अन्य कार्यहरू गर्न दिन सक्नुहुन्छ।