• समाचार_ब्यानर

सेवा

स्पार्क स्ट्रिमिङ डेटा सफाई संयन्त्र
(I) DStream र RDD
हामीलाई थाहा छ, स्पार्क स्ट्रिमिङ गणना स्पार्क कोरमा आधारित छ, र स्पार्क कोरको कोर RDD हो, त्यसैले स्पार्क स्ट्रिमिङ पनि RDD सँग सम्बन्धित हुनुपर्छ।यद्यपि, स्पार्क स्ट्रिमिङले प्रयोगकर्ताहरूलाई सीधा RDD प्रयोग गर्न दिँदैन, तर DStream अवधारणाहरूको सेटलाई सार दिन्छ, DStream र RDD समावेशी सम्बन्धहरू हुन्, तपाईंले यसलाई Java मा सजावट ढाँचाको रूपमा बुझ्न सक्नुहुन्छ, त्यो हो, DStream RDD को एक वृद्धि हो, तर व्यवहार RDD जस्तै छ।
DStream र RDD दुबैमा धेरै सर्तहरू छन्।
(1) समान रूपान्तरण कार्यहरू छन्, जस्तै नक्सा, reduceByKey, आदि, तर केही अनौठो पनि छन्, जस्तै Window, mapWithStated, आदि।
(२) सबैसँग कार्य कार्यहरू छन्, जस्तै foreachRDD, गणना, आदि।
प्रोग्रामिङ मोडेल अनुरूप छ।
(B) स्पार्क स्ट्रिमिङमा DStream को परिचय
DStream ले धेरै कक्षाहरू समावेश गर्दछ।
(1) डाटा स्रोत वर्गहरू, जस्तै InputDStream, विशिष्ट DirectKafkaInputStream, आदि।
(२) रूपान्तरण कक्षाहरू, सामान्यतया MappedDStream, ShuffledDStream
(3) आउटपुट वर्गहरू, सामान्यतया जस्तै ForEachDStream
माथिबाट, डेटा सुरु (इनपुट) देखि अन्त्य (आउटपुट) सम्म DStream प्रणाली द्वारा गरिन्छ, जसको मतलब प्रयोगकर्ताले सामान्यतया सीधा RDDs उत्पन्न गर्न र हेरफेर गर्न सक्दैन, जसको मतलब DStream सँग अवसर र दायित्व छ। RDDs को जीवन चक्रको लागि जिम्मेवार।
अर्को शब्दमा, स्पार्क स्ट्रिमिङमा एउटा छस्वचालित सफाईसमारोह।
(iii) स्पार्क स्ट्रिमिङमा RDD उत्पादनको प्रक्रिया
स्पार्क स्ट्रिमिङमा RDDs को जीवन प्रवाह निम्नानुसार नराम्रो छ।
(1) InputDStream मा, प्राप्त डाटा RDD मा परिणत हुन्छ, जस्तै DirectKafkaInputStream, जसले KafkaRDD उत्पन्न गर्दछ।
(२) त्यसपछि MappedDStream र अन्य डेटा रूपान्तरण मार्फत, यो समय सीधै रूपान्तरणको लागि नक्सा विधि अनुरूप RDD भनिन्छ।
(३) आउटपुट क्लास सञ्चालनमा, RDD खुलासा हुँदा मात्र, तपाईंले प्रयोगकर्तालाई सम्बन्धित भण्डारण, अन्य गणनाहरू र अन्य कार्यहरू गर्न दिन सक्नुहुन्छ।