Car-tech

উচ্চতম সুপারকম্পিউটারগুলি সবচেয়ে কঠিন হয়ে পড়ে, গবেষক পরামর্শ দেন যে

Paige Terese জিজ্ঞেস গেব & # 39 হবে; গুলি ধর্মমাতা | প্রতিবেশী [2018]

Paige Terese জিজ্ঞেস গেব & # 39 হবে; গুলি ধর্মমাতা | প্রতিবেশী [2018]

সুচিপত্র:

Anonim

সুপারকম্পিউটারগুলি আরো শক্তিশালী হয়ে উঠবে, তাই তারা বিল্ট ইন কম্পোনেন্টির বর্ধিত পরিমাণের কারণে, ব্যর্থতার জন্য আরো বেশি ঝুঁকিপূর্ণ হবে। গত সপ্তাহে সল্ট লেক সিটি, উটাহায় সাম্প্রতিক এস 1২২২ সম্মেলনের কয়েকজন গবেষক এই ক্রমবর্ধমান সমস্যাটির সম্ভাব্য সমাধান প্রদান করেছেন।

আজকের উচ্চ-কর্মক্ষমতা কম্পিউটিং (এইচপিসি) সিস্টেমগুলিতে 100,000 টি নোড বা একাধিক হতে পারে- প্রতিটি নথ একাধিক থেকে নির্মিত মেমরি উপাদান, প্রসেসর, বাস এবং অন্যান্য সার্কিটের পরিসংখ্যানগতভাবে বলা যায়, এই সমস্ত উপাদানগুলি কিছু সময়ে ব্যর্থ হবে, এবং তারা যখন এটি করবেন তখন তারা অপারেশন বন্ধ করে দিবে, SC15 এ একটি বক্তৃতার সময় নর্থ ক্যারোলিনা স্টেট ইউনিভার্সিটির পিএইচডি ডিগ্রিধারী ডেভিড Fiala বলেন।

সমস্যা নেই একটি নতুন, অবশ্যই। লরেন্স লিভারমোর ন্যাশনাল ল্যাবরেটরির 600-নোড এএসসিআই (তাত্পর্যপূর্ণ কৌশলগত কম্পিউটিং ইনিশিয়েটিভ) হোয়াইট সুপারকম্পিউটার 2001 সালে অনলাইন হয়ে গেলে, এটি কেবলমাত্র পাঁচ ঘন্টা ব্যর্থতার (এমটিবিএফ) মধ্যে একটি গড় সময় ছিল। পরে টিউনিংয়ের প্রচেষ্টায় এএসসিআই হোয়াইটের এমটিবিএফ 55 ঘণ্টার মধ্যে উন্নত হয়েছে, ফায়লা বলেন।

কিন্তু যতোটাতে সুপারকম্পিউটারের নোডগুলির সংখ্যা বাড়বে, ততই সমস্যা হবে। "আজকের এই বিষয়ে কিছু করার দরকার আছে।" আমরা বলব যে, এটিকে আরও খারাপ করে তুলতে হবে। পরবর্তী দশকে কীভাবে সুপার কম্পিউটারে দশমিকের গণনা করা হবে তা নিয়ে আজকের মডেলগুলি।

আজকের কৌশলগুলি সিস্টেম ব্যর্থতার সাথে মোকাবিলা করার জন্য খুব ভাল স্কেল না হতে পারে, Fiala বলেন। তিনি চেকপয়েন্টিংকে উদ্ধৃত করেন, যেখানে একটি চলমান প্রোগ্রাম অস্থায়ীভাবে স্থগিত থাকে এবং এর অবস্থাটি ডিস্কে সংরক্ষণ করা হয়। প্রোগ্রাম তারপর ক্র্যাশ করা উচিত, সিস্টেম শেষ চেকপয়েন্ট থেকে কাজ পুনরায় আরম্ভ করতে সক্ষম।

NCSUDavid Fiala Fiala অনুযায়ী চেকপয়েন্টিং সঙ্গে সমস্যা, যে নোড সংখ্যা বৃদ্ধি, সিস্টেম ওভারহেড পরিমাণ চেকপয়েন্টিংয়ের প্রয়োজন যেমন বৃদ্ধি হয়- এবং একটি সূচকীয় হারে বৃদ্ধি পায়। উদাহরণস্বরূপ, 100,000-নোডের সুপারকম্পিউটারে, কাজ পরিচালনার ক্ষেত্রে কেবলমাত্র 35 শতাংশ কার্যকলাপই জড়িত থাকবে। বাকিগুলো চেকপয়েন্টিংয়ের মাধ্যমে এবং একটি সিস্টেমের ব্যর্থ-পুনরুদ্ধারের অপারেশন হওয়া উচিত, ফায়লা আনুমানিক।

EXascale সিস্টেমের জন্য প্রয়োজনীয় সমস্ত অতিরিক্ত হার্ডওয়্যারগুলির কারণে, যা একটি মিলিয়ন বা তার বেশি উপাদান থেকে তৈরি হতে পারে, সিস্টেম নির্ভরযোগ্যতা থাকবে আজকের সুপারকম্পিউটারগুলি উপভোগ করে এমন এমটিবিএফকে রক্ষা করার জন্য 100 বার উন্নত করতে হবে।

পুরাতন, ভাল উপদেশ: ব্যাক আপ ডেটা

ফিয়াটা প্রযুক্তিটি উপস্থাপন করেছে যা তিনি এবং সহকর্মী গবেষকেরা উন্নত করেছেন যা নির্ভরযোগ্যতা উন্নত করতে সহায়তা করে । প্রযুক্তিটি নীরব ডেটা দুর্নীতির সমস্যা মোকাবেলা করে, যখন সিস্টেমগুলি ডিস্ক থেকে ডাটা লেখার অন্বেষণ করে।

মূলত, গবেষকরা 'পদ্ধতিতে একাধিক অনুলিপি, বা "ক্লোন" একটি প্রোগ্রাম চালানো হয়, একযোগে এবং উত্তরের তুলনা করে। সফ্টওয়্যার, যার নাম RedMPI, বার্তা প্যাসিফিক ইন্টারফেস (এমপিআই), একাধিক সার্ভারের মধ্যে চলমান অ্যাপ্লিকেশানগুলিকে বিভক্ত করার জন্য একটি লাইব্রেরি দ্বারা চালানো হয় যাতে প্রোগ্রামের বিভিন্ন অংশগুলিকে সমান্তরালে চালানো যায়।

রেড এমপিআই প্রতিটি এমপিআই এর প্রতিলিপি এবং প্রতিলিপি করে যে বার্তাটি একটি অ্যাপ্লিকেশন প্রেরণ করে, এবং প্রোগ্রামের ক্লোন (বা ক্লোন) -এ বার্তাগুলির অনুলিপি পাঠায়। যদি বিভিন্ন ক্লোন বিভিন্ন উত্তর গণনা করে, তবে সংখ্যাটি আবার ফ্লাকের উপর পুনর্বিবেচনার করতে পারে, যা পুরো প্রোগ্রামটি আবার চালানোর সময় এবং সম্পদ সংরক্ষণ করবে।

"অপ্রয়োজনীয়তা বাস্তবায়ন ব্যয়বহুল নয়। এটি মূল সংখ্যাগুলির সংখ্যা বেশি হতে পারে যে প্রয়োজন হয়, কিন্তু এটি চেকপয়েন্টের পুনরাবৃত্তি সঙ্গে পুনর্বিন্যাসের প্রয়োজন এড়াতে, "Fiala বলেন। "বিকল্পটি অবশ্যই কাজগুলি পুনরায় চালুর জন্য, যতক্ষণ না আপনার মনে হয় যে আপনার সঠিক উত্তর রয়েছে।"

ফিয়ালা প্রতিটি প্রোগ্রামের দুটি ব্যাকআপ কপি চালানোর জন্য সুপারিশ করেছে, ট্রিপল রিডান্ডেন্সি জন্য। যদিও প্রোগ্রামের একাধিক অনুলিপি চলতে শুরু করায় প্রাথমিকভাবে আরো বেশি সম্পদ গ্রহণ করা হবে, সময়ের সাথে এটি আসলে আরো কার্যকরী হতে পারে, যে কারণে প্রশ্নগুলির উত্তরগুলি পুনর্সূচনা করতে হবে না। এছাড়াও, একাধিক কপি চালানোর সময় চেকপয়েন্টিংয়ের প্রয়োজন হয় না, যা সিস্টেম রিসোর্সেও সংরক্ষণ করবে।

UCSCETHAN মিলার

"আমি মনে করি যে অপ্রতুলতা করার ধারণা আসলে একটি ভাল ধারণা। [জন্য] হাজার হাজার নোড জড়িত অনেক বড় কম্পিউটেশন, অবশ্যই একটি ত্রুটির মধ্যে সমাহিত করা হবে যে একটি সুযোগ," এথান মিলার বলেন,. ক্যালিফোর্নিয়ার সান্তা ক্রুজ বিশ্ববিদ্যালয়ের কম্পিউটার বিজ্ঞান অধ্যাপক, যিনি উপস্থাপনায় উপস্থিত ছিলেন। কিন্তু তিনি বলেন, এই ধরনের অপ্রচলতা তৈরি হতে পারে এমন নেটওয়ার্ক ট্র্যাফিকের পরিমাণটি যথোপযুক্ত নাও হতে পারে। তিনি নোডের একই সেটের সমস্ত অ্যাপ্লিকেশন চালানোর পরামর্শ দিয়েছেন, যা ইন্টার্নোড ট্র্যাফিক হ্রাস করতে পারে।

আরেকটি উপস্থাপনায়, আনারা গাইনারু, উব্বা-শ্যাম্পেইনের ইলিনয়েস বিশ্ববিদ্যালয়ের পিএইচডি ডিগ্রিধারীরা, বিশ্লেষণের একটি কৌশল উপস্থাপন করেন ফাইলগুলি যখন সিস্টেম ব্যর্থতা ঘটতে পারে তখন ভবিষ্যদ্বাণী করা হবে।

ডেটা ডেটা মাইনিং সঙ্গে সংকেত বিশ্লেষণ সম্মিলন। সিগন্যাল বিশ্লেষণটি স্বাভাবিক আচরণকে চিহ্নিত করার জন্য ব্যবহার করা হয়, তাই ব্যর্থতার সময় এটি সহজেই দেখা যায়। ডেটা মাইনিং পৃথক রিপোর্ট ব্যর্থতার মধ্যে পারস্পরিক সম্পর্কের জন্য দেখায়। অন্য গবেষকরা দেখিয়েছেন যে একাধিক ব্যর্থতা মাঝে মাঝে একে অপরের সাথে সম্পর্কযুক্ত হয়, কারণ একটি প্রযুক্তির সঙ্গে ব্যর্থতা অন্যের কর্মক্ষমতা প্রভাবিত হতে পারে, Gainaru অনুযায়ী। উদাহরণস্বরূপ, যখন একটি নেটওয়ার্ক কার্ড ব্যর্থ হয়, তখন তা শীঘ্রই অন্যান্য যোগাযোগ ব্যবস্থার উপর নির্ভর করে যেগুলি অন্যান্য সিস্টেম প্রক্রিয়াগুলির উপর নির্ভর করে।

গবেষকরা দেখেছেন যে 70 শতাংশ সম্পর্কীয় ব্যর্থতা 10 সেকেন্ডের বেশি সময়ের একটি উইন্ডো প্রদান করে। অন্য কথায়, যখন ব্যর্থতার প্রথম চিহ্নটি সনাক্ত করা হয়েছে, তখন আরো জটিল সমস্যা দেখা দেওয়ার আগে সিস্টেমটির কাজটি সংরক্ষণ করা, অথবা অন্য নোডের কাজটি সরাতে 10 সেকেন্ড পর্যন্ত থাকতে পারে। "ব্যর্থতার পূর্বাভাস অন্য ফল্ট-সহনশীলতার কৌশল সঙ্গে মার্জ করা যাবে," Gainaru বলেন।

Joab জ্যাকসন জন্য এন্টারপ্রাইজ সফটওয়্যার এবং সাধারণ প্রযুক্তি ব্রেকিং নিউজ জুড়ে আইডিজি নিউজ সার্ভিস । Joab টুইটারে Joab_Jackson এ অনুসরণ করুন। Joab এর ইমেইল ঠিকানা [email protected]