هادوپ یک چارچوب نرمافزاری منبعباز است که پردازش توزیعشده دادههای بزرگ را بر روی خوشههایی از سرورها ممکن میسازد. این چارچوب که به زبان جاوا نوشته شده است، برای انجام پردازش توزیع شده بر روی هزاران ماشین با تحملپذیری خطای بالا طراحی شده است. به جای تکیه بر سختافزارهای گرانقیمت، تحملپذیری در مقابل خطا در این خوشهها از توانایی نرمافزاری در تشخیص و ادارهی خرابی در لایه کاربرد میآید.هسته اصلی هادوپ از یک بخش ذخیرهسازی (سیستم فایل توزیع شده هادوپ یا HDFS) و یک بخش پردازش (Map/Reduce) تشکیل شده است. هادوپ فایلها را به بلوکهای بزرگ شکسته و آنها را بین نودهای یک خوشه توزیع میکند. برای پردازش داده، بخش Map/Reduce بسته کدی را برای نودها ارسال میکند تا پردازش را به صورت موازی انجام دهند. بدین ترتیب دادهها سریعتر و کاراتر پردازش میشوند.در خصوص نامگذاری نام هدوپ(HADOOP) باید گفت که مخفف عبارت خاصی نیست، این نامی است که پسر Doug برروی عروسک فیل خود که زرد رنگ بود گذاشته بود.
قابلیت ها و ویژگی ها
محاسبات توزیعشده و موازی در برنامه های حساس به داده نیز معمولا از طریق تقسیم کردن داده ها محقق می شود. هر یک از این بخش ها می توانند بطور مستقل پردازش شوند. یک برنامه اجرایی یکسان بطور موازی بروی تمام قسمت های داده ها اجرا می شود، و پس از اجرا، نتایج حاصل از اجرای برنامه ها با یکدیگر ادغام شده و خروجی نهایی را تولید می کند.
مقیاس پذیری افقی (scale out) به جای افزایش ظرفیت سختافزار هر دستگاه، به کلاستر موجود گرههای بیشتری اضافه میکنید. و مهمتر از همه این است که میتوانید دستگاههای بیشتری که در حال فعالیت هستند را بدون متوقف کردن سیستم اضافه کنید.
صرفه جویی در هزینه به روشی است کهHDFS میتواند بر روی یک سختافزار ارزان قیمت مانند دسکتاپ یا لب تاپ که هر روز از آن استفاده میکنید تا سرورهای ویژه و گران قیمت اجرا شود. به بیان دیگر، اضافه کردن گرههای بیشتر به HDFS (مقیاسپذیری افقی) از نظر اقتصادی نسبت به تهیه سختافزار قویتر مقرون به صرفهتر است.
قابلیت اطمینان و تحمل پذیری خطا که در آن NameNode مدیریت تکرار دادهها را برعهده دارد. یعنی چندین کپی از دادهها را نگهداری میکند. این تولید مجدد دادهها HDFS را برابر خرابی گره بسیار ایمن میکند. بنابراین، حتی اگر هر کدام گرهها از کار بیفتند، میتوانیم دادهها را از طریق نسخههای دیگر موجود بر سایر گرهها بازیابی کنیم. به صورت پیشفرض، ضریب تکرار ۳ است.
تنوع و حجم داده دو مورد از ویژگیهای محیط کلان داده می باشند که میتوان براحتی این موارد را در HDFS مدیریت کرد. در HDFS، میتوان دادههای حجیمی مانند چندین ترابایت و یا پتابایت را در انواع مختلف داده ذخیره کرد. بنابراین میتوانید هر نوع دادهای اعم از ساختاریافته، غیرساختاریافته یا نیمهساختاریافته را در آن ذخیره کنید.
توان عملیاتی بالا مقدار کاری است که در واحد زمان انجام میشود. این ویژگی دربارهی این موضوع است که با چه سرعتی میتوانید به دادههای سیستم دسترسی داشته باشید. به طور کلی، به شما دیدی دربارهی عملکرد سیستم میدهد و با پردازش دادهها به صورت موازی، زمان پردازش را فوقالعاده کاهش داده و به توان عملیاتی بالایی خواهیم رسید.
محلی بودن محاسبات به معنای انتقال پردازش به سمت داده به جای انتقال داده به سمت پردازش است. در سیستمهای سنتی، همیشه داده را به لایه برنامه منتقل میکنیم و سپس آن را پردازش میکنیم. اما در هدوپ، به علت معماری و حجم بالای داده، پردازش را به سمت داده منتقل خواهیم کرد.
آپاچی اسپارک یک چارچوب پردازش کلانداده «متنباز» (open source) است که به منظور انجام پردازش سریع و تحلیلهای پیچیده مورد استفاده قرار میگیرد. این برنامه طی سال 2۰۰۹ در UC Berkeleys AMPLab ساخته شده و استفاده از آن آسان است. آپاچی اسپارک به عنوان یک پروژه آپاچی در سال 2۰1۰ متنباز شد. اسپارک این امکان را برای کاربران فراهم میکند تا برنامههای خود را به زبانهای جاوا، اسکالا یا پایتون بنویسند. اسپارک علاوه بر الگوریتم نگاشت کاهش، از کوئریهای SQL، جریان داده، یادگیری ماشین و پردازش دادههای گراف نیز پشتیبانی میکند. این چارچوب بر فراز زیرساخت سیستم فایل توزیع شده هادوپ (HDFS) به منظور فراهم کردن عملکردهای بهبودیافته و اضافی اجرا میشود.
قابلیت ها و ویژگی ها
محاسبات توزیعشده و موازی در برنامه های حساس به داده نیز معمولا از طریق تقسیم کردن داده ها محقق می شود. هر یک از این بخش ها می توانند بطور مستقل پردازش شوند. یک برنامه اجرایی یکسان بطور موازی بروی تمام قسمت های داده ها اجرا می شود، و پس از اجرا، نتایج حاصل از اجرای برنامه ها با یکدیگر ادغام شده و خروجی نهایی را تولید می کند.
مقیاس پذیری افقی (scale out) به جای افزایش ظرفیت سختافزار هر دستگاه، به کلاستر موجود گرههای بیشتری اضافه میکنید. و مهمتر از همه این است که میتوانید دستگاههای بیشتری که در حال فعالیت هستند را بدون متوقف کردن سیستم اضافه کنید.
صرفه جویی در هزینه به روشی است کهHDFS میتواند بر روی یک سختافزار ارزان قیمت مانند دسکتاپ یا لب تاپ که هر روز از آن استفاده میکنید تا سرورهای ویژه و گران قیمت اجرا شود. به بیان دیگر، اضافه کردن گرههای بیشتر به HDFS (مقیاسپذیری افقی) از نظر اقتصادی نسبت به تهیه سختافزار قویتر مقرون به صرفهتر است.
قابلیت اطمینان و تحمل پذیری خطا که در آن NameNode مدیریت تکرار دادهها را برعهده دارد. یعنی چندین کپی از دادهها را نگهداری میکند. این تولید مجدد دادهها HDFS را برابر خرابی گره بسیار ایمن میکند. بنابراین، حتی اگر هر کدام گرهها از کار بیفتند، میتوانیم دادهها را از طریق نسخههای دیگر موجود بر سایر گرهها بازیابی کنیم. به صورت پیشفرض، ضریب تکرار ۳ است.
تنوع و حجم داده دو مورد از ویژگیهای محیط کلان داده می باشند که میتوان براحتی این موارد را در HDFS مدیریت کرد. در HDFS، میتوان دادههای حجیمی مانند چندین ترابایت و یا پتابایت را در انواع مختلف داده ذخیره کرد. بنابراین میتوانید هر نوع دادهای اعم از ساختاریافته، غیرساختاریافته یا نیمهساختاریافته را در آن ذخیره کنید.
توان عملیاتی بالا مقدار کاری است که در واحد زمان انجام میشود. این ویژگی دربارهی این موضوع است که با چه سرعتی میتوانید به دادههای سیستم دسترسی داشته باشید. به طور کلی، به شما دیدی دربارهی عملکرد سیستم میدهد و با پردازش دادهها به صورت موازی، زمان پردازش را فوقالعاده کاهش داده و به توان عملیاتی بالایی خواهیم رسید.
محلی بودن محاسبات به معنای انتقال پردازش به سمت داده به جای انتقال داده به سمت پردازش است. در سیستمهای سنتی، همیشه داده را به لایه برنامه منتقل میکنیم و سپس آن را پردازش میکنیم. اما در هدوپ، به علت معماری و حجم بالای داده، پردازش را به سمت داده منتقل خواهیم کرد.
استورم یک سیستم محاسباتی زمان واقعی توزیع شده و دارای تحملپذیری خطا برای پردازش جریانهای داده است. این سیستم برخلاف هادوپ که برای پردازش دستهای طراحی شده، به منظور انجام پردازش زمان واقعی ساخته شده است. علاوه بر این، راهاندازی و اجرای آن آسان است. استورم، مقیاسپذیر و دارای تحملپذیری در برابر خطا به منظور فراهم کردن کارایی رقابتی است. کاربران خوشه استورم توپولوژیهای گوناگونی را برای وظایف استورم گوناگون اجرا میکنند، در حالیکه پلتفرم هادوپ الگوریتم نگاشت کاهش را برای برنامههای متناظر اجرا میکند.
قابلیت ها و ویژگی ها
محاسبات توزیعشده و موازی در برنامه های حساس به داده نیز معمولا از طریق تقسیم کردن داده ها محقق می شود. هر یک از این بخش ها می توانند بطور مستقل پردازش شوند. یک برنامه اجرایی یکسان بطور موازی بروی تمام قسمت های داده ها اجرا می شود، و پس از اجرا، نتایج حاصل از اجرای برنامه ها با یکدیگر ادغام شده و خروجی نهایی را تولید می کند.
مقیاس پذیری افقی (scale out) به جای افزایش ظرفیت سختافزار هر دستگاه، به کلاستر موجود گرههای بیشتری اضافه میکنید. و مهمتر از همه این است که میتوانید دستگاههای بیشتری که در حال فعالیت هستند را بدون متوقف کردن سیستم اضافه کنید.
صرفه جویی در هزینه به روشی است کهHDFS میتواند بر روی یک سختافزار ارزان قیمت مانند دسکتاپ یا لب تاپ که هر روز از آن استفاده میکنید تا سرورهای ویژه و گران قیمت اجرا شود. به بیان دیگر، اضافه کردن گرههای بیشتر به HDFS (مقیاسپذیری افقی) از نظر اقتصادی نسبت به تهیه سختافزار قویتر مقرون به صرفهتر است.
قابلیت اطمینان و تحمل پذیری خطا که در آن NameNode مدیریت تکرار دادهها را برعهده دارد. یعنی چندین کپی از دادهها را نگهداری میکند. این تولید مجدد دادهها HDFS را برابر خرابی گره بسیار ایمن میکند. بنابراین، حتی اگر هر کدام گرهها از کار بیفتند، میتوانیم دادهها را از طریق نسخههای دیگر موجود بر سایر گرهها بازیابی کنیم. به صورت پیشفرض، ضریب تکرار ۳ است.
تنوع و حجم داده دو مورد از ویژگیهای محیط کلان داده می باشند که میتوان براحتی این موارد را در HDFS مدیریت کرد. در HDFS، میتوان دادههای حجیمی مانند چندین ترابایت و یا پتابایت را در انواع مختلف داده ذخیره کرد. بنابراین میتوانید هر نوع دادهای اعم از ساختاریافته، غیرساختاریافته یا نیمهساختاریافته را در آن ذخیره کنید.
توان عملیاتی بالا مقدار کاری است که در واحد زمان انجام میشود. این ویژگی دربارهی این موضوع است که با چه سرعتی میتوانید به دادههای سیستم دسترسی داشته باشید. به طور کلی، به شما دیدی دربارهی عملکرد سیستم میدهد و با پردازش دادهها به صورت موازی، زمان پردازش را فوقالعاده کاهش داده و به توان عملیاتی بالایی خواهیم رسید.
محلی بودن محاسبات به معنای انتقال پردازش به سمت داده به جای انتقال داده به سمت پردازش است. در سیستمهای سنتی، همیشه داده را به لایه برنامه منتقل میکنیم و سپس آن را پردازش میکنیم. اما در هدوپ، به علت معماری و حجم بالای داده، پردازش را به سمت داده منتقل خواهیم کرد.
آپاچی فلینک پروژهای همجهت با اسپارک استریمینگ است. تحقیقات و تبلیغات آن بر هماهنگی پردازش دستهای و جریانی در یک سیستم تاکید دارد، و تضمین تنها-یکبار-پردازش برای مدل برنامهنویسی جریانی و API قابل قیاس با Trident ارائه میدهد. فلینک ابتدا با نام [۵۱] Stratosphere شناخته میشد، اما از اواسط ۲۰۱۴ با نام کنونیاش شناخته میشود و در مارچ ۲۰۱۶ نسخه ۱٫۰٫۰ آن قابل دسترس شد. برخلاف Spark Streaming، پروژه فلینک بصورت بنیادی یک پردازشگر جریانی است و بر پردازش دستهای تکیه ندارد. در کنار APIهای دستهای و APIهای جریانی(که تمرکز این مقاله بر روی آن است)، فلینک APIهایی برای پردازش گراف، پردازش رویدادهای پیچیده (CEP) و SQL ارائه میدهد و قادر به اجرا تپولوژی استورم نیز است. فلینک میتواند با استفاده یکی از سیستمهای مدیریت منابع مانند YARN یا Mesos، یا به صورت standalone مستقیماً بر روی ماشینها مستقر شود. پیادهسازی فلینک حداقل به یک فرآیند JobManager (با جایگزین اختیاری در صورت بروز شکست) برای هماهنگی checkpoint ها و بازیابیها و دریافت یک job نیاز دارد. JobManager همچنین وظایف را بین فرآیندهای TaskManager ، که معمولاً بر روی ماشینی جداگانه قرار میگیرد و کدها را به ترتیب اجرا میکند، زمانبندی میکند
قابلیت ها و ویژگی ها
محاسبات توزیعشده و موازی در برنامه های حساس به داده نیز معمولا از طریق تقسیم کردن داده ها محقق می شود. هر یک از این بخش ها می توانند بطور مستقل پردازش شوند. یک برنامه اجرایی یکسان بطور موازی بروی تمام قسمت های داده ها اجرا می شود، و پس از اجرا، نتایج حاصل از اجرای برنامه ها با یکدیگر ادغام شده و خروجی نهایی را تولید می کند.
مقیاس پذیری افقی (scale out) به جای افزایش ظرفیت سختافزار هر دستگاه، به کلاستر موجود گرههای بیشتری اضافه میکنید. و مهمتر از همه این است که میتوانید دستگاههای بیشتری که در حال فعالیت هستند را بدون متوقف کردن سیستم اضافه کنید.
صرفه جویی در هزینه به روشی است کهHDFS میتواند بر روی یک سختافزار ارزان قیمت مانند دسکتاپ یا لب تاپ که هر روز از آن استفاده میکنید تا سرورهای ویژه و گران قیمت اجرا شود. به بیان دیگر، اضافه کردن گرههای بیشتر به HDFS (مقیاسپذیری افقی) از نظر اقتصادی نسبت به تهیه سختافزار قویتر مقرون به صرفهتر است.
قابلیت اطمینان و تحمل پذیری خطا که در آن NameNode مدیریت تکرار دادهها را برعهده دارد. یعنی چندین کپی از دادهها را نگهداری میکند. این تولید مجدد دادهها HDFS را برابر خرابی گره بسیار ایمن میکند. بنابراین، حتی اگر هر کدام گرهها از کار بیفتند، میتوانیم دادهها را از طریق نسخههای دیگر موجود بر سایر گرهها بازیابی کنیم. به صورت پیشفرض، ضریب تکرار ۳ است.
تنوع و حجم داده دو مورد از ویژگیهای محیط کلان داده می باشند که میتوان براحتی این موارد را در HDFS مدیریت کرد. در HDFS، میتوان دادههای حجیمی مانند چندین ترابایت و یا پتابایت را در انواع مختلف داده ذخیره کرد. بنابراین میتوانید هر نوع دادهای اعم از ساختاریافته، غیرساختاریافته یا نیمهساختاریافته را در آن ذخیره کنید.
توان عملیاتی بالا مقدار کاری است که در واحد زمان انجام میشود. این ویژگی دربارهی این موضوع است که با چه سرعتی میتوانید به دادههای سیستم دسترسی داشته باشید. به طور کلی، به شما دیدی دربارهی عملکرد سیستم میدهد و با پردازش دادهها به صورت موازی، زمان پردازش را فوقالعاده کاهش داده و به توان عملیاتی بالایی خواهیم رسید.
محلی بودن محاسبات به معنای انتقال پردازش به سمت داده به جای انتقال داده به سمت پردازش است. در سیستمهای سنتی، همیشه داده را به لایه برنامه منتقل میکنیم و سپس آن را پردازش میکنیم. اما در هدوپ، به علت معماری و حجم بالای داده، پردازش را به سمت داده منتقل خواهیم کرد.
Splunk یک پلتفرم زمان واقعی و هوشمند توسعه داده شده برای بهرهبرداری از کلاندادههای تولید شده توسط ماشینها است. این پلتفرم بسیاری از فناوریهای ابری موجود و کلانداده (مِهداده) را ترکیب کرده است و به نوبه خود به کاربران جهت جستوجو، نظارت و تحلیل دادههای تولید شده توسط ماشین از طریق یک رابط وب کمک میکند.
قابلیت ها و ویژگی ها
محاسبات توزیعشده و موازی در برنامه های حساس به داده نیز معمولا از طریق تقسیم کردن داده ها محقق می شود. هر یک از این بخش ها می توانند بطور مستقل پردازش شوند. یک برنامه اجرایی یکسان بطور موازی بروی تمام قسمت های داده ها اجرا می شود، و پس از اجرا، نتایج حاصل از اجرای برنامه ها با یکدیگر ادغام شده و خروجی نهایی را تولید می کند.
مقیاس پذیری افقی (scale out) به جای افزایش ظرفیت سختافزار هر دستگاه، به کلاستر موجود گرههای بیشتری اضافه میکنید. و مهمتر از همه این است که میتوانید دستگاههای بیشتری که در حال فعالیت هستند را بدون متوقف کردن سیستم اضافه کنید.
صرفه جویی در هزینه به روشی است کهHDFS میتواند بر روی یک سختافزار ارزان قیمت مانند دسکتاپ یا لب تاپ که هر روز از آن استفاده میکنید تا سرورهای ویژه و گران قیمت اجرا شود. به بیان دیگر، اضافه کردن گرههای بیشتر به HDFS (مقیاسپذیری افقی) از نظر اقتصادی نسبت به تهیه سختافزار قویتر مقرون به صرفهتر است.
قابلیت اطمینان و تحمل پذیری خطا که در آن NameNode مدیریت تکرار دادهها را برعهده دارد. یعنی چندین کپی از دادهها را نگهداری میکند. این تولید مجدد دادهها HDFS را برابر خرابی گره بسیار ایمن میکند. بنابراین، حتی اگر هر کدام گرهها از کار بیفتند، میتوانیم دادهها را از طریق نسخههای دیگر موجود بر سایر گرهها بازیابی کنیم. به صورت پیشفرض، ضریب تکرار ۳ است.
تنوع و حجم داده دو مورد از ویژگیهای محیط کلان داده می باشند که میتوان براحتی این موارد را در HDFS مدیریت کرد. در HDFS، میتوان دادههای حجیمی مانند چندین ترابایت و یا پتابایت را در انواع مختلف داده ذخیره کرد. بنابراین میتوانید هر نوع دادهای اعم از ساختاریافته، غیرساختاریافته یا نیمهساختاریافته را در آن ذخیره کنید.
توان عملیاتی بالا مقدار کاری است که در واحد زمان انجام میشود. این ویژگی دربارهی این موضوع است که با چه سرعتی میتوانید به دادههای سیستم دسترسی داشته باشید. به طور کلی، به شما دیدی دربارهی عملکرد سیستم میدهد و با پردازش دادهها به صورت موازی، زمان پردازش را فوقالعاده کاهش داده و به توان عملیاتی بالایی خواهیم رسید.
محلی بودن محاسبات به معنای انتقال پردازش به سمت داده به جای انتقال داده به سمت پردازش است. در سیستمهای سنتی، همیشه داده را به لایه برنامه منتقل میکنیم و سپس آن را پردازش میکنیم. اما در هدوپ، به علت معماری و حجم بالای داده، پردازش را به سمت داده منتقل خواهیم کرد.