خدمات کلان داده ها

Hadoop

Hadoop

هادوپ یک چارچوب نرم‌افزاری منبع‌باز است که پردازش توزیع‌شده‌ ‌داده‌های بزرگ را بر روی خوشه‌هایی از سرورها ممکن می‌سازد. این چارچوب که به زبان جاوا نوشته شده است، برای انجام پردازش توزیع شده بر روی هزاران ماشین با تحمل‌پذیری خطای بالا طراحی شده است. به جای تکیه بر سخت‌افزار‌های گران‌قیمت، تحمل‌پذیری در مقابل خطا در این خوشه‌ها از توانایی نرم‌افزاری در تشخیص و اداره‌ی خرابی‌ در لایه کاربرد می‌آید.هسته اصلی هادوپ از یک بخش ذخیره‌سازی (سیستم فایل توزیع شده هادوپ یا HDFS) و یک بخش پردازش (Map/Reduce) تشکیل شده است. هادوپ فایل‌ها را به بلوک‌های بزرگ شکسته و آنها را بین نودهای یک خوشه توزیع می‌کند. برای پردازش داده، بخش Map/Reduce بسته کدی را برای نودها ارسال می‌کند تا پردازش را به صورت موازی انجام دهند. بدین ترتیب داده‌ها سریع‌تر و کاراتر پردازش می‌شوند.در خصوص نامگذاری نام هدوپ(HADOOP) باید گفت که مخفف عبارت خاصی نیست، این نامی است که پسر Doug برروی عروسک فیل خود که زرد رنگ بود گذاشته بود.


قابلیت ها و ویژگی ها

محاسبات توزیع‌شده و موازی در برنامه های حساس به داده نیز معمولا از طریق تقسیم کردن داده ها محقق می شود. هر یک از این بخش ها می توانند بطور مستقل پردازش شوند. یک برنامه اجرایی یکسان بطور موازی بروی تمام قسمت های داده ها اجرا می شود، و پس از اجرا، نتایج حاصل از اجرای برنامه ها با یکدیگر ادغام شده و خروجی نهایی را تولید می کند.

مقیاس‌ پذیری افقی (scale out) به جای افزایش ظرفیت سخت‌افزار هر دستگاه، به کلاستر موجود گره‌های بیشتری اضافه می‌کنید. و مهم‌تر از همه این است که می‌توانید دستگاه‌های بیشتری که در حال فعالیت هستند را بدون متوقف کردن سیستم اضافه کنید.

صرفه جویی در هزینه به روشی است کهHDFS می‌تواند بر روی یک سخت‌افزار ارزان قیمت مانند دسکتاپ یا لب تاپ که هر روز از آن استفاده می‌کنید تا سرور‌های ویژه و گران قیمت اجرا شود. به بیان دیگر، اضافه کردن گره‌های بیشتر به HDFS (مقیاس‌پذیری افقی) از نظر اقتصادی نسبت به تهیه سخت‌افزار قوی‌تر مقرون به صرفه‌تر است.

قابلیت اطمینان و تحمل پذیری خطا که در آن NameNode مدیریت تکرار داده‌ها را برعهده دارد. یعنی چندین کپی از داده‌ها را نگهداری می‌کند. این تولید مجدد داده‌ها HDFS را برابر خرابی گره بسیار ایمن می‌کند. بنابراین، حتی اگر هر کدام گره‌ها از کار بیفتند، می‌توانیم داده‌ها را از طریق نسخه‌های دیگر موجود بر سایر گره‌ها بازیابی کنیم. به صورت پیش‌فرض، ضریب تکرار ۳ است.

تنوع و حجم داده دو مورد از ویژگی‌های محیط کلان داده می باشند ‌‌که می‌توان براحتی این موارد را در HDFS مدیریت کرد. در HDFS، می‌توان داده‌های حجیمی مانند چندین ترابایت و یا پتابایت را در انواع مختلف داده ذخیره کرد. بنابراین می‌توانید هر نوع داده‌ای اعم از ساختاریافته، غیرساختاریافته یا نیمه‌ساختاریافته را در آن ذخیره کنید.

توان عملیاتی بالا مقدار کاری است که در واحد زمان انجام می‌شود. این ویژگی درباره‌ی این موضوع است که با چه سرعتی می‌توانید به داده‌های سیستم دسترسی داشته باشید. به طور کلی، به شما دیدی درباره‌ی عملکرد سیستم می‌دهد و با پردازش داده‌ها به صورت موازی، زمان پردازش را فوق‌العاده کاهش داده و به توان عملیاتی بالایی خواهیم رسید.

محلی بودن محاسبات به معنای انتقال پردازش به سمت داده به جای انتقال داده به سمت پردازش است. در سیستم‌های سنتی، همیشه داده را به لایه برنامه منتقل می‌کنیم و سپس آن را پردازش می‌کنیم. اما در هدوپ، به علت معماری و حجم بالای داده، پردازش را به سمت داده منتقل خواهیم کرد.

Spark

Spark

آپاچی اسپارک یک چارچوب پردازش کلان‌داده «متن‌باز» (open source) است که به منظور انجام پردازش سریع و تحلیل‌های پیچیده مورد استفاده قرار می‌گیرد. این برنامه طی سال 2۰۰۹ در UC Berkeleys AMPLab ساخته شده و استفاده از آن آسان است. آپاچی اسپارک به عنوان یک پروژه آپاچی در سال 2۰1۰ متن‌باز شد. اسپارک این امکان را برای کاربران فراهم می‌کند تا برنامه‌های خود را به زبان‌های جاوا، اسکالا یا پایتون بنویسند. اسپارک علاوه بر الگوریتم نگاشت کاهش، از کوئری‌های SQL، جریان داده، یادگیری ماشین و پردازش داده‌های گراف نیز پشتیبانی می‌کند. این چارچوب بر فراز زیرساخت سیستم فایل توزیع شده هادوپ (HDFS) به منظور فراهم کردن عملکردهای بهبودیافته و اضافی اجرا می‌شود.


قابلیت ها و ویژگی ها

محاسبات توزیع‌شده و موازی در برنامه های حساس به داده نیز معمولا از طریق تقسیم کردن داده ها محقق می شود. هر یک از این بخش ها می توانند بطور مستقل پردازش شوند. یک برنامه اجرایی یکسان بطور موازی بروی تمام قسمت های داده ها اجرا می شود، و پس از اجرا، نتایج حاصل از اجرای برنامه ها با یکدیگر ادغام شده و خروجی نهایی را تولید می کند.

مقیاس‌ پذیری افقی (scale out) به جای افزایش ظرفیت سخت‌افزار هر دستگاه، به کلاستر موجود گره‌های بیشتری اضافه می‌کنید. و مهم‌تر از همه این است که می‌توانید دستگاه‌های بیشتری که در حال فعالیت هستند را بدون متوقف کردن سیستم اضافه کنید.

صرفه جویی در هزینه به روشی است کهHDFS می‌تواند بر روی یک سخت‌افزار ارزان قیمت مانند دسکتاپ یا لب تاپ که هر روز از آن استفاده می‌کنید تا سرور‌های ویژه و گران قیمت اجرا شود. به بیان دیگر، اضافه کردن گره‌های بیشتر به HDFS (مقیاس‌پذیری افقی) از نظر اقتصادی نسبت به تهیه سخت‌افزار قوی‌تر مقرون به صرفه‌تر است.

قابلیت اطمینان و تحمل پذیری خطا که در آن NameNode مدیریت تکرار داده‌ها را برعهده دارد. یعنی چندین کپی از داده‌ها را نگهداری می‌کند. این تولید مجدد داده‌ها HDFS را برابر خرابی گره بسیار ایمن می‌کند. بنابراین، حتی اگر هر کدام گره‌ها از کار بیفتند، می‌توانیم داده‌ها را از طریق نسخه‌های دیگر موجود بر سایر گره‌ها بازیابی کنیم. به صورت پیش‌فرض، ضریب تکرار ۳ است.

تنوع و حجم داده دو مورد از ویژگی‌های محیط کلان داده می باشند ‌‌که می‌توان براحتی این موارد را در HDFS مدیریت کرد. در HDFS، می‌توان داده‌های حجیمی مانند چندین ترابایت و یا پتابایت را در انواع مختلف داده ذخیره کرد. بنابراین می‌توانید هر نوع داده‌ای اعم از ساختاریافته، غیرساختاریافته یا نیمه‌ساختاریافته را در آن ذخیره کنید.

توان عملیاتی بالا مقدار کاری است که در واحد زمان انجام می‌شود. این ویژگی درباره‌ی این موضوع است که با چه سرعتی می‌توانید به داده‌های سیستم دسترسی داشته باشید. به طور کلی، به شما دیدی درباره‌ی عملکرد سیستم می‌دهد و با پردازش داده‌ها به صورت موازی، زمان پردازش را فوق‌العاده کاهش داده و به توان عملیاتی بالایی خواهیم رسید.

محلی بودن محاسبات به معنای انتقال پردازش به سمت داده به جای انتقال داده به سمت پردازش است. در سیستم‌های سنتی، همیشه داده را به لایه برنامه منتقل می‌کنیم و سپس آن را پردازش می‌کنیم. اما در هدوپ، به علت معماری و حجم بالای داده، پردازش را به سمت داده منتقل خواهیم کرد.

Storm

Storm

استورم یک سیستم محاسباتی زمان واقعی توزیع شده و دارای تحمل‌پذیری خطا برای پردازش جریان‌های داده است. این سیستم برخلاف هادوپ که برای پردازش دسته‌ای طراحی شده، به منظور انجام پردازش زمان واقعی ساخته شده است. علاوه بر این، راه‌اندازی و اجرای آن آسان است. استورم، مقیاس‌پذیر و دارای تحمل‌پذیری در برابر خطا به منظور فراهم کردن کارایی رقابتی است. کاربران خوشه استورم توپولوژی‌های گوناگونی را برای وظایف استورم گوناگون اجرا می‌کنند، در حالیکه پلتفرم هادوپ الگوریتم نگاشت کاهش را برای برنامه‌های متناظر اجرا می‌کند.


قابلیت ها و ویژگی ها

محاسبات توزیع‌شده و موازی در برنامه های حساس به داده نیز معمولا از طریق تقسیم کردن داده ها محقق می شود. هر یک از این بخش ها می توانند بطور مستقل پردازش شوند. یک برنامه اجرایی یکسان بطور موازی بروی تمام قسمت های داده ها اجرا می شود، و پس از اجرا، نتایج حاصل از اجرای برنامه ها با یکدیگر ادغام شده و خروجی نهایی را تولید می کند.

مقیاس‌ پذیری افقی (scale out) به جای افزایش ظرفیت سخت‌افزار هر دستگاه، به کلاستر موجود گره‌های بیشتری اضافه می‌کنید. و مهم‌تر از همه این است که می‌توانید دستگاه‌های بیشتری که در حال فعالیت هستند را بدون متوقف کردن سیستم اضافه کنید.

صرفه جویی در هزینه به روشی است کهHDFS می‌تواند بر روی یک سخت‌افزار ارزان قیمت مانند دسکتاپ یا لب تاپ که هر روز از آن استفاده می‌کنید تا سرور‌های ویژه و گران قیمت اجرا شود. به بیان دیگر، اضافه کردن گره‌های بیشتر به HDFS (مقیاس‌پذیری افقی) از نظر اقتصادی نسبت به تهیه سخت‌افزار قوی‌تر مقرون به صرفه‌تر است.

قابلیت اطمینان و تحمل پذیری خطا که در آن NameNode مدیریت تکرار داده‌ها را برعهده دارد. یعنی چندین کپی از داده‌ها را نگهداری می‌کند. این تولید مجدد داده‌ها HDFS را برابر خرابی گره بسیار ایمن می‌کند. بنابراین، حتی اگر هر کدام گره‌ها از کار بیفتند، می‌توانیم داده‌ها را از طریق نسخه‌های دیگر موجود بر سایر گره‌ها بازیابی کنیم. به صورت پیش‌فرض، ضریب تکرار ۳ است.

تنوع و حجم داده دو مورد از ویژگی‌های محیط کلان داده می باشند ‌‌که می‌توان براحتی این موارد را در HDFS مدیریت کرد. در HDFS، می‌توان داده‌های حجیمی مانند چندین ترابایت و یا پتابایت را در انواع مختلف داده ذخیره کرد. بنابراین می‌توانید هر نوع داده‌ای اعم از ساختاریافته، غیرساختاریافته یا نیمه‌ساختاریافته را در آن ذخیره کنید.

توان عملیاتی بالا مقدار کاری است که در واحد زمان انجام می‌شود. این ویژگی درباره‌ی این موضوع است که با چه سرعتی می‌توانید به داده‌های سیستم دسترسی داشته باشید. به طور کلی، به شما دیدی درباره‌ی عملکرد سیستم می‌دهد و با پردازش داده‌ها به صورت موازی، زمان پردازش را فوق‌العاده کاهش داده و به توان عملیاتی بالایی خواهیم رسید.

محلی بودن محاسبات به معنای انتقال پردازش به سمت داده به جای انتقال داده به سمت پردازش است. در سیستم‌های سنتی، همیشه داده را به لایه برنامه منتقل می‌کنیم و سپس آن را پردازش می‌کنیم. اما در هدوپ، به علت معماری و حجم بالای داده، پردازش را به سمت داده منتقل خواهیم کرد.

Flink
Splunk

Splunk

Splunk یک پلتفرم زمان واقعی و هوشمند توسعه داده شده برای بهره‌برداری از کلان‌داده‌های تولید شده توسط ماشین‌ها است. این پلتفرم بسیاری از فناوری‌های ابری موجود و کلان‌داده (مِه‌داده) را ترکیب کرده است و به نوبه خود به کاربران جهت جست‌و‌جو، نظارت و تحلیل داده‌های تولید شده توسط ماشین از طریق یک رابط وب کمک می‌کند.


قابلیت ها و ویژگی ها

محاسبات توزیع‌شده و موازی در برنامه های حساس به داده نیز معمولا از طریق تقسیم کردن داده ها محقق می شود. هر یک از این بخش ها می توانند بطور مستقل پردازش شوند. یک برنامه اجرایی یکسان بطور موازی بروی تمام قسمت های داده ها اجرا می شود، و پس از اجرا، نتایج حاصل از اجرای برنامه ها با یکدیگر ادغام شده و خروجی نهایی را تولید می کند.

مقیاس‌ پذیری افقی (scale out) به جای افزایش ظرفیت سخت‌افزار هر دستگاه، به کلاستر موجود گره‌های بیشتری اضافه می‌کنید. و مهم‌تر از همه این است که می‌توانید دستگاه‌های بیشتری که در حال فعالیت هستند را بدون متوقف کردن سیستم اضافه کنید.

صرفه جویی در هزینه به روشی است کهHDFS می‌تواند بر روی یک سخت‌افزار ارزان قیمت مانند دسکتاپ یا لب تاپ که هر روز از آن استفاده می‌کنید تا سرور‌های ویژه و گران قیمت اجرا شود. به بیان دیگر، اضافه کردن گره‌های بیشتر به HDFS (مقیاس‌پذیری افقی) از نظر اقتصادی نسبت به تهیه سخت‌افزار قوی‌تر مقرون به صرفه‌تر است.

قابلیت اطمینان و تحمل پذیری خطا که در آن NameNode مدیریت تکرار داده‌ها را برعهده دارد. یعنی چندین کپی از داده‌ها را نگهداری می‌کند. این تولید مجدد داده‌ها HDFS را برابر خرابی گره بسیار ایمن می‌کند. بنابراین، حتی اگر هر کدام گره‌ها از کار بیفتند، می‌توانیم داده‌ها را از طریق نسخه‌های دیگر موجود بر سایر گره‌ها بازیابی کنیم. به صورت پیش‌فرض، ضریب تکرار ۳ است.

تنوع و حجم داده دو مورد از ویژگی‌های محیط کلان داده می باشند ‌‌که می‌توان براحتی این موارد را در HDFS مدیریت کرد. در HDFS، می‌توان داده‌های حجیمی مانند چندین ترابایت و یا پتابایت را در انواع مختلف داده ذخیره کرد. بنابراین می‌توانید هر نوع داده‌ای اعم از ساختاریافته، غیرساختاریافته یا نیمه‌ساختاریافته را در آن ذخیره کنید.

توان عملیاتی بالا مقدار کاری است که در واحد زمان انجام می‌شود. این ویژگی درباره‌ی این موضوع است که با چه سرعتی می‌توانید به داده‌های سیستم دسترسی داشته باشید. به طور کلی، به شما دیدی درباره‌ی عملکرد سیستم می‌دهد و با پردازش داده‌ها به صورت موازی، زمان پردازش را فوق‌العاده کاهش داده و به توان عملیاتی بالایی خواهیم رسید.

محلی بودن محاسبات به معنای انتقال پردازش به سمت داده به جای انتقال داده به سمت پردازش است. در سیستم‌های سنتی، همیشه داده را به لایه برنامه منتقل می‌کنیم و سپس آن را پردازش می‌کنیم. اما در هدوپ، به علت معماری و حجم بالای داده، پردازش را به سمت داده منتقل خواهیم کرد.