داده های حجیم Big Data به مجموعه بسیاز بزرگ از حجم داده ها با ساختاری پیچیده و دارای تنوع اطلاق مگردد بامشکلات پردازش داده ها و نیز ذخیره سازی آن روبه رو می باشد تجزیه و تحلیل این داده های حجیم نیازمند الگوریتم های پیشرفته می باشد تا بتواند همبستگی داده ها و نیز الگوهای منطقی داده ای را استخراج نماید امروزه جهت استخراج تحلیل درست از داده های حجیم یک سازمان از روش های پردازش Big Data استفاده می گردد.
کلان داده به (به انگلیسی: Big data) اصطلاحی است که به مجموعهٔ دادههایی اطلاق میشود که مدیریت، کنترل و پردازش آنها فراتر از توانایی ابزارهای نرمافزاری در یک زمان قابل تحمل و مورد انتظار است. مقیاس کلانداده، به طور مداوم در حال رشد از محدودهٔ چند ۱۰ ترابایت به چندین پتابایت، در یک مجموعهٔ داده واحد است. نمونههایی از کلانداده، گزارشهای وبی، سامانههای بازشناسی با امواج رادیویی، شبکههای حسگر، شبکههای اجتماعی، متون و اسناد اینترنتی، نمایههای جستجوهای اینترنتی، نجوم، مدارک پزشکی، آرشیو عکس، آرشیو ویدیو، پژوهشهای زمینشناسی و تجارت در مقیاس بزرگ هستند. کلانداده واژهای برای مجموعه دادههای بسیار بزرگ، یا پیچیده است که تجهیزات تحلیل دادههای مرسوم ناکافی میباشد. چالشها شامل آنالیزها، تصور، گزینش دادهها، تحقیق، اشترک گذاری، ذخیره، مبادله، تصور و استقلال اطلاعات میباشند. عبارت اغلب بر سادهسازی استفاده از تحلیلهای پیشگویانه یا روشهای پیشرفته دیگر برای استخراج ارزش اطلاعات، اشاره دارد و به ندرت برای مجموعه اطلاعات اندازه خاصی در نظر میگیرد. دقت موجود در کلانداده ممکن است به اطمینان بیشتر بر تصمیمگیری شود؛ و تصمیمات بهتر میتواند به معنای کارایی عملیاتی بزرگتر، کاهش هزینه و کاهش ریسک باشد.
IBM نشان داد که هر روز ۲٫۵ اگزا بایت داده تولید میشود و همچنین %۹۰ از داده ها در ۲ سال اخیر تولید شده است. یک کامپیوتر شخصی حدود ۵۰۰ گیگا بایت (۱۰ به توان ۹ بایت) داده نگه میدارد ، بنابراین برای ذخیره سازی همه داده های دنیا به حدود ۲۰ میلیارد PC نیاز است. در گذشته پروسه آشکارسازی ژنهای بشر تقریباً ۱۰ سال وقت میگرفت ، هم اکنون بیشتر از یک هفته نمیشود. داده های چند رسانه ای وزن بزرگی در ترافیک اینترنت دارند و انتظار میرود به %۷۰ در سال ۲۰۱۳ افزایش یابد. فقط google بیش از یک میلیون سرور در دور جهان دارد. ۶ میلیارد اشتراک موبایل در دنیا وجود دارد و هر روز ۱۰ میلیارد متن پیام (message) ارسال میشود. در سال ۲۰۲۰ ، ۵۰ میلیارد دستگاه به شبکه ها و اینترنت متصل خواهند بود.
- عنوان جزوه : جزوه دستنویس و تایپ شده و ترجمه دکتر محمدزاده - درس داده های حجیم
- این درس توسط دکتر محمدزاده برای اولین بار در دانشگاه آزاد ملارد تدریس شده است.
- در این جزوه از روی اسلایدهای انگلیسی درس داده شده.
- این جروه مختص دانشجویان کارشناسی ارشد کامپیوتر در گرایش نرم افزار می باشد.