آموزش وردپرس

داده‌های عظیم -بیگ دیتا – چیست ؟

داده‌های عظیم معمولاً به مجموعه‌ای از داده‌ها گفته می‌شود که اندازه آن‌ها فراتر از حدی است که با نرم‌افزارهای معمول بتوان آن‌ها را در یک‌زمان معقول اخذ، دقیق سازی، مدیریت و پردازش کرد. مفهوم «اندازه» در داده‌های بزرگ به‌طور مستمر در حال تغییر است و به‌مرور بزرگ‌تر می‌شود. داده‌های عظیم مجموعه‌ای از فن‌ها و تاکتیک‌هایی است که نیازمند شکل جدیدی از یکپارچگی هستند تا بتوانند ارزش‌های بزرگی را که در مجموعه‌های بزرگ، وسیع، پیچیده و متنوع داده پنهان‌شده‌اند، آشکار سازند.

طبق تعریف مؤسسه تحقیقاتی گارتنر: به دارایی‌های اطلاعاتی با حجم بالا، شتاب بالا و تنوع بالا که نیازمند اشکال جدید پردازشی است و تصمیم‌گیری پیشرفته، کشف بینش و بهینه‌سازی فرآیند را امکان‌پذیر می‌سازد داده‌های عظیم گفته می‌شود.

سه بعد از چالش‌ها و فرصت‌های پیش رو در حوزه رشد داده:

۱- افزایش در میزان داده، ۲

– افزایش سرعت تولید داده‌های ورودی و

۳- خروجی و افزایش محدوده تنوع و منابع داده‌ها. به‌طورکلی منشأ داده‌های عظیم عبارت‌اند از:

شبکه و رسانه‌های اجتماعی، اینترنت اشیاء، توسعه دسترسی نسل‌های جدید تلفن همراه و ثابت، توسعه خدمات نوین الکترونیکی و توسعه کاربردهای فناوری اطلاعات و ارتباطات در بخش‌های مختلف.

bigdata
bigdata

سرعت تولید اطلاعات در سامانه‌های رایانه‌ای به‌سرعت در حال افزایش است، در سال ۲۰۱۰ سرعت تولید اطلاعات به حدی رسید که در هر دو روز، بیش از کل داده‌هایی که تا سال ۲۰۰۳ تولیدشده بود داده تولید می‌شد.

این در حالی است که بر اساس یکی از تحقیقات IDC اطلاعات تولیدشده در سال ۲۰۲۰ پنجاه برابر داده‌های تولیدشده در سال ۲۰۱۱ خواهد بود. در یک تحقیق دیگر میزان تولید داده در سال ۲۰۱۰ به ازای هر دو روز حدود ۵ اکزابایت (۱۰۱۸ بایت) تخمین زده‌شده است، درحالی‌که پیش‌بینی‌ها نشان می‌دهد این مقدار در سال ۲۰۲۰ به ۴۰ زتابایت (۱۰۲۱ بایت) خواهد رسید. این مسئله اهمیت توجه به روش‌های آنالیز، نگهداری و انتقال داده‌های عظیم را نشان می‌دهد.

حجم اطلاعاتی که تا سال ۲۰۰۳ توسط انسان ایجاد شد تنها ۵ اگزابایت است اما امروزه این حجم از اطلاعات تنها در عرض دو روز ایجاد می‌شود. در تحقیقی نشان داد که هرروز ۲.۵ اگزابایت داده تولید می‌شود و حدود ۹۰ درصد داده‌های موجود تنها در دو سال اخیر تولیدشده است. هر رایانه شخصی حدود ۵۰۰ گیگابایت اطلاعات در خود نگهداری می‌کند و در دنیا حدود ۲۰ میلیون رایانه شخصی وجود دارد. درگذشته فرآیند توصیف ژن انسان حدود ده سال طول می‌کشید درحالی‌که امروز در کمتر از یک هفته انجام می‌شود.

شرکتی مثل گوگل بیلیون‌ها سرور در سطح جهان دارد. حدود شش بیلیون مشترک تلفن همراه در جهان همه‌روزه ۱۰ میلیون پیام متنی ارسال و دریافت می‌کنند و تا سال ۲۰۲۰ حدود ۵۰ بیلیون وسیله متصل به اینترنت و شبکه وجود خواهد داشت. حجم داده‌های تجاری تقریباً در سراسر جهان، هر ۱.۲ سال دو برابر می‌شود. حجم کل داده‌های تولیدشده در جهان که در سال ۲۰۱۱ حدود ۱.۸ زتابایت بوده با نرخ تقریباً هر پنج سال ۹ برابر افزایش می‌یابد. بر این اساس پیش‌بینی‌ها نشان می‌دهد شکل ۱ حجم داده‌ها با نرخ تقریبی نه برابر در هر پنج سال افزایش می‌یابد. ]۴[

افزایش تقریبی نه برابری حجم داده‌ها به ازا هر پنج سال

از سال ۲۰۱۲ به بعد در هرروز ۱۰۰۰ پتابایت داده تولید می‌شود که به دنبال خود مستلزم ذخیره‌سازی، تحلیل، جستجوها، تمیزکاری داده‌ها، اشتراک‌ها و غیره در داده‌هاست که باید در حوزه مختلف انجام شود. این موضوع باعث شده است که پژوهشگران و دانشمندان به دنبال ایجاد ساختارها، متدولوژی‌ها، روش‌ها و رویکردهای جدیدی برای مدیریت، کنترل و پردازش این حجم از داده‌ها باشند که این تلاش‌ها در ذیل سایه داده‌های عظیم مطرح‌شده است. داده‌های عظیم یک اصطلاح برای مجموعه‌های داده خیلی بزرگ است که ازنظر ساختار، پیچیدگی و منابع تولید بسیار متنوع هستند و ذخیره و آنالیز آن‌ها کار پیچیده‌ای است.

در سال ۲۰۱۳، داده‌های عظیم به‌عنوان یک پروژه مهم و جهانی مطرح شد. پروژه‌ای که به جمع‌آوری، بصری سازی و آنالیز مقدار زیادی داده می‌پردازد. در راستای این پروژه اطلاعات آماری زیادی ارائه گردید. فیس‌بوک ماهانه حدود ۹۵۵ میلیون کاربر فعال به ۷۰ زبان زنده دنیا دارد و حدود ۱۴۰ بیلیون عکس در آن بارگذاری می‌شود و ۱۲۵ میلیون ارتباط دوستی برقرار می‌گردد. هرروزه ۳۰ بیلیون نوشته و ۲.۷ بیلیون لایک و توضیحات ارسال می‌گردد. در یوتیوب هر دقیقه ۴۸ ساعت ویدیو بارگذاری و هرروزه ۴ بیلیون فیلم اجرا می‌گردد. گوگل نیز از خدمات زیادی پشتیبانی می‌کند ازجمله ۷.۲ بیلیون صفحه در هرروز و ۲۰ پتابایت (۱۰۱۵ بایت) فرآیند روزانه و ترجمه به ۶۶ زبان؛ یک بیلیون توییت در هر ۷۲ ساعت، بیشتر از ۱۴۰ میلیون فعالیت کاربران توییتر است. تعداد ۵۷۱ وب‌گاه جدید در هر دقیقه از روز ایجاد می‌شود. پیش‌بینی می‌شود در طی دهه آینده حجم اطلاعات ۵۰ بار افزایش یابد، البته همزمان تعداد فنّاوری‌های خاص اطلاعاتی که برای نگهداری این داده‌ها ایجاد می‌شود نیز ۱.۵ برابر می‌گردد.

در حوزه وب، حجم زیاد اطلاعات با رشد نمایی ۱۱ میلیارد صفحه در ۲۰۰۵ (ایران ده میلیون) و ۱۵۰ میلیارد صفحه در ۲۰۱۴ (ایران شش‌صد میلیون) تولید می‌شود و در محیط پویا صفحات جدید هم با نرخ ۸ درصد در هفته تولید می‌شوند، البته ۲۰ درصد صفحات موجود بعد از یک سال قابل‌دسترس نیستند.

۱-۱-     ویژگی‌های داده‌های عظیم

داده‌های عظیم به مجموعه داده‌هایی اشاره دارد که با استفاده از روش‌های سنتی فناوری اطلاعات و ابزارهای سخت‌افزاری و نرم‌افزاری موجود در آن نمی‌توانند در زمان معقولی درک، گردآوری، مدیریت و پردازش شوند. داده‌های عظیم روش‌ها و فناوری‌های نوینی را جهت جمع‌آوری، ذخیره و آنالیز داده‌های غیر ساخت‌یافته به‌صورت مقیاس‌پذیر معرفی می‌کند. خواص پایه سه‌گانه داده‌های عظیم: حجم، سرعت و تنوع و خواص هفتگانه حجم، سرعت، ارزش، تنوع، صحت، اعتبار و نوسان است.

به‌صورت کلی داده‌های عظیم با پنج ویژگی زیر شناخته می‌شود:

  • حجم بالا:

کمیت داده‌هایی که جمع‌آوری می‌شود اهمیت زیادی دارند. اندازه داده‌ها مشخص می‌کند که آیا این داده‌ها می‌توانند به‌صورت بالقوه داده عظیم تلقی شوند یا نه؟

  • تنوع داده‌ها:

یکی دیگر از مشخصات داده‌های عظیم، تنوع داده‌ها است؛ بنابراین اینکه داده‌ها مربوط به چه صنعتی است و چه مفهومی را پشتیبانی می‌کند و در نتیجه چقدر نیاز به تجزیه‌وتحلیل داده‌ها وجود دارد، در تعیین آن‌ها به‌عنوان داده عظیم نقش دارد.

  • سرعت تولید داده:

میزان داده تولیدشده در یک بازه زمانی یا به عبارت بهتر، سرعت ایجاد داده‌های جدید.

  • تغییر داده‌ها:

تغییر داده‌های ورودی، یکی از اصلی‌ترین مشکلات مرتبط با داده‌های عظیم است. این مفهوم به ناپایداری محیط‌هایی که داده در آن تولید می‌شود برمی‌گردد. هر چه ناپایداری در محیط بیشتر باشد، مدیریت و تحلیل داده‌ها سخت‌تر خواهد شد.

  • پیچیدگی استفاده از داده‌ها:

مدیریت داده‌ها فرآیند بسیار پیچیده‌ای است، به‌ویژه وقتی‌که حجم زیادی از داده‌های پیچیده از منابع.

منبع: مدیران ایران


-= لینک کوتاه این مطلب =-

این مطالب را از دست ندهید :
- با آزمون دیسک، شناخت فوق العاده ای نسبت به خودتان یا همکارانتان بدست بیاورید: اطلاعات بیشتر ...
- تا حالا معجون مدیریت زمان رو امتحان کردید ؟
- وقتتون کمه و علاقمند به بروز رسانی اطلاعات مدیریتی تون هستید ؟
- با کانال تلگرامی مدیران ایران، همیشه بروز باشید ...


همچنین ببینید

پردرآمدترین مشاغل آمریکا دلار

پیش بینی نرخ دلار در سال ۱۳۹۵

قیمت دلار به سه عامل عرضه ارز، حجم نقدینگی و سرعت گردش نقدینگی بستگی دارد. …

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *