دادههای عظیم -بیگ دیتا – چیست ؟
دادههای عظیم معمولاً به مجموعهای از دادهها گفته میشود که اندازه آنها فراتر از حدی است که با نرمافزارهای معمول بتوان آنها را در یکزمان معقول اخذ، دقیق سازی، مدیریت و پردازش کرد. مفهوم «اندازه» در دادههای بزرگ بهطور مستمر در حال تغییر است و بهمرور بزرگتر میشود. دادههای عظیم مجموعهای از فنها و تاکتیکهایی است که نیازمند شکل جدیدی از یکپارچگی هستند تا بتوانند ارزشهای بزرگی را که در مجموعههای بزرگ، وسیع، پیچیده و متنوع داده پنهانشدهاند، آشکار سازند.
طبق تعریف مؤسسه تحقیقاتی گارتنر: به داراییهای اطلاعاتی با حجم بالا، شتاب بالا و تنوع بالا که نیازمند اشکال جدید پردازشی است و تصمیمگیری پیشرفته، کشف بینش و بهینهسازی فرآیند را امکانپذیر میسازد دادههای عظیم گفته میشود.
سه بعد از چالشها و فرصتهای پیش رو در حوزه رشد داده:
۱- افزایش در میزان داده، ۲
– افزایش سرعت تولید دادههای ورودی و
۳- خروجی و افزایش محدوده تنوع و منابع دادهها. بهطورکلی منشأ دادههای عظیم عبارتاند از:
شبکه و رسانههای اجتماعی، اینترنت اشیاء، توسعه دسترسی نسلهای جدید تلفن همراه و ثابت، توسعه خدمات نوین الکترونیکی و توسعه کاربردهای فناوری اطلاعات و ارتباطات در بخشهای مختلف.
سرعت تولید اطلاعات در سامانههای رایانهای بهسرعت در حال افزایش است، در سال ۲۰۱۰ سرعت تولید اطلاعات به حدی رسید که در هر دو روز، بیش از کل دادههایی که تا سال ۲۰۰۳ تولیدشده بود داده تولید میشد.
این در حالی است که بر اساس یکی از تحقیقات IDC اطلاعات تولیدشده در سال ۲۰۲۰ پنجاه برابر دادههای تولیدشده در سال ۲۰۱۱ خواهد بود. در یک تحقیق دیگر میزان تولید داده در سال ۲۰۱۰ به ازای هر دو روز حدود ۵ اکزابایت (۱۰۱۸ بایت) تخمین زدهشده است، درحالیکه پیشبینیها نشان میدهد این مقدار در سال ۲۰۲۰ به ۴۰ زتابایت (۱۰۲۱ بایت) خواهد رسید. این مسئله اهمیت توجه به روشهای آنالیز، نگهداری و انتقال دادههای عظیم را نشان میدهد.
حجم اطلاعاتی که تا سال ۲۰۰۳ توسط انسان ایجاد شد تنها ۵ اگزابایت است اما امروزه این حجم از اطلاعات تنها در عرض دو روز ایجاد میشود. در تحقیقی نشان داد که هرروز ۲.۵ اگزابایت داده تولید میشود و حدود ۹۰ درصد دادههای موجود تنها در دو سال اخیر تولیدشده است. هر رایانه شخصی حدود ۵۰۰ گیگابایت اطلاعات در خود نگهداری میکند و در دنیا حدود ۲۰ میلیون رایانه شخصی وجود دارد. درگذشته فرآیند توصیف ژن انسان حدود ده سال طول میکشید درحالیکه امروز در کمتر از یک هفته انجام میشود.
شرکتی مثل گوگل بیلیونها سرور در سطح جهان دارد. حدود شش بیلیون مشترک تلفن همراه در جهان همهروزه ۱۰ میلیون پیام متنی ارسال و دریافت میکنند و تا سال ۲۰۲۰ حدود ۵۰ بیلیون وسیله متصل به اینترنت و شبکه وجود خواهد داشت. حجم دادههای تجاری تقریباً در سراسر جهان، هر ۱.۲ سال دو برابر میشود. حجم کل دادههای تولیدشده در جهان که در سال ۲۰۱۱ حدود ۱.۸ زتابایت بوده با نرخ تقریباً هر پنج سال ۹ برابر افزایش مییابد. بر این اساس پیشبینیها نشان میدهد شکل ۱ حجم دادهها با نرخ تقریبی نه برابر در هر پنج سال افزایش مییابد. ]۴[
افزایش تقریبی نه برابری حجم دادهها به ازا هر پنج سال
از سال ۲۰۱۲ به بعد در هرروز ۱۰۰۰ پتابایت داده تولید میشود که به دنبال خود مستلزم ذخیرهسازی، تحلیل، جستجوها، تمیزکاری دادهها، اشتراکها و غیره در دادههاست که باید در حوزه مختلف انجام شود. این موضوع باعث شده است که پژوهشگران و دانشمندان به دنبال ایجاد ساختارها، متدولوژیها، روشها و رویکردهای جدیدی برای مدیریت، کنترل و پردازش این حجم از دادهها باشند که این تلاشها در ذیل سایه دادههای عظیم مطرحشده است. دادههای عظیم یک اصطلاح برای مجموعههای داده خیلی بزرگ است که ازنظر ساختار، پیچیدگی و منابع تولید بسیار متنوع هستند و ذخیره و آنالیز آنها کار پیچیدهای است.
در سال ۲۰۱۳، دادههای عظیم بهعنوان یک پروژه مهم و جهانی مطرح شد. پروژهای که به جمعآوری، بصری سازی و آنالیز مقدار زیادی داده میپردازد. در راستای این پروژه اطلاعات آماری زیادی ارائه گردید. فیسبوک ماهانه حدود ۹۵۵ میلیون کاربر فعال به ۷۰ زبان زنده دنیا دارد و حدود ۱۴۰ بیلیون عکس در آن بارگذاری میشود و ۱۲۵ میلیون ارتباط دوستی برقرار میگردد. هرروزه ۳۰ بیلیون نوشته و ۲.۷ بیلیون لایک و توضیحات ارسال میگردد. در یوتیوب هر دقیقه ۴۸ ساعت ویدیو بارگذاری و هرروزه ۴ بیلیون فیلم اجرا میگردد. گوگل نیز از خدمات زیادی پشتیبانی میکند ازجمله ۷.۲ بیلیون صفحه در هرروز و ۲۰ پتابایت (۱۰۱۵ بایت) فرآیند روزانه و ترجمه به ۶۶ زبان؛ یک بیلیون توییت در هر ۷۲ ساعت، بیشتر از ۱۴۰ میلیون فعالیت کاربران توییتر است. تعداد ۵۷۱ وبگاه جدید در هر دقیقه از روز ایجاد میشود. پیشبینی میشود در طی دهه آینده حجم اطلاعات ۵۰ بار افزایش یابد، البته همزمان تعداد فنّاوریهای خاص اطلاعاتی که برای نگهداری این دادهها ایجاد میشود نیز ۱.۵ برابر میگردد.
در حوزه وب، حجم زیاد اطلاعات با رشد نمایی ۱۱ میلیارد صفحه در ۲۰۰۵ (ایران ده میلیون) و ۱۵۰ میلیارد صفحه در ۲۰۱۴ (ایران ششصد میلیون) تولید میشود و در محیط پویا صفحات جدید هم با نرخ ۸ درصد در هفته تولید میشوند، البته ۲۰ درصد صفحات موجود بعد از یک سال قابلدسترس نیستند.
۱-۱- ویژگیهای دادههای عظیم
دادههای عظیم به مجموعه دادههایی اشاره دارد که با استفاده از روشهای سنتی فناوری اطلاعات و ابزارهای سختافزاری و نرمافزاری موجود در آن نمیتوانند در زمان معقولی درک، گردآوری، مدیریت و پردازش شوند. دادههای عظیم روشها و فناوریهای نوینی را جهت جمعآوری، ذخیره و آنالیز دادههای غیر ساختیافته بهصورت مقیاسپذیر معرفی میکند. خواص پایه سهگانه دادههای عظیم: حجم، سرعت و تنوع و خواص هفتگانه حجم، سرعت، ارزش، تنوع، صحت، اعتبار و نوسان است.
بهصورت کلی دادههای عظیم با پنج ویژگی زیر شناخته میشود:
- حجم بالا:
کمیت دادههایی که جمعآوری میشود اهمیت زیادی دارند. اندازه دادهها مشخص میکند که آیا این دادهها میتوانند بهصورت بالقوه داده عظیم تلقی شوند یا نه؟
- تنوع دادهها:
یکی دیگر از مشخصات دادههای عظیم، تنوع دادهها است؛ بنابراین اینکه دادهها مربوط به چه صنعتی است و چه مفهومی را پشتیبانی میکند و در نتیجه چقدر نیاز به تجزیهوتحلیل دادهها وجود دارد، در تعیین آنها بهعنوان داده عظیم نقش دارد.
- سرعت تولید داده:
میزان داده تولیدشده در یک بازه زمانی یا به عبارت بهتر، سرعت ایجاد دادههای جدید.
- تغییر دادهها:
تغییر دادههای ورودی، یکی از اصلیترین مشکلات مرتبط با دادههای عظیم است. این مفهوم به ناپایداری محیطهایی که داده در آن تولید میشود برمیگردد. هر چه ناپایداری در محیط بیشتر باشد، مدیریت و تحلیل دادهها سختتر خواهد شد.
- پیچیدگی استفاده از دادهها:
مدیریت دادهها فرآیند بسیار پیچیدهای است، بهویژه وقتیکه حجم زیادی از دادههای پیچیده از منابع.
این مطلب چه میزان برای شما مفید بود؟
میانگین امتیاز 1.5 / 5. تعداد نظرات: 4
مطالب زیر را حتما مطالعه کنید
مدیریت مالی در شرایط بحرانی
بهره وری چیست و چطور بهره وری را افزایش دهیم؟
چطور در دام کلاهبرداری های جدید نیفتیم
در شرایط خاص فعلی، شرایط برای کلاهبرداری بسیار مهیا است!
در این مطلب و وبینار، روشهای کلاهبرداری و راههای تشخیص آن را با هم مرور میکنیم.
کاربردها و ابزارهای هوش مصنوعی
هوش مصنوعی این روزها جنبه های مختلف زندگی شخصی و حرفه ای همه ما را تحت تاثیر قرار داده است در این صفحه به مطالب و منابع مفیدی برای استفاده از هوش مصنوعی پرداخته ایم .
تحلیل هزینه – فایده چیست ؟
تحلیل هزینه – فایده روشی نظام مند برای تخمین زدن نقاط قوت و ضعف گزینه های مختلف و انتخاب و تصمیم گیری بین آنها باشد .
ناهماهنگی شناختی چیست؟ راههای کاهش ناهماهنگی شناختی
ناهماهنگی شناختی (تعارض شناختی) برای توصیف ناراحتی ذهنی استفاده میشود که ناشی از داشتن دو اعتقاد، ارزش یا نگرش متضاد با اعمال و واقعیت های بیرونی استفاده می شود. ناهماهنگی شناختی باعث ایجاد حس رنجش روحی درونی می شود ، تصمیم گیری های ما را ضعیف و بهره وری مان را در زندگی شخصی و حرفه ای کم می کند .
این سایت از اکیسمت برای کاهش هرزنامه استفاده می کند. بیاموزید که چگونه اطلاعات دیدگاه های شما پردازش میشوند.
دیدگاهتان را بنویسید