بیگ دیتا | Big Data چیست؟ کاملترین بررسی مفهوم داده های کلان

کلان داده چیست؟ منظور از داده های کلان یا Big Data چیست؟ Big data اصطلاحی است برای مجموعه داده های حجیم که بزرگ ، متنوع ، با ساختار پیچیده و با دشواریهایی برای ذخیره سازی ، تحلیل و تصویرسازی (نمایش) ، پردازشهای بیشتر یا نتایج میباشد. پروسه تحقیق بر روی داده های حجیم جهت آشکارسازی الگوهای مخفی و راز همبستگی ها ، تجزیه و تحلیل big data نامیده میشود.

دوره های شبکه، برنامه نویسی، مجازی سازی، امنیت، نفوذ و ... با برترین های ایران

این اطلاعات مفید برای سازمانها وشرکتها در جهت کسب بینش غنی تر و عمیق تر و موفقیت در رقابت کمک میکند. به همین دلیل اجراهای big data نیاز دارند تا در صورت امکان ، تحلیل شوند و به طور دقیق اجرا شوند. این گزارش خلاصه ای از محتوای big data ، هدف ، مثالها ، روشها ، منافع و چالش ها ارائه میدهد و در خصوص نگرانیهای حفظ حریم خصوصی در big data بحث میکند.

بیگ دیتا | Big Data چیست؟ کاملترین بررسی مفهوم داده های کلان

کلان داده یا Big Data چیست؟ مقدمه ای بر مفهوم داده های کلان

Big data و تجزیه و تحلیلش در مرکز علوم و تجارتهای مدرن هستند. این داده ها از تراکنشهای online ، email ها ، ویدئوها ، صوتها ، کلیک کردن ها ، log ها و ارسالها ، درخواستهای جستجو ، یادداشتهای درست ، تعاملات شبکه های اجتماعی ، داده های علمی ، سنسورها و تلفنهای همراه و برنامه های کاربردی آنها تولید میشوند. آنها بر روی پایگاه داده ها که به شکل حجیم رشد میکنند ، ذخیره میشوند و ضبط ، شکل دهی ، ذخیره سازی ، مدیریت ، به اشتراک گذاری ، تحلیل و نمایش آنها از طریق ابزارهای نوعی نرم افزار پایگاه داده ها ، دشوار میشود.

پنج اگزا بایت (10 به توان 18 بایت) دیتا تا سال 2003 به وسیله انسان به وجود آمده است. امروزه این مقدار اطلاعات در دو روز تولید میشود. در سال 2012 داده های دنیای دیجیتال به 2.72 زتا بایت ( 10 به توان 21 بایت) توسعه پیدا کرد. پیش بینی میشود که این مقدار هر دو سال ، دو برابر شود وبه حدود 8 زتا بایت داده در سال 2015 میرسیم.

بیگ دیتا | Big Data چیست؟ کاملترین بررسی مفهوم داده های کلان

IBM نشان داد که هر روز 2.5 اگزا بایت داده تولید میشود و همچنین %90 از داده ها در 2 سال اخیر تولید شده است. یک کامپیوتر شخصی حدود 500 گیگا بایت (10 به توان 9 بایت) داده نگه میدارد ، بنابراین برای ذخیره سازی همه داده های دنیا به حدود 20 میلیارد PC نیاز است.

در گذشته پروسه آشکارسازی ژنهای بشر تقریباً 10 سال وقت میگرفت ، هم اکنون بیشتر از یک هفته نمیشود. داده های چند رسانه ای وزن بزرگی در ترافیک اینترنت دارند و انتظار میرود به %70 در سال 2013 افزایش یابد. فقط google بیش از یک میلیون سرور در دور جهان دارد. 6 میلیارد اشتراک موبایل در دنیا وجود دارد و هر روز 10 میلیارد متن پیام (message) ارسال میشود. در سال 2020 ، 50 میلیارد دستگاه به شبکه ها و اینترنت متصل خواهند بود.

بیگ دیتا | Big Data چیست؟ کاملترین بررسی مفهوم داده های کلان

در سال 2012 مواجهه بشر با big data به عنوان یک پروژه جهانی انجام شد با مرکزیت مجموعه ای بلادرنگ که مقدار بزرگی از داده ها را نمایش میدهد و تحلیل میکند. بر اساس این پروژه خیلی آمارها نتیجه گرفته شد. Facebook ، نهصد و نود و پنج میلیون حساب کاربری فعال ماهانه با 70 زبان دارد ، 140 میلیارد تصویر آپلود شده است ، 125 میلیارد اتصالات دوستها و روزانه 30 میلیارد قطعه های با محتوا و 2.7 میلیارد like و comment ارسال میشود.

هر دقیقه 48 ساعت ویدئو آپلود میشود و هر روز 4 میلیارد view در YouTube اجرا میشود. Google خدمات بسیاری را پشتیبانی میکند از جمله 7.2 میلیارد page را هر روز مونیتور میکند و همچنین 20 پتا بایت (10 به توان 15 بایت) داده را روزانه به 66 زبان ترجمه میکند.

بیگ دیتا | Big Data چیست؟ کاملترین بررسی مفهوم داده های کلان

یک میلیارد Tweet هر 72 ساعت از بیشتر از 140 میلیون کاربر فعال در Twitter داریم. 571 وبسایت جدید در هر دقیقه ساخته میشود. در حدود دهه بعد ، تعداد اطلاعات 50 برابر افزایش پیدا خواهد کرد اما تعداد متخصصان تکنولوژی اطلاعات که همه آن اطلاعات را کنترل میکنند ، 1.5 برابر افزایش پیدا خواهد کرد.در قسمت 1 پیامدهای اساسی ، مزایا ، چالشها ، بررسی نتایج ، مثالها ، روشها و اکتشاف دانش از big data ارائه داده شده است و در قسمت 2 پیامدهای مهم در پیامدهای امنیتی بازبینی میشود و قسمت 3 مزایا ، موانع بالفعل ، چالشها و موانع big data را ارائه میدهد و قسمت 4شامل کارها میباشد.

بیگ دیتا | Big Data چیست؟ کاملترین بررسی مفهوم داده های کلان

BIG DATA چیست؟ به زبان ساده

در این قسمت پیامدهای مهم بازبینی میشوند و در بخشهای مختلف شرح داده میشوند.

1-1.پیامد های مهم

Big Data به یک گام چرخشی رو به جلو از تحلیل داده های سنتی نیاز دارد که با سه مؤلفه اصلی اش توصیف میشود: variety (تنوع یا گوناگونی) ، volume (حجم) ، velocity (سرعت).

بیگ دیتا | Big Data چیست؟ کاملترین بررسی مفهوم داده های کلان
  • Variety (تنوع وگوناگونی): تنوع ، Big Data را واقعاً بزرگ میکند. Big Data از یک تنوع بزرگ از منابع می آید و عموماً این سه نوع را دارد: structured (ساخت یافته) ، semi structured (نیمه ساخت یافته) ، unstructured (بدون ساخت) ، داده های ساخت یافته در یک انبار داده قبلاً برچسب زده شده insert میشود و به راحتی ذخیره میشود. اما داده های بدون ساخت ، رندوم هستند و تحلیل آنها دشوار است. داده های نیمه ساخت یافته ، با فیلدهای ثابت تطبیق داده نمیشوند اما شامل برچسبهایی جهت جداسازی عناصر داده میباشند.
  • Volume (حجم): حجم یا اندازه داده ، هم اکنون بزرگتر از ترا بایت(10 به توان 12 بایت) و پتا بایت(10 به توان 15بایت) است. مقیاس بزرگ و پیشرفت داده ها ، روشهای سنتی ذخیره سازی و تکنیک های تحلیل را پشت سر میگذارد.
  • Velocity (سرعت): سرعت نه تنها لازمه Big Data است ، بلکه لازمه همه پردازشها است. برای پردازشهای محدود به زمان ، Big Data باید مورد استفاده قرار بگیرد همانطور که در سازماندهی به منظور به حداکثر رساندن ارزش خود، جریان دارد.در کنار کثرت این اطلاعات ، مؤلفه دیگر ، تصدیق جریان داده است. کنترل داده بزرگ مشکل است ، بنابراین امنیت داده باید تأمین شود. بعلاوه پس از تولید و پردازش Big Data ، آن باید یک مقدار اضافه جهت سازماندهی ایجاد کند.

برخی سؤال و جوابهای مهم وجود دارد که در زیر خلاصه شده است که توسط مؤسسه TDWI جهت مدیریت حرفه ای داده ، پرسیده شده و مورد بررسی قرار گرفته است.

    1. پس از سازماندهی نوعی از تجزیه و تحلیل Big Data که به کار برده شده ، این منافع اتفاق می افتد: بازاریابی هدفمندتر ، بینش های کاری صریح تر ، تقسیم بندی بر مبنای مشتری ، تشخیص فروشها و شانسهای بازار.
    2. در طول تکمیل شدن تحلیل Big Data ، این پیامدها موانع مستعد هستند: چیزهای بی تخصص ، هزینه ، محرومیت از ضمانت و حمایت از کار ، سختی طراحی سیستم های تحلیل ، فقدان نرم افزار پایگاه داده فعلی در زمینه تجزیه و تحلیل.
    3. از آنجاییکه جمعیت قابل توجهی Big Data را هم اکنون تعریف کرده اند و در آینده Big Data به دلیل تجزیه و تحلیل جامع یک فرصت است و برخی از آنها Big Data را به دلیل مدیریت کردن یک مشکل می بینند.
    4. انواع داده های حجیم که ذخیره میشوند و به وسیله تکنیک های پیشرفته امروزی استفاده میشوند ، عبارتند از : ساخت یافته ، نیمه ساخت یافته ، رویداد (event) و داده های بدون ساخت.
    5. در حین جابه جایی سکو (platform) ، این مشکلات اتفاق می افتد: نمیتواند با حجم بزرگی از داده ها تطبیق داده شود ، نمیتواند مدلهای تجزیه و تحلیل مورد نیاز را پشتیبانی کند ، نیاز به سکوی تجزیه و تحلیل پیشرفته و اینکه فناوری اطلاعات (IT) ، نمیتواند به تقاضاها و نیازها رسیدگی کند.

همانطور که از بررسی ها دیده میشود ، تجزیه و تحلیل داده های حجیم هنوز به توجه بیشتر نیاز دارد. تجزیه و تحلیل داده های حجیم متواند به صدها سرور نیاز داشته باشد که با نرم افزار موازی به شکل انبوه اجرا میشود. آن چیزی که داده های حجیم را جدا از تنوع و حجم و سرعت آن واقعاً متمایز میکند، پتانسیل تحلیل آن برای آشکارسازی بینش های جدید جهت بهینه سازی تصمیم گیری است.

بیگ دیتا | Big Data چیست؟ کاملترین بررسی مفهوم داده های کلان

بررسی نمونه هایی از داده های حجیم در صنایع و کاربردهای مختلف

نمونه های واقعاً در دسترس از داده های حجیم عبارتند از : در ستاره شناسی ، علوم جوی ، ژنومیک(علم تجزیه وتحلیل داده های ژنتیکی) ، بیوژئوشیمی (شیمی زیستی جغرافیایی) ، علوم و تحقیقات زیستی ، دولت ، حوادث طبیعی ، منابع مدیریت ، بخش خصوصی ، مراقبت نظامی ، خدمات مالی ، جزئیات ، شبکه های اجتماعی ، وبلاگها ، متون ، اسناد ، عکاسی ، صوت ، ویدئو ، جریان کلیک کردن ، جستجو ، اندیس گذاری ، سوابق جزئیات تماس ، اطلاعات اعتباری ، شناسایی فرکانس رادیویی(RFID) ، تلفنهای همراه ، شبکه های حسگر و ارتباطات از راه دور. سازمانها در هر صنعتی که دارای داده های حجیم هستند ، میتوانند از تحلیل های دقیق خود در کسب بینش و دقیق بینی جهت حل مشکلات واقعی نفع ببرند.مؤسسه جهانی McKinsey پتانسیل داده های حجیم را در 5 موضوع اصلی مشخص کرده است:

  1. بهداشت و درمان (healthcare): سیستمهای پشتیبانی تصمیم گیری بالینی ، تجزیه و تحلیل فردی به کار برده شده برای مشخصات بیمار ، پزشکی شخصی ، عملکرد مبتنی بر ارزشگذاری برای پرسنل ، تحلیل الگوهای بیماری ، بهبود سلامت عمومی.
  2. بخش عمومی (public sector): ایجاد شفافیت به واسطه داده های وابسته در دسترس ، کشف نیازها ، بهبود عملکرد ، اقدامات سفارشی برای محصولات مناسب و خدمات ،تصمیم گیری با سیستمهای اتوماتیک برای کاهش ریسکها ، نوآوری در محصولات جدید و خدمات.
  3. جزئی (retail): در تحلیل رفتار ذخیره سازی ، بهینه سازی قیمت و تنوع ، طراحی تبلیغ محصول ، توسعه عملکرد ، بهینه سازی ورودی کار ، بهینه سازی تدارکات و توزیع ، بازارهای مبتنی بر web .
  4. ساخت (manufacturing): توسعه پیش بینی تقاضا ، برنامه ریزی زنجیره تأمین(ذخیره) ، پشتیبانی فروش ، توسعه عملیات تولید ، برنامه های کاربردی مبتنی بر جستجو در web .
  5. داده های مکانهای شخصی(personal location data): مسیر یابی هوشمند ، تبلیغات جغرافیایی هدفمند یا واکنش های اضطراری ، برنامه ریزی شهری ، مدلهای کسب و کار جدید.

Web همچنین نوعی از فرصت ها را برای داده های حجیم فراهم میکند. به عنوان مثال ، تحلیل شبکه های اجتماعی جهت درک هوش کاربر برای تبلیغات هوشمندتر ، کمپینهای بازاریابی و برنامه ریزی ظرفیت ، رفتار مشتری و الگوهای خرید و همچنین تجزیه و تحلیل احساسات. بر اساس این استنتاجها، شرکتها محتوای خود را و تدبیر توصیه خود را بهینه سازی میکنند. برخی از شرکتها نظیر گوگل و آمازون، مقالات مربوط به کار خود را چاپ میکنند. با الهام از نوشته های چاپ شده ، توسعه دهندگان تکنولوژی های مشابهی نظیر نرم افزارهای open source از قبیل Lucene ، Solr ، Hadoop و HBase را توسعه دادند.

Facebook ، Twitter و LinkedIn یک قدم جلوتر رفتند بدین شکل که پروژه های open source را برای داده های حجیم را چاپ کردند. مثل Cassandra ، Hive ، Pig ، Voldemort ، Storm ، IndexTank.علاوه بر این ، تجزیه و تحلیل های پیش گویانه بر روی جریان ترافیک و یا شناسایی خلافکارها و تهدید کردن از طریق ویدئوهای مختف و صدا و بازخورد های داده از مزایای داده های حجیم هستند.در سال 2012 دولت اوباما اعلام کرد در طرحهای Big Data بیش از 200 میلیون دلار در تحقیق و توسعه برای بنیاد ملی علوم ، مؤسسه ملی بهداشت ، وزارت دفاع ، وزارت انرژی ، سازمان زمین شناسی ایالات متحده ، سرمایه گذاری شده است. این سرمایه گذاریها برای کسب یک گام رو به جلو در ابزارها و روشها برای دستیابی ، سازماندهی و جمع آوری یافته ها از حجم زیادی از داده های دیجیتال ، انجام شده است.

بیگ دیتا | Big Data چیست؟ کاملترین بررسی مفهوم داده های کلان

معرفی روش ها یا Method ها در Big Data

اکثر شرکتها با مقدار زیادی داده های جدید که در اشکال مختلف بسیاری دریافت میشوند ، روبرو هستند. Big Data این پتانسیل را دارد که بینش هایی ایجاد کند که میتوند هر کسب و کاری را دگرگون کند. Big Data یک صنعت کاملاً جدید از معماری های پشتیبانی کننده نظیر MapReduce ایجادکرده است. MapReduce یک framework برنامه نویسی است برای محاسبات توزیع شده که به وسیله Google تولید شده و از روش تقسیم و غلبه استفاده میکند جهت درهم شکستن مسائل داده های حجیم مختلط به بخشهای کاری کوچک و پردازش موازی آنها. MapReduce میتواند به 2 مرحله تقسیم شود:

  1. Map Step (گام نگاشت): داده گره اصلی (master node) به تعدادی زیر مسئله کوچکتر خرد میشود. یک گره کارگر (worker node) تعدادی زیر مجموعه از مسئله های کوچکتر را تحت کنترل گره دنبال کننده کار (JobTracker node) پردازش میکند و نتایج را در سیستم فایل محلی ذخیره میکند. جائیکه یک کاهنده (reducer) قادر به دسترسی به آن باشد.
  2. گام کاهش (Reduce Step): این مرحله داده های ورودی از مراحل نگاشت را تحلیل و ادغام میکند. میتواند چندین وظیفه کاهش جهت موازی سازی اجتماع ، وجود داشته باشد و این وظایف(tasks) بر روی نودهای کارگر تحت کنترل دنبال کننده کار (JobTracker) انجام میشود.

Hadoop با الهام از جدول بزرگ(Big Table) که سیستم ذخیره سازی داده های google است ، سیستم فایل google و MapReduce به وجود آمد. Hadoop یک framework مبتنی بر جاوا و سکوی متن باز ناهمگون (heterogeneous open source platform) است. Hadoop جایگزینی برای database ، انبار (warehouse) یا استراتژی ( Extract , Transform , Load ) نیست.

Hadoop شامل یک سیستم فایل توزیع شده ، تجزیه و تحلیل و سکوی ذخیره سازی داده میباشد و یک لایه ای که محاسبات موازی، گردش کار و مدیریت پیکربندی را اداره میکند. Hadoop برای پردازش رویدادهای مختلط بلادرنگ مثل رشته ها طراحی نشده است.( HDFS (Hadoop Distributed File System یا سیستم فایل توزیع شده Hadoop ، درمیان گره ها در یک خوشه Hadoop ، اجرا میشود و سیستمهای فایل تعدادی داده ورودی و خروجی را به هم متصل میکندتا آنها را به صورت یک سیستم فایل بزرگ درست کند.همانطور که در شکل زیر می بینید ، Hadoop ارائه میدهد:

  1. HDFS: یک سیستم فایل توزیع شده بسیار تحمل کننده خطا است که مسئول ذخیره سازی داده ها در کلاسترها میباشد.
  2. MapReduce: یک تکنیک برنامه نویسی قدرتمند برای پردازش موازی کلاسترها است.
  3. HBase: یک پایگاه داده توزیع شده مقیاس پذیر برای دسترسی خواندن/نوشتن به طور تصادفی است.
  4. Pig: یک سیستم پردازش داده سطح بالا برای تحلیل مجموعه های داده که به وسیله یک زبان سطح بالا رخ میدهد.
  5. Hive: یک برنامه کاربردی ذخیره سازی داده است که یک رابط (interface) مشابه SQL و مدل رابطه ای را فراهم می آورد.
  6. Sqoop: یک پروژه برای انتقال داده بین پایگاه داده رابطه ای و Hadoop.
  7. Avro: یک سیستم از داده های مرتب.
  8. Oozie: یک جریان کار برای کارهای Hadoop وابسته.
  9. Chukwa: یک زیر پروژه Hadoop به عنوان سیستم جمع آوری داده برای نظارت سیستم های توزیع شده.
  10. Flume: مجموعه log های جاری توزیع شده و قابل اعتماد.
  11. Zookeeper: یک سرویس مرکزی است جهت فراهم آوردن همزمانی توزیع شده وسرویس های گروهی.
وب سایت توسینسو

HPCC چیست؟ بررسی سیستم های High Performance Computing Cluster

سیستم HPCC یا کلاسترهای محاسباتی با سرعت بالا ، سکوی محاسباتی متن باز متمرکز داده ها را توزیع میکند و خدمات مدیریتی جریان کار داده های حجیم را فراهم می آورد. بر خلاف Hadoop ، مدل داده ای HPCC به وسیله کاربر تعریف میشود. کلیدی برای مشکلات پیچیده که میتواند به راحتی توسط زبان ECL سطح بالا شرح داده شود. HPCC تضمین میکند که ECL در حداکثر زمان سپری شده ، انجام شود و نودها به شکل موازی پردازش شوند. بعلاوه سکوی HPCC به ابزارهای بخش ثالث نظیر GreenPulm ، Cassandra ، RDBMS ، Oozie و ... نیاز ندارد.سه مؤلفه اصلی HPCC:

  1. THOR(پالایشگاه داده HPCC): یک موتور ETL موازی به شکل انبوه است که ادغام داده ها براساس یک مقیاس را انجام میدهد و دستکاری داده ها به شکل دسته ای را فراهم می آورد.
  2. ROXIE(موتور تحلیل داده HPCC): یک موتور موازی انبوه ، با توان عملیاتی بالا ، فوق العاده سریع ، با زمان تأخیر کم که بازیابی چند کاربره مؤثر داده و موتور پاسخ جستجوی ساخت یافته را اجازه میدهد.
  3. ECL)Enterprise Control Language): یک جریان کاری توزیع شده بین گره ها بصورت خودکار است که الگوریتمهایی همگام و خودکار دارد و ماشین توسعه پذیر کتابخانه یادگیری را توسعه میدهد و زبان برنامه نویسی مفید و ساده ای دارد که برای عملگرهای Big Data و تراکنشهای جستجو ، بهینه سازی شده است.

شکل صفحه قبل مقایسه بین سکوی سیستمهای HPCC و Hadoop را از نظر معماری و استک نشان میدهد. بر اساس منابع ، تفاوتها در زیر خلاصه شده است:

  • کلاسترهای HPCC میتوانند در Thor و Roxie اعمال شوند. کلاسترهای Hadoop با پردازش MapReduce اجرا میشوند.
  • در محیط HPCC ، ECL زبان برنامه نویسی اولیه است در حالیکه پردازش MapReduce در Hadoop بر مبنای زبان جاوا است.
  • سکوی HPCC ، شاخص چند متغیره و چند کلیده بر روی سیستم فایل توزیع شده میسازد. HBase درHadoop ، پایگاه داده ستون گرا را فراهم می آورد.
  • قابلیتهای انبار داده (data warehouse) در HPCC Roxie جهت جستجوهای ساخت یافته و برنامه های کاربردی تحلیل کننده استفاده میشود. از طرف دیگر Hive در Hadoop قابلیتهای انبار داده را فراهم می آورد و اجازه میدهد داده ها در HDFS هادوپ ، Load شوند.
  • بر روی پیکر بندی سخت افزاری مشابه یک سیستم با 400 گره ، موفقیت HPCC در 6 دقیقه و 27 ثانیه است و موفقیت Hadoop در 25 دقیقه و 28 ثانیه است. این نتایج نشان میدهد که در این مقایسه HPCC سریعتر از Hadoop است.

KDD چیست؟ بررسی نحوه کشف دانش از داده های حجیم (KDD)

کشف دانش از داده های حجیم عبارت است از تعدادی عملگر که برای دریافت اطلاعات از مجموعه های داده پیچیده ، طراحی شده اند.رئوس کلی اکتشاف دانش از داده های حجیم:

  1. دامنه برنامه کاربردی مقدم به اطلاعات و تعریف هدف از پردازش از دیدگاه مشتری.
  2. ایجاد زیر مجموعه ای از داده ها که به کشف دانش اشاره میکنند.
  3. از بین بردن noise ها، اداره کردن فیلدهای داده گمشده ، جمع آوری اطلاعات مورد نیاز جهت مدلسازی و محاسبه زمان اطلاعات و تغییرات اصلی.
  4. پیدا کردن خصوصیات مفید جهت نشان دادن وابستگی داده به هدف از کار.
  5. نگاشت اهداف به روشهای داده کاوی دقیق.
  6. انتخاب الگوریتم داده کاوی و تابع جهت جستجوی الگوهای داده.
  7. جستجوی الگوها به شکل گویا.
  8. بازگشت به هر مرحله 1 تا 7 جهت تکرار و بازگویی ، همچنین این مرحله میتواند شامل تصویرسازی از الگوها باشد.
  9. استفاده از اطلاعات به شکل مستقیم ، ترکیب اطلاعات در سیستم دیگر یا گزارش گیری و استفاده از اطلاعات به شکل ساده.

رفرنس 6 ، کشف دانش از داده های حجیم با استفاده از Hadoop را در 3 اصل تحلیل میکند که عبارتنداز:

1) کشف دانش از داده ها ، شامل روشهای تحلیلی متنوعی میباشد مانند برنامه نویسی توزیع شده، الگوشناسی ، داده کاوی ، پردازش زبان طبیعی ، تجزیه و تحلیل احساسات ، تجزیه و تحلیل آماری و تصویری و تعاملات کامپیوتری بشر. بنابراین معماری باید روشهای تحلیل ومتدهای متنوعی را پشتیبانی کند.

  • _ تجزیه و تحلیل آماری ، علاقه مند در خلاصه سازی مجموعه داده های حجیم ، فهم داده ها و تعریف مدلهایی جهت پیشگویی میباشد.
  • _ داده کاوی با کشف الگوهای مفید در مجموعه داده های حجیم از طریق خودشان در ارتباط است، آموخته های ماشین که با داده کاوی ترکیب میشود و روشهای آماری که ماشینها را قادر به فهم مجموعه های داده میسازد.
  • _ روشهای تجزیه و تحلیل بصری ، ناحیه ای را که در آن مجموعه داده های حجیم به کاربران سرویس میدهند را توسعه میدهند ، در راه های چالش برانگیز قادر به فهم روابط خواهند بود.

2) یک معماری KDD جامع باید نگهداری و به کار انداختن خط پردازش را تأمین کند.

  • _ آماده سازی داده ها تجزیه و تحلیل دسته ای جهت عیب یابی مناسب error ها ، مقادیر از دست رفته و فرمت های غیر قابل استفاده.
  • _ پردازش داده های ساخت یافته و داده های نیمه ساخت یافته.

3) این یک اصل است که نتایج ساده و در دسترس باشند. به همین دلیل ، روشهای زیر جهت رسیدن به این موضوع ، استفاده میشوند:

  • _ استفاده از استانداردهای رایج و متن باز.
  • _ استفاده از معماری های مبتنی بر web.
  • _ نتایج با قابلیت دسترسی عمومی

مسائل حفظ حریم خصوصی و امنیت در Big Data

در May 2012 مرکز فناوری اطلاعات Intel ، 200 مدیر IT در شرکتهای بزرگ را بررسی کرد تا بفهمد آنها چگونه تجزیه وتحلیل Big Data را انجام میدهند. آنها پرسیدند که مدیران IT به چه استانداردهایی جهت تجزیه و تحلیل Big Data علاقه مند هستند و جوابها بودند: امنیت داده ها ، تکنولوژی نگهداری داده های خصوصی کاربران ، شفافیت داده ها ، تعیین معیار عملکرد ، داده ها و قابلیت همکاری سیستم.

پاسخهایی وجود داشت که در مورد عرضه کنندگان ابر شخص ثالث ، نگران بودند. نگرانیهای امنیت داده ها وحریم خصوصی و خط مشئ شرکت ، از برون سپاری ذخیره سازی داده ها و تجزیه و تحلیلها جلوگیری میکند و در کل، هزینه ها و من تجزیه و تحلیل داده ها را درخانه انجام میدهم و در مورد برون سپاری ، برنامه ریزی نمیکنم. بر این اساس دغدغه های معمول درباره امنیت را بررسی میکنیم.

با توجه به خرابی های محیط های دفاعی سنتی به همراه توانایی های حمله کننده ها به نجات از سیستمهای امنیتی سنتی ، لازم است سازمانها ، یک مدل امنیتی هوشمند اتخاذ کنند که دورتر از خطر، متنی و سریع باشد . امنیت هوشمندی که مبتنی بر تجزیه و تحلیل داده های حجیم است. داده های حجیم ، شامل هر دو مورد وسعت منابع و عمق اطلاعات میباشد که مورد نیاز برنامه هاست جهت مشخص کردن خطرات، به طور دقیق و حمایت کردن در مقابل فعالیتهای غیر مجاز و تهدیدات سایبری پیشرفته. یک مدل امنیتی مبتنی بر داده های حجیم ، دارای مشخصه های زیر میباشد:

  • منابع داده داخلی و خارجی که در مقدار ضرب میشود و یک تأثیر آموزشی همکاری کننده ایجاد میکنند.
  • ابزارهای خودکار که انواع داده های مختلف را جمع آوری کرده و آنها را نرمال میکنند.
  • مدیریت موتورهای تجزیه و تحلیل جهت پردازش حجم بزرگی از داده هایی که در زمان واقعی به سرعت در حال تغییر هستند.
  • سیستمهای نظارت پیشرفته که بطور مداوم ، سیستمهای با ارزش بالا و منابع را تجزیه و تحلیل میکنند و بر مبنای رفتار و مدلهای خطا رسیدگی میکنند.
  • کنترلهای فعال از قبیل نیاز تصدیق هویت کاربر سنتی ، مسدود کردن انتقال داده ها یا ساده سازی تصمیم گیری تحلیلگران.
  • متمرکز سازی انبار بطوریکه همه داده های وابسته امنیتی برای تحلیلگران امنیتی جهت پرس و جو در دسترس باشند.
  • استاندارد سازی دیدگاه ها به نمایشهای سازگار که به شکل قابل خواندن برای ماشین ایجاد شده اند و میتوانند در مقیاس منابع قابل اعتماد ، به اشتراک گذاشته شوند.
  • زیرساختهای n-لایه که در تمام جهات مقیاس پذیری را ایجاد میکنند و قادر به پردازش پرس و جوها و جستجوهای بزرگ و پیچیده هستند.
  • درجه بالایی از یکپارچگی از طریق امنیت و ابزارهای مدیریت خطا جهت تسهیل بررسی مفصل مشکلات بالقوه.

با توجه به رفرنس 5 ، چگونگی توسعه یک روش جامع و مطمئن برای داده های حجیم عبارت است از:

  • برای شروع یک مدیریت پروژه ، شرکتها نیاز به جای دادن و شرح منشأ منابع داده ، ایجاد کردن و مجوز دسترسی ، دارند.
  • دسته بندی کشف بر اساس اهمیت آن.
  • تضمین اینکه سوابق بایگانی شوند و بر اساس استانداردها و مقررات محافظت شوند.
  • توسعه دادن سیاست پردازش داده های وابسته ، از قبیل تعریف انواع داده های ذخیره شده ، زمان ذخیره سازی ، انبار و انواع دسترسی ها.

از طریق نگهداری داده ها در یک مکان ، یک هدف برای حمله کننده ها جهت خرابکاری در سازمان ایجاد میشود. این نیاز دارد که انبارهای داده های حجیم به درستی کنترل شوند. جهت تضمین تصدیق ، یک framework ارتباط امن رمز شده اجرا میشود. کنترلها باید اصل امتیاز کاهش را استفاده کنند مخصوصاً برای قوانین دسترسی به جز برای یک مدیر (administrator) که اجازه دسترسی فیزیکی به داده ها را دارد.

برای کنترلهای دسترسی مؤثر ، آنها باید به طور ممتد مشاهده شوند و تغییر داده شوند. مانند تغییر نقشهای کارمندان سازمان. بنابراین کارمندان ، حقوق افراطی که میتواند مورد سوء استفاده قرار گیرد ، جمع نمیکنند. دیگر روشهای امنیتی ، نیاز به ضبط و تجزیه و تحلیل ترافیک شبکه دارند.

بیگ دیتا | Big Data چیست؟ کاملترین بررسی مفهوم داده های کلان

از قبیل فرا داده ، گرفتن بسته ، جریان و ورود اطلاعات به سستم. سازمانها باید سرمایه گذاری در محصولات امنیتی را با استفاده از تکنولوژی های سریع مبتنی بر تجزیه و تحلیل تجهیزات غیر ایستا ، تضمین کنند. مشکل دیگر مربوط به سازماندهی منطبق با قوانین حفاظت از داده ها میباشد. سازمانها باید برای ذخیره سازی داده ها ، انشعابات حقوقی را در نظر داشته باشند.

به هر جهت ، داده های حجیم ، مزایای امنیتی دارند. زمانیکه سازمانها دانش را طبقه بندی میکنند، آنها داده را بطور خاص از طریق مقررات کنترل میکنند. نظیر تحمیل دوره های ذخیره سازی. این به سازمانها اجازه انتخاب داده ای را میدهد که نه مقدار کوچک دارد و نه هیچ نیازی به نگهداری. بطوریکه به طور طولانی جهت سرقت در دسترس نیست. مزیت دیگر این است که داده های حجیم میتواند از تهدیدهایی نظیر شواهدی از نرم افزارهای مخرب ، ناهنجاریها یا دزدی های اینترنتی درامان باشد.

ارزیابی کلی از Big Data

حجم داده ها افزایش پیدا کرده است وتجزیه و تحلیل مجموعه داده ها ، رقابتی تر شده است. چالش فقط جمع آوری و مدیریت حجم وسیعی از انواع مختلفی از داده نیست ، بلکه استخراج ارزش معنادار از داده است. همچنین نیاز است به مدیران و تحلیلگرانی با بینش عالی از اینکه چگونه میتوان داده های حجیم را به کار برد. شرکتها باید در بکارگیری برنامه ها شتاب کنند درحین اینکه سرمایه گذاری های قابل توحهی در آموزش و پرورش پرسنل کلیدی انجام دهند.

با توجه به نتایج تجزیه وتحلیل داده های بزرگ توسط TDWI ، مزایای داده های حجیم عبارتند از: بازاریابی هدفمندتر ، بینش درون بینی کسب و کار بطور صریح تر ، تقسیم بندی مبتنی بر مشتری ، تشخیص فروشها و شانس بازار ، خود کاری سازی تصمیم گیری ، تعریف رفتارهای مشتری ، بازگشت بیشتر سرمایه گذاری ، تعریف خطرها و روند بازار ، فهم تغییر تجارت و کسب و کار ، برنامه ریزی و پیش بینی بهتر ، شناسایی رفتار مصرف کننده از جریان کلیک و گسترش عملکرد تولید.

بعلاوه ، TDWI موانع بالقوه تجزیه وتحلیل داده های حجیم را ارائه داده است. مانند چیزهای غیر متخصص و عدم توانایی در یافتن کارشناسان داده های حجیم جهت بکارگیری ، هزینه ، محرومیت از ضمانت و حمایت از کسب و کار ، سختی طراحی سیستمهای تجزیه و تحلیل ، فقدان نرم افزار پایگاه داده فعلی در زمینه تجزیه و تحلیل و زمان پردازش سریع ، مشکلات مقیاس پذیری ، ناتوانی در ساخت داده های حجیم قابل استفاده برای کاربران نهایی ، بارگذاری داده ها در نرم افزار پایگاه داده فعلی سریع نیست ، فقدان مورد کسب وکار قانع کننده.بر اساس نتایج مرکز فناوری اطلاعات تجزیه و تحلیل داده های حجیم Intel ، چالش های متعددی برای داده های حجیم وجود دارد:

رشد داده ها ، زیرساخت های داده ، سیاست داده ها ، اجتماع داده ها ، سرعت داده ها ، تنوع داده ها ، مقررات یا انطباق داده ها ، تجسم داده ها(تصویرسازی).بعلاوه ، مرکز فناوری اطلاعات Intel ، موانع داده های حجیم را مشخص کرده است: نگرانیهای امنیتی ، هزینه های عملیاتی ، افزایش گلوگاه های شبکه ای ، کمبود متخصصان ماهر علم اطلاعات ، نرخ داده غیر قابل کنترل و مدیریت ، قابلیت تکرار داده ها ، نبود قابلیت های متراکم سازی رکود شبکه ای بزرگتر و نارسایی قدرت پردازنده. با وجود موانع بالقوه و چالشهای داده های حجیم ، Big Data هم اکنون و همچنین در آینده از اهمیت زیادی برخوردار خواهد بود.

نتیجه گیری

در این بازبینی ، یک نمای کلی از محتوای داده های حجیم ، حوزه ، نمونه ها ، روشها ، مزایا ، چالشها و بحث های نگرانی های حریم خصوصی مرور شده است .نتایج نشان دادند که حتی اگر داده ها و ابزارها و تکنیکها واقعاً در دسترس باشند ، نکات بسیاری جهت رسیدگی ، بحث ، بهبود ، توسعه ، تجزیه و تحلیل و ... وجود دارند.گذشته از این ، موضوع فهم حفظ حریم خصوصی و امنیت داده های حجیم ، پیامد بزرگی است که در آینده بیشتر بحث خواهد شد.

  • بیگ دیتا ( Big Data ) چیست؟

    بیگ دیتا یا کلاه داده در واقع به روشی برای تجزیه و تحلیل کردن سیستماتیک و خارج کردن اطلاعات از داده هایی است که آنقدر حجیم و زیاد هستند که با سیستم های سنتی پردازش داده و نرم افزارهای سنتی پردازش داده امکان تجزیه و تحلیل و خروج اطلاعات از آنها وجود ندارد
  • بیگ دیتا ( Big Data ) چقدر بزرگ می تواند باشد؟

    حجم بیگ دیتا می تواند تا یک زتابایت ( Zettabyte ) برسد که یعنی هزار به توان هفت یا عددی معادل (1,000,000,000,000,000,000,000 ) بایت داده ...

نظرات