بیگ دیتا به حجم بالایی از دادهها گفته میشود که هر روز با سرعت زیادی بر حجم آن افزوده میشود. که میتوان اطلاعات ارزشمندی را از میان انبوه اطلاعات استخراج کرد. در این مقاله به شما خواهیم گفت که بیگ دیتا چیست و شما را نحوه کار با آن، ویژگیها، انواع تجزیه و تحلیل کلان داده آشنا خواهیم کرد.
کلان داده یا بیگ دیتا
بیگ دیتا اصطلاحی است که حجم زیادی از دادهها را چه ساختاری و چه غیر ساختاری توصیف می کند. مقدار داده مهم نیست، کاری که سازمانها با دادهها انجام میدهند مهم است. دادههای کلان را میتوان برای بینشهایی که منجر به تصمیمگیری بهتر و حرکتهای استراتژیک تجاری میشوند، تجزیه و تحلیل کرد.
این اصطلاح یک اصطلاح تکاملی است که حجم زیادی از ساختار، دادههای نیمه ساختار یافته و غیرساختاری را توضیف میکند. این دادهها پتانسیل آن را دارند که برای اطلاعات استخراج شوند و در پروژههای یادگیری ماشین و سایر برنامههای پیشرفته تجزیه و تحلیل استفاده شوند.
بیگ دیتا معمولا در مقابل سه موضوع مشخص میشود که عبارتند از: حجم شدید دادهها، طیف گستردهای از انواع دادهها و سرعتی که دادهها باید پردازش شوند.
بیگ دیتا چگونه کار میکند؟
یگ دیتا را میتوان به عنوان دادههای ساختار یافته و بدون ساختار طبقهبندی کرد.
۱- دادههای ساختار یافته
شامل اطلاعاتی است که سازمان در پایگاه دادهها مدیریت میکند و طیف گستردهای دارد. این اطلاعات اغلب عددی هستند.
۲- دادههای غیرساختاری
اطلاعاتی است که سازماندهی نشده و به یک مدل یا فرمت از پیش تعیین شده نمیرسد. این دادهها شامل اطلاعات جمعآوری شده از منابع رسانههای اجتماعی است که به موسسات کمک میکند تا اطلاعات مربوط به نیازهای مشتری را جمعآوری کنند.
سه مشخصه بیگ دیتاعبارتند از: حجم یا مقدار دادهها، سرعتی که این دادهها جمعآوری شده است و انواع اطلاعات.
بیگ دیتا را میتوان از طریق نظرات عمومی در شبکههای اجتماعی، وبسایتها، اطلاعاتی که به صورت داوطلبانه از برنامههای شخصی و الکترونیک جمعآوری شدهاند، از طریق پرسشنامهها، خرید محصولات و چکهای الکترونیکی جمعآوری کرد. حضور سنسورها و دیگر ورودیها در دستگاههای هوشمند اجازه میدهد تا دادهها در طیف گستردهای از شرایط و موقعیتها جمعآوری شوند.
بیگ دیتا اغلب در پایگاه دادههای کامپیوتری ذخیره میشود و یا با استفاده از نرمافزار به طور خاص برای دستهبندی مجموعههای دادههای بزرگ و پیچیده مورد تجزیه و تحلیل قرا میگیرد. بسیاری از شرکتهای نرمافزاری به عنوان یک سرویس در مدیریت این نوع دادههای پیچیده تخصص دارند.
مدل ۳V بیگ دیتا چیست؟
در اغلب تعریف های کلان داده، سه اصطلاح حجم (Volume) و سرعت (Velocity) و تنوع (Variety) را میبینید. در حدی که گاهی برای تعریف بیگ دیتا از اصطلاح ۳V استفاده میکنند.
حجم بیگدیتا
ویژگی اصلی که یک داده را بزرگ میکند حجم منحصر به فرد آن است. به نظر میرسد تمرکز برروی حداقل واحدهای ذخیرهسازی اهمیت زیادی ندارد، چراکه میزان کل اطلاعات هر سال در حال افزایش است. در سال 2010 Thomson Reuters در یک گزارش سالانه برآورد کرده است که جهان با بیش از 800 اکسایبایت از دادهها روبرو است و در حال رشد است. هیچ کس واقعا نمیداند که چه مقدار اطلاعات جدید تولید میشود اما میزان اطلاعات جمعآوری شده در هر سال بسیار زیاد است.
تنوع در بیگدیتا
تنوع یکی از جالبترین تحولات در فناوری است، زیرا اطلاعات روزبهروز بیشتر دیجیتالی میشوند. انواع دادههای سنتی (دادههای ساختاری) شامل مواردی مانند تاریخ، مقدار و زمان هستند که در یک بیانیه جمعآوری شدهاند.
دادههای ساختار یافته توسط دادههای غیرساختاری افزوده و تکمیل شده است که شامل مواردی مانند فیدهای توییتر، فایلهای صوتی، صفحات وب، تصاویر و غیره میشود.
دادههای غیرساختاری یک مفهوم اساسی در دادههای بزرگ است. بهترین راه برای تشخیص دادههای غیرساختاری مقایسه آن با دادههای ساختار یافته است. دادههای ساختار یافته را به عنوان دادههایی که در مجموعهای از قوانین به خوبی تعریف شدهاند در نظر بگیرید. به عنوان مثال پول همیشه عدد است و حداقل دو رقم اعشار دارد، نامها به صورت متن بیان میشوند و تاریخها یک الگوی خاص را بیان میکنند.
سرعت
سرعت در اینجا به معنای سرعت فراخوانی دادههای ورودی است که باید پردازش شود. تصور کنید در هر دقیقه از یک روز چند پیغام به روزرسانی فیسبوک و یا پیامهای موجودی کارتهای اعتباری از یک حامل مخابراتی خاص ارسال میشود. اینها همه نمونه سرعت بالا است.
انواع تجزیه و تحلیل در بیگ دیتا
۱- تجزیه و تحلیل پیشبینی دادهها
تجزیه و تحلیل پیشبینی شده ممکن است در دستهبندی متداولترین تجزیه و تحلیل دادهها قرار گیرد که از آن برای شناسایی روند، همبستگی و علت استفاده میشود. این دستهبندی را میتوان به مدلسازی پیشبینی شده و مدلسازی آماری تقسیم کرد. اما مهم است که بدانیم این دو واقعا همگام با هم کار میکنند.
بیایید نگاهی به یک تبلیغات در فیسبوک به عنوان مثال بیندازیم که برای محصولات پخته انجام میشود. مدلسازی آماری میتواند برای تعیین میزان هماهنگی نرخ تبدیل با یک منطقه جغرافیایی ، مخاطبان هدف، مقیاس درآمد و منافع استفاده شود. در همینجا مدلسازی پیشبینی نیز میتواند برای تجزیه و تحلیل آمار برای دو یا چند مخاطب مختلف هدف مورد استفاده قرار گیرد و مقادیر درآمد احتمالی برای هر جمعیت را برای شما مشخص کند.
۲- تجزیه و تحلیل توصیفی دادهها
تجزیه و تحلیل توصیفی دادهها جایی است که بیگ دیتا و AI در کنار هم برای کمک به پیشبینی نتایج و اقدام انجام شده قرار میگیرند. این دستهبندی از تجزیه و تحلیل را میتوان بیشتر به بهینهسازی و آزمایش تصادفی تعبیر کرد. با استفاده از پیشرفتها در یادگیری ماشین یا همان Machine learning، تجزیه و تحلیل توصیفی میتواند به پاسخ سوالاتی مانند «اگر این را امتحان کنیم چه میشود؟» و «بهترین عمل چیست؟» بدون صرف زمان در انجام آزمایش برای هر متغیر پاسخ دهد.
اساسا این تجزیه و تحلیل میتواند به شما کمک کند تا متغیرهای مناسب را آزمایش کنید و حتی به شما متغیرهای جدید برای تولید نتیجه مثبت بیشتر پیشنهاد میدهد.
۳- تجزیه و تحلیل تشخیصی دادهها
در حالیکه تجزیه و تحلیل دادههای گذشته مانند تجزیه و تحلیل دادههای آینده جذاب نیست اما یکی از اهداف مهم در هدایت کسبوکار است. تجزیه و تحلیل دادههای تشخیصی فرآیند بررسی دادهها برای درک دلیل و رویداد است و اینکه چرا چنین چیزی اتفاق افتاده است. تکنیکهایی مانند حفاری، کشف دادهها، داده کاوی و همبستگیها اغلب در این نوع تجزیه و تحلیل استفاده میشود.
به طور خاص تجزیه و تحلیل دادههای تشخیصی به ما کمک میکند که بفهمیم چرا یک اتفاق روی داده است. همانند سایر دستهبندیها این نوع تجزیه و تحلیل را نیز به دو دسته خاص تقسیم میکنیم که شامل دستهبندی کشف و هشدار و دستهبندی پرس و جو و حفاری است. پرس و جوها و حفاریها چیزی است که شما استفاده میکنید تا جزئیات بیشتری از یک گزارش بدست آورید. به عنوان مثال، در نظر بگیرید که یکی از بازخوردهای فروش شما در ماه گذشته به طور قابل توجهی کاهش یافته است. یک حفاری میتواند روزهای کاری کمتر را نشان دهد مثلا نشان دهد که ماهانه تعطیلات دو هفتهای را برای توضیح شیب استفاده کردهاند.
کشف و هشدار نیز میتواند برای اطلاع از یک مسئله بالقوه از قبل مورد استفاده قرار گیرد، و از قبل درمورد مسئلهای که میتواند منجر به فروپاشی در یک معامله برای شما شود هشدار دهد.
شما همچنین میتوانید از تجزیه و تحلیل دادههای تشخیصی برای کشف اطلاعاتی نظیر بهترین نامزد برای موقعیت جدید شرکت استفاده کنید.
۴- تجزیه و تحلیل توصیفی دادهها
تجزیه و تحلیل توصیفی مانند ستون فقرات یک گزارش است. بدون آن ممکن نیست که بتوانید ابزار BI و داشبورد را داشته باشید. این نوع تجزیه و تحلیل به شما پاسخ سوالات اساسی چه تعداد؟ چه وقت؟ کجا؟ و چه چیزی؟ را میدهد. این نوع تجزیه و تحلیل را نیز میتوان به دو دسته تقسیم کرد: گزارشهای متفرقه و گزارشهای نگهداری شده. گزارشهای نگهداری شده یا به اصطلاح کنسرو شده از قبل طراحی شده است و حاوی اطلاعات درمورد یک موضوع خاص میباشد.
دیدگاهتان را بنویسید
You must be logged in to post a comment.