داده کاوی

فهرست مطالب

زمان مطالعه: 4 دقیقه

مقدمه

داده‌کاوی1 یکی از شاخه‌های مهم علم داده است که به کمک توانایی‌های محاسباتی و الگوریتم‌های هوشمند به تحلیل حجم وسیعی از داده‌ها می‌پردازد. این روش با هدف استخراج الگوهای پنهان، شناسایی روندها، و ایجاد مدل‌های پیش‌بینی برای توصیف رفتار داده‌ها به کار گرفته می‌شود. داده‌کاوی نه تنها در علوم فنی مانند مهندسی و ریاضیات کاربرد دارد، بلکه در حوزه‌های علوم انسانی و اجتماعی نیز نقش مهمی ایفا می‌کند. در این حوزه‌ها، تحلیل داده‌های بزرگ برای کشف روابط پیچیده و پنهان، اهمیت فزاینده‌ای یافته است.

این حوزه از سه علم اصلی آمار، هوش مصنوعی و یادگیری ماشین بهره می‌برد. روش‌های آماری به‌عنوان پایه‌گذار تحلیل داده‌ها، همچنان نقش مهمی در داده‌کاوی دارند؛ اما با ظهور هوش مصنوعی و یادگیری ماشین، داده‌کاوی توانسته است فراتر از محدودیت‌های روش‌های سنتی برود. این ابزارها قابلیت تحلیل داده‌های پیچیده‌تر و کشف روابط غیرمستقیم را فراهم می‌آورند. در این میان، یادگیری ماشین به‌ویژه در توسعه مدل‌های پیش‌بینی و خوشه‌بندی به‌طور گسترده‌ای مورد استفاده قرار گرفته است.

با رشد داده‌ها در دنیای امروز، داده‌کاوی به یکی از ابزارهای ضروری برای تحلیل و تفسیر اطلاعات تبدیل شده است. این فرآیند با ارائه بینش‌های جدید، کمک می‌کند تا تصمیم‌گیری‌ها دقیق‌تر و مبتنی بر داده‌های واقعی صورت گیرد و در نهایت درک بهتری از رفتار سیستم‌ها و کاربران حاصل شود.

ریشه‌های داده‌کاوی: آمار، هوش مصنوعی و یادگیری ماشین

ریشۀ داده‌کاوی به سه حوزۀ علم آمار، هوش مصنوعی و یادگیری ماشین مربوط می‌شود. مفاهیمی از آمار کلاسیک مانند تحلیل رگرسیونی، توزیع استاندارد، تحلیل ممیزی، تحلیل خوشه‌ای و فواصل اطمینان به‌منظور مطالعه داده‌ها و روابط بین آن‌ها به کار گرفته می‌شود و در روش‌ها و ابزارهای داده‌کاوی امروز نقش معناداری دارند. زمانی که تعداد متغیرها از تعداد مشاهدات بیشتر شود، برخلاف برخی روش‌های داده‌کاوی، مدل‌های آماری مانند مدل رگرسیونی توانایی تحلیل آن‌ها را از دست می‌دهند. روش‌های مرسوم آماری با اینکه قابلیت پیش‌بینی را نیز فراهم می‌کنند، اما کاستی‌های قابل‌توجهی در تحلیل حجم وسیعی از داده‌ها دارند. حوزۀ دومی که داده‌کاوی از آن بهره می‌گیرد، هوش مصنوعی است که از حدود سال 1980 پیاده‌سازی آن عملی شد. هوش مصنوعی بر اساس روش‌های ابتکاری سعی دارد که فرآیندی شبیه به سیستم تعقل انسان را برای مسائل آماری به کار گیرد. یادگیری ماشین در دهه‌های 80 و 90 میلادی به‌دلیل ارزانی به‌کارگیری در مقایسه با هوش مصنوعی اوج بیش‌تری گرفت و می‌توان آن را سیر تکاملی هوش مصنوعی در نظر گرفت. زیرا این رهیافت روش‌های ابتکاری هوش مصنوعی را با تحلیل‌های آماری ترکیب می‌کند.

داده‌کاوی با بهره‌گیری از هوش مصنوعی و یادگیری ماشین نه‌تنها بر محدودیت‌های روش‌های آماری کلاسیک فائق آمده است، بلکه برخی از محدودیت‌های انسانی را نیز مرتفع ساخته است. انسان در مواجه شدن با انبوهی از داده‌ها، صدها متغیر و هزاران مشاهده قدرت تحلیل آماری آن‌ها را به‌صورت یکپارچه ندارد. همچنین انسان می‌تواند تخمین‌گرهای متفاوتی را با تحلیل‌های آماری برآورد کند، اما هیچ انسانی توانایی برآورد تعداد بسیار زیادی از تخمین‌گر‌ها را با استفاده از روش‌های مرسوم ندارد. در این موارد داده‌کاوی با تحلیل خودکار داده‌ها به‌صورت یکپارچه کمکی شایان به انسان کرده است.

در یک تعریف جامع از داده‌کاوی می‌توان آن را فرآیند جست‌وجوی مدل‌های گوناگون مختصر شده و مقادیر مشتق شده از یک مجموعه داده است. توجه به کلمه فرآیند در این تعریف مهم است. مجموعه داده‌ها صرفاً شامل انتخاب و به‌کارگیری ابزار بر مبنای کامپیوتر، برای حل مسائل فعلی و به دست آوردن راه‌حلی به‌صورت خودکار نیست. یک مطالعه داده‌ای استفاده از برخی فن‌های تحلیلی را بررسی می‌کند و برای بررسی روش دیگر، تصمیم‌گیری می‌کند. سپس، از ابتدا شروع می‌کند و ابراز تحلیل داده دیگری را برای رسیدن به نتایج بهتر و متفاوت به کار می‌برد. این فرآیند می‌تواند بارها و بارها تکرار شود. هر فن برای حل مسئله در جهت بررسی جنبه‌های متفاوت داده و اکتشاف روابط بین آن‌ها استفاده می‌شود.

فرآیند داده‌کاوی تصادفی نیست، بلکه در یک فرآیند تصمیم‌گیری به‌دقت برنامه‌ریزی‌شده و هدفمند انجام می‌شود. این فرآیند خودکار نیست و نیازمند دخالت پژوهشگر در هر مرحله از فرآیند است. حتی بعد از توسعۀ مدل، برای معرفی دادۀ جدید، غالبا به به‌روزرسانی مبدل نیاز دارد. داده‌کاوی به‌طور خودکار راه‌حل‌ها را کشف نخواهد کرد. نظارت بر کیفیت و ارزیابی نتایج توسط انسان پی‌درپی لازم است. لازم است که پژوهشگر درک کامل از داده‌ها و روش‌های تحلیل داشته باشد و دانش‌ دربارۀ مسئله پژوهش و فهم تحلیل را ترکیب کند.

مزایای داده‌کاوی در تحلیل داده‌های بزرگ

دو هدف اساسی از داده‌کاوی، شامل پیش‌بینی و توصیف است. پیش‌بینی به معنای به‌کارگیری برخی از متغیرها در مجموعۀ داده‌ها برای درک مقادیر مجهول و نهایی است. توصیف بر یافتن الگوهایی که توسط انسان قابل تفسیر باشد تأکید دارد؛ بنابراین می‌توان فعالیت‌های داده‌کاوی را در دو گروه طبقه‌بندی کرد. داده‌کاوی پیش‌گویانه مدلی از سیستم توصیف‌شده توسط مجموعه داده‌های مشخص را ارائه می‌دهد که می‌توان از آن برای طبقه‌بندی، پیش‌بینی و ارزیابی دیگر اعمال مشابه استفاده کرد. داده‌کاوی توصیفی که اطلاعات جدید و کلی را براساس مجموعه داده‌های موجود ارائه می‌کند. به این ترتیب، شناختی از سیستم‌های تجزیه‌وتحلیل شده توسط الگوها و روابط آشکار در مجموعه داده‌های بزرگ را ارائه می‌دهد.

روش‌های داده‌کاوی: یادگیری نظارت‌شده و نظارت‌نشده

دو روش کلی در داده‌کاوی عبارت‌اند از یادگیری نظارت‌شده2 و یادگیری نظارت‌نشده3. در یادگیری نظارت‌شده، ابتدا تعدادی داده ورودی همراه با داده‌های خروجی نظیر آن‌ها به عنوان نمونه داده می‌شود. این داده‌های جفت‌شده نمونه‌ای از یک الگوی صحیح را نشان می‌دهند که با ساختن تابعی از روی آن‌ها و تعمیم آن تابع در مورد داده‌های دیگر می‌توان الگوی مورد نظر را در حجم وسیعی از داده‌ها پیدا کرد. اما در یادگیری نظارت‌نشده هیچ نمونه اولیه‌ای داده نمی‌شود و در نتیجه الگوی موجود در داده‌ها باید در طول فرایند کشف شود. برای مثال در تحلیل خوشه‌ای، تعدادی داده با ویژگی‌های مشخص موجودند اما بر اساس این ویژگی‌ها گروه‌بندی نشده‌اند. وظیفه یادگیری ماشین کشف داده‌های نزدیک به هم (بر اساس ویژگی‌هایشان) و گروه‌بندی آن‌هاست.

چالش‌ها و محدودیت‌های داده‌کاوی

علی‌رغم تمامی مزایای ذکرشده، داده‌کاوی معایبی نیز دارد. داده‌کاوی روشی تقلیل‌یافته4 است. ابزار و روش‌های کاهش‌یافته متفاوت با ابزار و روش‌های ساختاری، به تعامل میان داده‌ها نمی‌پردازند و فقط مقادیر ورودی و خروجی برای آن‌ها حائز اهمیت است. لذا در برخی موارد نمی‌توان بر مبنای خروجی آن‌ها تصمیم‌گیری کرد یا نتیجه‌ای خاص گرفت. لازمۀ استفاده از این ابزارها، بهره‌مندی از شواهدی در جهان واقعی و نیازمند شناسایی علت‌ها توسط انسان است. همچنین جمع‌آوری داده‌های مورد نیاز برای تحلیل داده‌کاوی هزینه‌‌بر بوده و موانعی زیادی برای دسترسی به برخی از آن‌ها وجود دارد. بعضا داده‌های جمع‌آوری‌شده برای داده‌کاوی نیازمند سیستم‌هایی با توان پردازشی بالا و هزینه‌های بالای راه‌اندازی است.


منابع برای مطالعه بیشتر

.Attewell, P., Monaghan, D., & Kwong, D. (2015). Data mining for the social sciences: An introduction. Univ of California Press

Zaki, M. J., Meira Jr, W., & Meira, W. (2014). Data mining and analysis: fundamental concepts and algorithms. Cambridge .University Press


پاورقی

  1. Data Mining ↩︎
  2. Supervised Learning ↩︎
  3. Unsupervised Learning ↩︎
  4. Reduced Form: مدل‌سازی تقلیل یافته صرفا به متغیرهای خروجی و ورودی توجه می‌کند، در حالی که نحوه تعامل داده‌های ورودی با یکدیگر از اهمیت بیشتری برای ابزارهای ساختاری برخوردارند. برخلاف مدل‌سازی کاهش‌یافته، مدل‌سازی ساختاری به صورت تئوری به دنبال روابط بین متغیرها می‌گردد و اثرهای مستقیم و غیر مستقیم آن‌ها را بر هم بررسی می‌کند. ↩︎

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

مطالب پیشنهادی

ادامه مطلب
image
image-1
ادامه مطلب

فهرست مطالب

به اشتراک بگذارید