مبتنی بر شواهد تجربی – داده کاوی

فهرست مطالب

داده‌کاوی راهکاری است مبتنی بر توانایی‌های کامپیوتر و ماشین که برای مطالعه داده‌ها، استخراج ساختار، یافتن الگوها و روندهای پنهان در داده‌ها استفاده می‌شود. داده‌کاوی به کمک الگوها می‌تواند مدل‌هایی برای توصیف و شناسایی، پیش‎بینی، طبقه‌بندی، تخمین، گروه‌بندی علت و معلولی و خوشه‌بندی داده‌ها توسعه دهد. کاربرد داده‌کاوی در حوزه‌های مختلف علوم از جمله علوم انسانی و اجتماعی که نیاز به تحلیل حجم بالایی از داده‌ها برای کشف روندها دارند رو به افزایش است.

ریشۀ داده‌کاوی به سه حوزۀ علم آمار، هوش مصنوعی و یادگیری ماشین مربوط می‌شود. مفاهیمی از آمار کلاسیک مانند تحلیل رگرسیونی، توزیع استاندارد، تحلیل ممیزی، تحلیل خوشه‌ای و فواصل اطمینان به‌منظور مطالعه داده‌ها و روابط بین آن‌ها به کار گرفته می‌شود و در روش‌ها و ابزارهای داده‌کاوی امروز نقش معناداری دارند. زمانی که تعداد متغیرها از تعداد مشاهدات بیشتر شود، برخلاف برخی روش‌های داده‌کاوی، مدل‌های آماری مانند مدل رگرسیونی توانایی تحلیل آن‌ها را از دست می‌دهند. روش‌های مرسوم آماری با اینکه قابلیت پیش‌بینی را نیز فراهم می‌کنند، اما کاستی‌های قابل‌توجهی در تحلیل حجم وسیعی از داده‌ها دارند. حوزۀ دومی که داده‌کاوی از آن بهره می‌گیرد، هوش مصنوعی است که از حدود سال 1980 پیاده‌سازی آن عملی شد. هوش مصنوعی بر اساس روش‌های ابتکاری سعی دارد که فرآیندی شبیه به سیستم تعقل انسان را برای مسائل آماری به کار گیرد. یادگیری ماشین در دهه‌های 80 و 90 میلادی به‌دلیل ارزانی به‌کارگیری در مقایسه با هوش مصنوعی اوج بیش‌تری گرفت و می‌توان آن را سیر تکاملی هوش مصنوعی در نظر گرفت. زیرا این رهیافت روش‌های ابتکاری هوش مصنوعی را با تحلیل‌های آماری ترکیب می‌کند.

داده‌کاوی با بهره‌گیری از هوش مصنوعی و یادگیری ماشین نه‌تنها بر محدودیت‌های روش‌های آماری کلاسیک فائق آمده است، بلکه برخی از محدودیت‌های انسانی را نیز مرتفع ساخته است. انسان در مواجه شدن با انبوهی از داده‌ها، صدها متغیر و هزاران مشاهده قدرت تحلیل آماری آن‌ها را به‌صورت یکپارچه ندارد. همچنین انسان می‌تواند تخمین‌گرهای متفاوتی را با تحلیل‌های آماری برآورد کند، اما هیچ انسانی توانایی برآورد تعداد بسیار زیادی از تخمین‌گر‌ها را با استفاده از روش‌های مرسوم ندارد. در این موارد داده‌کاوی با تحلیل خودکار داده‌ها به‌صورت یکپارچه کمکی شایان به انسان کرده است.

در یک تعریف جامع از داده‌کاوی می‌توان آن را فرآیند جست‌وجوی مدل‌های گوناگون مختصر شده و مقادیر مشتق شده از یک مجموعه داده است. توجه به کلمه فرآیند در این تعریف مهم است. مجموعه داده‌ها صرفاً شامل انتخاب و به‌کارگیری ابزار بر مبنای کامپیوتر، برای حل مسائل فعلی و به دست آوردن راه‌حلی به‌صورت خودکار نیست. یک مطالعه داده‌ای استفاده از برخی فن‌های تحلیلی را بررسی می‌کند و برای بررسی روش دیگر، تصمیم‌گیری می‌کند. سپس، از ابتدا شروع می‌کند و ابراز تحلیل داده دیگری را برای رسیدن به نتایج بهتر و متفاوت به کار می‌برد. این فرآیند می‌تواند بارها و بارها تکرار شود. هر فن برای حل مسئله در جهت بررسی جنبه‌های متفاوت داده و اکتشاف روابط بین آن‌ها استفاده می‌شود.

فرآیند داده‌کاوی تصادفی نیست، بلکه در یک فرآیند تصمیم‌گیری به‌دقت برنامه‌ریزی‌شده و هدفمند انجام می‌شود. این فرآیند خودکار نیست و نیازمند دخالت پژوهشگر در هر مرحله از فرآیند است. حتی بعد از توسعۀ مدل، برای معرفی دادۀ جدید، غالبا به به‌روزرسانی مبدل نیاز دارد. داده‌کاوی به‌طور خودکار راه‌حل‌ها را کشف نخواهد کرد. نظارت بر کیفیت و ارزیابی نتایج توسط انسان پی‌درپی لازم است. لازم است که پژوهشگر درک کامل از داده‌ها و روش‌های تحلیل داشته باشد و دانش‌ دربارۀ مسئله پژوهش و فهم تحلیل را ترکیب کند.

دو هدف اساسی از داده‌کاوی، شامل پیش‌بینی و توصیف است. پیش‌بینی به معنای به‌کارگیری برخی از متغیرها در مجموعۀ داده‌ها برای درک مقادیر مجهول و نهایی است. توصیف بر یافتن الگوهایی که توسط انسان قابل تفسیر باشد تأکید دارد؛ بنابراین می‌توان فعالیت‌های داده‌کاوی را در دو گروه طبقه‌بندی کرد. داده‌کاوی پیش‌گویانه مدلی از سیستم توصیف‌شده توسط مجموعه داده‌های مشخص را ارائه می‌دهد که می‌توان از آن برای طبقه‌بندی، پیش‌بینی و ارزیابی دیگر اعمال مشابه استفاده کرد. داده‌کاوی توصیفی که اطلاعات جدید و کلی را براساس مجموعه داده‌های موجود ارائه می‌کند. به این ترتیب، شناختی از سیستم‌های تجزیه‌وتحلیل شده توسط الگوها و روابط آشکار در مجموعه داده‌های بزرگ را ارائه می‌دهد.

دو روش کلی در داده‌کاوی عبارت‌اند از یادگیری نظارت‌شده[1]و یادگیری نظارت‌نشده[2]. در یادگیری نظارت‌شده، ابتدا تعدادی داده ورودی همراه با داده‌های خروجی نظیر آن‌ها به عنوان نمونه داده می‌شود. این داده‌های جفت‌شده نمونه‌ای از یک الگوی صحیح را نشان می‌دهند که با ساختن تابعی از روی آن‌ها و تعمیم آن تابع در مورد داده‌های دیگر می‌توان الگوی مورد نظر را در حجم وسیعی از داده‌ها پیدا کرد. اما در یادگیری نظارت‌نشده هیچ نمونه اولیه‌ای داده نمی‌شود و در نتیجه الگوی موجود در داده‌ها باید در طول فرایند کشف شود. برای مثال در تحلیل خوشه‌ای، تعدادی داده با ویژگی‌های مشخص موجودند اما بر اساس این ویژگی‌ها گروه‌بندی نشده‌اند. وظیفه یادگیری ماشین کشف داده‌های نزدیک به هم (بر اساس ویژگی‌هایشان) و گروه‌بندی آن‌هاست.

علی‌رغم تمامی مزایای ذکرشده، داده‌کاوی معایبی نیز دارد. داده‌کاوی روشی کاهش‌یافته[3] است. ابزار و روش‌های کاهش‌یافته متفاوت با ابزار و روش‌های ساختاری[4]، به تعامل میان داده‌ها نمی‌پردازند و فقط مقادیر ورودی و خروجی برای آن‌ها حائز اهمیت است. لذا در برخی موارد نمی‌توان بر مبنای خروجی آن‌ها تصمیم‌گیری کرد یا نتیجه‌ای خاص گرفت. لازمۀ استفاده از این ابزارها، بهره‌مندی از شواهدی در جهان واقعی و نیازمند شناسایی علت‌ها توسط انسان است. همچنین جمع‌آوری داده‌های مورد نیاز برای تحلیل داده‌کاوی هزینه‌‌بر بوده و موانعی زیادی برای دسترسی به برخی از آن‌ها وجود دارد. بعضا داده‌های جمع‌آوری‌شده برای داده‌کاوی نیازمند سیستم‌هایی با توان پردازشی بالا و هزینه‌های بالای راه‌اندازی است.

منابع برای مطالعه بیشتر

.Attewell, P., Monaghan, D., & Kwong, D. (2015). Data mining for the social sciences: An introduction. Univ of California Press

Zaki, M. J., Meira Jr, W., & Meira, W. (2014). Data mining and analysis: fundamental concepts and algorithms. Cambridge .University Press

[1] Supervised Learning

[2] Unsupervised Learning

[3] Reduced Form

[4] مدل‌سازی کاهش‌یافته صرفا به متغیرهای خروجی و ورودی توجه می‌کند، در حالی که نحوه تعامل داده‌های ورودی با یکدیگر از اهمیت بیشتری برای ابزارهای ساختاری برخوردارند. برخلاف مدل‌سازی کاهش‌یافته، مدل‌سازی ساختاری به صورت تئوری به دنبال روابط بین متغیرها می‌گردد و اثرهای مستقیم و غیر مستقیم آن‌ها را بر هم بررسی می‌کند.

فهرست مطالب

به اشتراک بگذارید