صفحه محصول - مبانی نظری و پیشینه تحقیق داده کاوی 8

مبانی نظری و پیشینه تحقیق داده کاوی 8 (docx) 1 صفحه


دسته بندی : تحقیق

نوع فایل : Word (.docx) ( قابل ویرایش و آماده پرینت )

تعداد صفحات: 1 صفحه

قسمتی از متن Word (.docx) :

دانشکده آموزشهای الکترونیکی پايان ‌نامه كارشناسي ارشد در رشته مهندسی فناوری اطلاعات (تجارت الکترونیک) بهینه سازی خرید دارو با استفاده از دادهکاوی به کوشش محمد مهدی تورنجی استاد راهنما: دکتر رضا بوستانی به نام خدا به نام خدا بهینه سازی خرید دارو با استفاده از داده کاوی به وسیلهی : محمد مهدی تورنجی پایان نامه ارائه شده به تحصیلات تکمیلی دانشگاه به عنوان بخشی از فعالیتهای تحصیلی لازم برای اخذ درجه کارشناسی ارشد در رشته‌ی: مهندسی فناوری اطلاعات – تجارت الکترونیک از دانشگاه شیراز شیراز جمهوری اسلامی ایران ارزیابی شده توسط کمیته پایاننامه با درجه : دکتر .....................، استادیار بخش ..........................(رئیس کمیته) ............................... دکتر .....................، استادیار بخش ..................................................................................... دکتر ....................، استادیار بخش ...................................................................................... تقدیم به آنان که به من آموختتند و تقدیم به خانواده و همسرم که با شکیبایی و مهربانی در کنارم بودند... سپاسگزاری اکنون که این پایان‌نامه به پایان رسیده است بر خود لازم می‌دانم تا از زحمات بی‌دریغ استاد بزرگوارم جناب آقای دکتر رضا بوستانی که از آغاز تا پایان کار با راهنمایی‌های ارزشمند خود زمینه ساز پیشرفت پایان‌نامه شدند و در این راه زحمات فراوانی را بر دوش گرفتند، نهایت سپاس و قدردانی را داشته باشم. همچنین از استاد بزرگوار، جناب آقای دکتر سید محمد رضا موسوی که به عنوان استاد مشاور در این پژوهش بنده را همراهی کردند سپاسگزارم. صمیمانه از همراهی و همکاری دوستان و همکارانم در واحد فناوری اطلاعات بیمارستان پاستور و همچنین جناب آقای مهندس کلانی، خانم مهندس منصوره رضایی، خانم دکتر پریسا ایزدی، آقای دکتر حمید رضا صدیقی کمال تشکر و قدرانی را دارم. چکیده بهینه سازی خرید دارو با استفاده از داده کاوی به کوشش محمد مهدی تورنجی توسعهی استفاده از فناوری اطلاعات در بهداشت و درمان علاوه بر مزایای فراوان باعث می شود تا حجم زیادی از دادههای مرتبط، در دسترس قرار بگیرند. با بکارگیری داده کاوی بر روی داده های موجود می توان تصمیم گیریها و فرایندهای مدیریتی را بهبود بخشید. در این پایان نامه تلاش شده است ضمن بررسی الگوریتمهای مختلف داده کاوی مدلی جهت پیش بینی مصرف دارو در داروخانههای بیمارستانها ارائه گردد. مجموعه داده در نظر گرفته شده مربوط به سیستم اطلاعات بیمارستان پاستور شهرستان بم می باشد که در مدت 5 سال در پایگاه داده سیستم اطلاعات این بیمارستان ذخیره شده است. برای پیش بینی مصرف دارو عملکرد مدلهای MLP، SVR، ADABOOST.R، BAGTREE، LR، LSSVR مورد بررسی قرار می گیرد. دقت پیش بینی بر اساس معیارها MSE ,RMSE ,MAE وR2 ارزیابی می گردد. طبق نتایج بدست آمده عملکرد مدل BAGTREE در روش های مختلف بهتر از سایر مدل ها بوده است. واژگان کلیدی : سیستم های اطلاعات بیمارستان، پیش بینی، خرید دارو، داروخانه فهرست مطالبعنوان صفحه TOC \o "1-2" \h \z \t "Heading 3,3,Heading 4,4,Heading 5,5,سطح 4,4" 1-1- داده کاوی PAGEREF _Toc522524434 \h 9فصل 2- پیشینه پژوهشی PAGEREF _Toc522524435 \h 132-1- داده کاوی PAGEREF _Toc522524436 \h 132-2- مراحل داده کاوی PAGEREF _Toc522524437 \h 142-3- وظایف داده کاوی PAGEREF _Toc522524438 \h 192-4- كاربرد هاي داده كاوي PAGEREF _Toc522524439 \h 232-5- رویکردهاي مسائل داده کاوي در پزشکی PAGEREF _Toc522524440 \h 252-6- مدلها و الگوريتمهای داده کاوی PAGEREF _Toc522524441 \h 262-7- نرم افزارهای داده کاوی PAGEREF _Toc522524442 \h 392-8- فرایند خرید دارو PAGEREF _Toc522524443 \h 402-9- جمع بندی PAGEREF _Toc522524444 \h 41 داده کاوی داده کاوی چیست؟ داده کاوی به بررسی و تجزیه و تحلیل مقادیر عظیمی از داده ها به منظور کشف الگوها و قوانین معنی دار اطلاق میشود.[5] کشف دانش و داده کاوی امروزه یک حوزه جدید میان رشته ای و در حال رشد است که حوزه های مختلفی همچون پایگاه داده، آمار، یادگیری ماشین و سایر زمینه های مرتبط را با هم تلفیق کرده تا اطلاعات و دانش ارزشمند نهفته در حجم بزرگی از دادهها را استخراج نماید و استفاده از آن در دو دهه اخیر تقریبا در جهان در همه سازمانها که با حجم عظیمی از داده در پایگاه داده خود مواجه هستند، رواج یافته است [6]. شناسایی مشکالت کاوش و یا برآورد وابستگیها از داده ها یا کلاً کاوش داده های جدید تنها قسمتی ازشیوههای تجربی مورد استفاده دانشمندان، مهندسین و دیگر کسانی است که روشهای استانداردی را برای کسب نتایج داده ها به کار می برند. درتطبیق روشهای تجربی معمول با مسائل داده کاوی میتوان به مراحل بیان مسأله و فرموله کردن فرضیه، جمع آوری دادهها، پیش پردازش دادهها شامل آشکارسازی و حذف دادههای غیر عادی و مقیاس بندی،رمزگذاری و انتخاب، برآورد و ارزیابی مدل و در نهایت تفسیر مدل ورسیدن به نتایج اشاره نمود [7]. تكنیك های مختلف داده كاوی تكنیكهای مختلف داده كاوی را میتوان بر اساس نوع عملیاتی كه انجام میدهند به دو دسته « پیش بینی كننده » و « تشریح كننده » تقسیم كرد. تكنیكهای پیش بینی كننده با ساخت مدلی برای پایگاه داده، وظیفه پیش بینی موارد ناشناخته را بر عهده دارند. در حالی كه تكنیكهای تشریح كننده ، الگوهایی قابل فهم از داده ها را برای انسان كشف می كنند [8].در بین این الگوریتمها و مدلها، بهترین وجود ندارد و با توجه به دادهها و کارایی مورد نظر باید مدل انتخاب گردد. 1-3-2-1-انواع تکنیک داده کاوی [9] قواعد انجمنی : قوانین انجمنی در دسته تکنیک های تشریح کننده قرار می گیرد و به پیدا كردن وابستگیها و همبستگیهای موجود در بین داده ها، یافتن الگوهایی كه غالبا در بین دادهها وجود دارند و همچنین پیدا كردن یك سری ساختار سببی در بین آیتمها و اشیای موجود در پایگاه دادههای تعاملی و رابطهای اشاره كرد. پیش بینی : دراین روش هدف، پیش بینی یک متغیر پیوسته می باشد. مانند پیش بینی نرخ ارز یا هزینه های درمانی. اینجا ﻣﻘـﺎﺩﻳﺮ ﻣﻤﻜـﻦ ﺑـﺮﺍﻱ ﻣﺘﻐﻴﺮﻫﺎﻱ ﻧﺎﻣﻌﻠﻮﻡ ﭘﻴﺶ ﺑﻴﻨﻲ ﻣﻲ ﺷﻮﻧﺪ. ﺩﺭ پیش بینی ﺍﺑﺘﺪﺍ ﺩﺍﺩﻩ ﻫﺎﻳﻲ ﻛﻪ ﺑﻪ ﻣﺘﻐﻴﺮ ﻧـﺎﻣﻌﻠﻮﻡ ﻣﺮﺑـﻮﻁ ﻫﺴﺘﻨﺪ ﺑﻮﺳﻴﻠﻪ ﻱ ﺑﺮﺧﻲ ﺗﺤﻠﻴﻞ ﻫﺎﻱ ﺁﻣﺎﺭﻱ ﭘﻴﺪﺍ ﻣﻲ ﺷﻮﻧﺪ. ﺳـﭙﺲ ﺍﺯ ﺑﺮﺧـﻲ ﺭﻭﺵ ﻫـﺎﻱ ﻫﻮﺷـﻤﻨﺪ ﻣﺎﻧﻨﺪ ﺷﺒﻜﻪ ﻫﺎﻱ ﻋﺼﺒﻲ ﻭ ﺍﻟﮕﻮﺭﻳﺘﻢ ﮊﻧﺘﻴﻚ ﺑﺮﺍﻱ ﺍﻧﺠﺎﻡ ﭘﻴش بینی ﺍﺳﺘﻔﺎﺩﻩ ﻣﻲ ﺷﻮﺩ. رده بندی یا طبقه بندی : فرآیندی برای پیدا کردن مدلی است که رده های موجود در داده‌ها را تعریف می نماید و متمایز می کند، با این هدف که بتوان از این مدل برای پیش بینی رده رکوردهایی که برچسب رده آنها (متغیر هدف) ناشناخته می باشد، استفاده نمود. در رده بندی بر خلاف پیش بینی، هدف پیش بینی مقدار یک متغیر گسسته است. روش های مورد استفاده در پیش بینی و رده بندی عموما یکسان هستند. و در دسته تکنیک های پیش بینی کننده قرار می گیرند. خوشه بندی : گروه بندی مجموعه ای از اعضاء، رکوردها یا اشیاء به نحوی که اعضای موجود در یک خوشه بیشترین شباهت را به یکدیگر و کمترین شباهت را به اعضای خوشه های دیگر داشته باشند. در این پایان نامه جهت پیش بینی مصرف دارو از تکنیک های پیش بینی استفاده می شود و با بررسی الگوریتمهای مختلف این تکنیک تلاش می شود مدلی مناسب جهت پیش بینی مصرف دارو در داروخانههای بیمارستانهای ایران معرفی گردد. همچنین از داده‌های واقعی بیمارستان پاستور شهر تاریخی بم که در پایگاه داده SQL SERVER سیستم اطلاعات بیمارستان با حجمی در حدود GB220 و در مدت 5 سال ذخیره شدهاند جهت استفاده در مدل‌ها و تکینیک های داده‌کاوی استفاده خواهد شد. فصل دوم پیشینه پژوهشی پیشینه پژوهشی داده کاوی بکارگیری فناوری اطلاعات در انجام امور روزمره باعث شده است تا حجم زیادی از داده های مربوط به مبادلات تجاری ، داده های پزشکی ، داده های صنعتی و ... ایجاد شوند. داده کاوی فرایندی است که توسط آن می توان از داده های موجود اطلاعات و دانش مفیدی را کشف کرد که بطور معمول در این داده های مخفی هستند و برای ما قابل درک نیستند. ﻫﺪف اﺻﻠﻲ داده ﻛﺎوي ﻛﺸﻒ اﻃﻼﻋﺎﺗﻲ اﺳﺖ ﻛﻪ ﺗﺎ ﻛﻨﻮن دﻳﺪه ﻧﺸﺪه و ﻣﺨﻔﻲ ﺑﻮدهاند . داده کاوی یک علم میان رشته ای نسبتا جدید می باشد. که شامل رشته هایی همچون آمار ، یادگیری ماشین و علوم کامپیوتر می باشد. مهم ترین این رشته ها آمار می باشد و بدون آمار، اساساً داده کاوی وجود نخواهد داشت به طوری که اساس اکثر تکنیک هایی می باشد که داده کاوی بر روی آنها بنا شده است. آمار کلاسیک مفاهیمی همچون تحلیل رگرسیون، توزیع استاندارد، انحراف معیار، واریانس، تحلیل خوشه ای و فاصله های اطمینان را که برای مطالعه داده و روابط بین داده ها نیاز می باشد را در بر می گیرد. برای داده کاوی تعاریف گوناگونی بیان شده است که در زیر به برخی از این تعاریف اشاره شده است[38-39-40] : داده کاوی یک فرآینده شناخت الگوهای معتبر، جدید، ذاتاً مفید و قابل فهم از داده ها می باشد. داده کاوی به فرآیند استخراج اطلاعات نهفته، قابل فهم، قابل پیگیری از پایگاه داده های بزرگ و استفاده از آن در تصمیم گیریهای تجاری مهم، اطلاق می شود. داده کاوی، مجموعه ای از روش ها در فرآیند کشف دانش می باشد که برای تشخیص الگوها و روابط نامعلوم در داده های مورد استفاده قرار می گیرد. فرآیند کشف الگوهای مفید از داده ها را داده کاوی می گویند. فرایند انتخاب، کاوش و مدل بندی داده های حجیم، جهت کشف روابط نهفته با هدف به دست آوردن نتایج واضح و مفید، برای مالک پایگاه داده ها را ، داده کاوی گویند. مراحل داده کاوی به طور کلی، داده کاوی به استخراج دانش از پایگاه های بزرگ داده ها اشاره دارد و یک رشته علمی جدید می باشد که امروزه کاربردهای متنوع و گسترده ای در رشته هایی مثل بازرگانی، پزشکی، مهندسی، علوم کامپیوتر، صنعت، کنترل کیفیت، ارتباطات، کشاورزی و ... پیدا کرده است. در پژوهش های مربوط به داده کاوی، دو تعبیر مختلف از داده کاوی وجود دارد. برخی پژوهشگران [40]، داده کاوی را مترادف عبارت کشف دانش و معرفت از پایگاه داده می دانند و برخی دیگر از جمله Fayyad [38] به داده کاوی به عنوان یک مرحله ضروری از فرآیند بزرگتر کشف دانش از پایگاه داده ها که به اختصارKDD می گویند اشاره دارند. KDD شامل مراحل زیر است: 1- پاكسازی داده ها: حذف داده های ناپایدار و مزاحم. 2- يکپارچه سازی داده ها : ترکیب منابع متعدد، پراکنده و احیاناً ناهمگن داده ها. 3-انتخاب داده ها : بازیابی داده های مربوط به عمل کاوش از پایگاه دادها. 4- تبديل داده ها : تبدیل داده ها به اشکالی مناسب برای به کار بردن روش های مختلف. 5- داده كاوی : مرحله ضروری از فرآیند KDD است که در آن از روش های مختلف آماری و یادگیری ماشین برای استخراج الگوها استفاده می شود، که شامل مراحل زیر است: الف- انتخاب استراتژی داده کاوی : رده بندی، خوشه بندی، پیش بینی، تعیین وابستگی. ب- انتخاب روش داده کاوی : شبکه های عصبی، درخت تصمیم، ماشین های بردار پشتیبان، تقویت کننده تطبیقی، توابع پیش بینی کننده خطی و غیر خطی. ج- داده کاوی و جستجو برای یافتن الگوی مناسب. 6- ارزيابی الگوها شناسایی الگوهای جذاب ارائه دانش، براساس معیارهای جذابیت. 7- ارائه دانش ارائه دانش استخراج شده با استفاده از تکنیک های نمایش اطلاعات. شکل 3-1 مراحل داده کاوی: 1.پاکسازی دادهها 2.یکپارچه سازی دادهها 3.انتخاب دادهها 4. تبدیل دادهها 5.تبدیل دادهها[40] در دیدگاه دیگر، داده کاوی به عنوان مجموعه ای از فرآیندها که از تعریف اهداف تا ارزیابی نتایج را در بر می گیرد، معرفی شده است. مراحل مختلف داده کاوی عبارتند از: الف- تعریف اهداف تحلیل ب- انتخاب و سازماندهی داده ها پ- تحلیل کاوشگرانه داده ها و انجام تبدیلات ت- مشخص کردن روش های آماری مورداستفاده در مرحله تحلیل ج- تحیلی داده ها بر اساس روش انتخابی چ- ارزیابی و مقایسه روش های مورداستفاده و انتخاب مدل نهایی برای تحلیل ح- تفسیر مدل حاصل و استفاده از آن در فرآیند تصمیم گیری. پیش پردازش داده ها کیفیت داده ها در استخراج نتایج مطلوب و اطلاعات حقیقی بسیار موثر هستند. پایگاه داده های بزرگ شامل داده های مزاحم، گمشده و ناایستا هستند. به همین جهت برای ارتقاء کیفیت داده ها، لازم است داده ها به صورت مراحل زیر پیش پردازش شوند: پاکسازی داده ها برای انجام یک داده کاوی مطلوب لازم است مقادیر گمشده جایگزین شوند، دادههای مزاحم شناسایی و به نحو مناسب با آنها برخورد و نا ایستایی ها اصلاح شوند. الف- مقادير گمشده: داده هایی هستند که به هر دلیلی در هنگام تحلیل داده ها در اختیار تحلیلگر قرار ندارند. در مورد مقادیر گمشده در داده ها بایستی به گونه ای مناسب تصمیم گیری شود به عنوان مثال ممکن است رکورد مربوطه حذف یا به جای آن یک مقدار ثابت، میانگین مقادیر صفت مورد نظر، میانگین نمونههای مشابه یا محتمل ترین مقدار جایگزین گردد. این جایگذاری ممکن است با استفاده از رگرسیون یا سایر روش های مدلسازی انجام شود. ب- داده های مزاحم: انحرافی تصادفی یا غیرتصادفی در یک متغیر اندازه گیری شده هستند، که به عنوان مثال می توانند نتیجه خطای اندازه گیری یا یک اثر پنهان باشند و باید علت وجود یک داده مزاحم به خوبی بررسی و در مورد آن تصمیم گیری شود. خوشه بندی و برازش یک تابع رگرسیونی به داده ها از جمله راه های هموارسازی داده ها هستند. ج- داده های ناپايدار: این گونه داده ها شامل تغییراتی بی قاعده هستند که تحلیل آنها را دچار مشکل می سازد. برخی از انواع این داده ها را می توان با تبدیل مناسب اصلاح کرد. یکپارچه سازی داده ها با توجه به اینکه دادهها از منابع مختلف جمع آوری می شوند، ممکن است دارای ناسازگاری هایی مانند تفاوت در مقیاس باشند یا خصیصههای مختلف به گونه ای با یکدیگر مرتبط باشند که برخی از آنها بر حسب تعدادی دیگر قابل حصول باشند. در این گونه موارد لازم است داده ها به گونه ای یکپارچه شوند که حتی الامکان دارای کمترین تفاوت باشند و از ورود خصائص مشابه یا تکراری در تحلیل داده ها پرهیز شود. برخی از خصائص زائد را می توان از طریق تحلیل همبستگی کشف کرد. همبستگی بین دو متغیر به این معنی است که می توان اطلاعات یکی را از دیگری به دست آورد و بنابراین حضور هر دوی این خصیصه ها لزومی ندارد. تبدیل دادهها گاهی برای خلاصه سازی یا بکارگیری روش های تحلیل داده ها، لازم است به یکی از روش های زیر، داده ها به شکلی مناسب تبدیل شوند: الف- هموارسازی : برای حذف افت و خیز شدید در داده ها از تکنیک های هموارسازی مانند خوشه بندی و رگرسیون استفاده می شود. ب-انبوهش: نوعی خالصه سازی است که با عملیات جبری بر روی برخی مقادیر و به دست آوردن مقادیر کلی تر اجرا می شوند. به عنوان مثال مقادیر فروش روزانه می توانند به صورت مقادیر ماهانه یا سالانه انباشته شوند. ج- تعمیم داده ها :با استفاده از سلسله مراتب مفاهیم، داده های ابتدایی یا سطح پایین مانند سن بوسیله مفاهیم سطح بالاتر مانند جوان، میانسال و کهنسال جایگزین می شوند. د- نرمال سازی داده ها :داده ها به یک نحوی مقیاس بندی می شوند که در داخل یک محدوده مشخص و کوچک قرار گیرند. تلخیص داده ها برای کاهش دادهها از تکنیک هایی مانند کاهش بعد، فشرده سازی و مجزاسازی داده استفاده می شود . وظایف داده کاوی داده کاوی با همه عظمت و بزرگی خود که امروزه در تمامی موضوعات جهان ورود پیدا کرده است شامل شش عمل و وظیفه مهم است که میتوان بسیاری از مسائل محیط اطراف خود را در قالب یکی از این شش عمل و وظیفه زیر گنجاند [5] : دسته بندی تخمین پیش بینی گروه بندی شباهت خوشه بندی توصیف و نمایه سازی دسته بندی، تخمین و پیش بینی همگی داده کاوی هدایت شده هستند که هدف آنها یافتن ارزش یک متغیر هدف خاص است. گروه بندی شباهت و خوشه بندی جزو داده کاوی غیرهدایت شده هستند که در آن هدف، یافتن ساختار پنهان درون داده ها بدون توجه به یک متغیر هدف خاص است. نمایه سازی، عملی توصیفی است که میتواند هم هدایت شده و هم غیرهدایت شده باشد. دسته بندی دسته بندی که یکی از معمولترین کارکردهای داده کاوی است، یکی از واجبات بشر است. ما برای و درجه بندی شناخت و برقراری رابطه درباره دنیا، به طور مداوم دسته بندی، طبقه بندی می کنیم. دسته بندی شامل بررسی ویژگیهای یک شیء جدید و تخصیص آن به یکی از مجموعه های از قبل تعیین شده میباشد. عمل دسته بندی با تعریف درستی از دسته ها و مجموعهای از ویژگیها که حاوی موارد از پیش دسته بندی شده هستند، مشخص می گردد. این عمل شامل ساختن مدلی است که بتوان از آن برای دسته بندی کردن داده های دسته بندی نشده، استفاده نمود. اشیایی که باید دسته بندی شوند، معمولاً به وسیله اطلاعاتی در جدول پایگاه داده یا یک فایل ارائه می شوند و عمل دسته بندی شامل افزودن ستون جدیدی با کد دسته بندی خاصی است. از جمله تکنیک تکنیکهای درخت تصمیم و نزدیکترین همسایهای دسته بندی می باشند. شبکه های عصبی و تحلیل پیوند نیز در شرایط خاصی عمل دسته بندی را انجام می دهند. تخمین تخمین، با نتایج مجزایی که با ارقام پیوسته نشان داده شدهاند، سروکار دارد. در تخمین، دادههای ورودی در قالب متغیرهای ورودی مختلف به سیستم داده میشود و متغیرهای خروجی آن رقمی مثل درآمد یا تراز کارت اعتباری میباشد. در عمل تخمین اغلب برای انجام دسته بندی استفاده میشود. روش تخمین فواید زیادی دارد که مهمترین آنها، این است که در آن اطلاعات را می توان مطابق تخمین به دست آمده مرتب نمود. مدلهای رگرسیون و شبکه های عصبی از جمله تکنیکهای مناسب داده کاوی برای تخمین میباشند. پیش بینی پیشبینی مانند دسته بندی یا تخمین است با این تفاوت که اطلاعات، مطابق برخی از رفتارهای پیش بینی شده آینده یا ارقام تخمین زده آینده، دسته بندی میشوند. در عمل پیش بینی، تنها روش برای بررسی صحت دسته بندی، انتظار دیدن آینده است.هر یک از تکنیکهای استفاده شده در دسته بندی و تخمین را میتوان برای استفاده در پیش بینی تطبیق داد، جایی که متغیری باید پیش بینی شود از قبل معلوم است و دادههای پیشین برای آن وجود دارد. از دادههای پیشین برای تهیه یک مدل که بیانگر رفتار مشاهده شده کنونی است استفاده میشود؛ وقتی این مدل برای ورودیهای کنونی به کار رفت، نتیجه کار، پیش بینی رفتار آینده خواهد بود. بسیاری از تکنیک های داده کاوی در صورت وجود دادههای مناسب، برای استفاده در پیش بینی مناسب هستند. انتخاب تکنیک به ماهیت داده های ورودی و نوع متغیری که باید پیش بینی شود بستگی دارد. گروه بندی شباهت یا قوانین وابستگی گروه بندی شباهت یا قوانین وابستگی برای تعیین ویژگی های همزمانی هستند که در وقوع یک پدیده رخ می دهند. به عبارت دیگر عمل گروه بندی شباهت احتمال وقوع و یا عدم وقوع همزمان ویژگیها را تعیین می نماید. به عبارت ساده تر عمل گروه بندی شباهت تعیین می کند که چه چیزهایی با هم جورند؛ مثال معمول این موضوع تعیین کالاهایی است که با هم در یک سبد خرید قرار می گیرند، چیزی که آن را تحلیل سبد بازار نام دارد. فروشگاه های زنجیرهای خرده فروشی می توانند از گروه بندی شباهت برای تعیین چیدمان کالاها در قفسه های فروشگاه، در یک کاتالوگ و یا صفحه وب فروش اینترنتی استفاده کنند تا اقلامی که اغلب با هم خریده می شوند در کنار هم قرار گیرند. از گروه بندی شباهت می توان برای تعیین شرایط فروشهای متقابل و همزمان و همچنین برای طراحی بسته بندیهای جذاب و یا دسته بندی محصولات و خدمات استفاده کرد . خوشه بندی خوشه بندی به عمل تقسیم جمعیت ناهمگن به تعدادی زیرمجموعه ها یا خوشه های همگن گفته میشود. وجه تمایز خوشه بندی از دسته بندی این است که خوشه بندی به دستههای از پیش تعیین شده تکیه ندارد. در دسته بندی بر اساس یک مدل هر کدام از دادهها به دستههای از پیش تعیین شده اختصاص مییابد؛ این دسته ها یا از ابتدا در طبیعت وجود داشتهاند مثل جنسیت، رنگ پوست و ... یا از طریق یافتههای پژوهشهای پیشین تعیین گردیدهاند. در خوشه بندی هیچ دسته از پیش تعیین شده وجود ندارد و دادهها صرفاً براساس تشابه گروهبندی میشوند و عناوین هر گروه نیز توسط کاربر تعیین میگردد. خوشه بندی معمولاً به عنوان پیش درآمدی برای به کارگیری سایر تحلیلهای داده کاوی یا مدلسازی به کار میروند. نمایه سازی گاهی اوقات هدف داده کاوی، تنها توصیف آن چیزی است که در یک پایگاه دادهای پیچیده در جریان است. نتایج نمایه سازی درک ما را از مردم، محصولات یا فرآیندهایی که دادهها را در مرحله اول تولید کردهاند افزایش می دهد. توصیف خوب رفتار، اغلب توضیح خوبی هم به همراه دارد؛ یک توصیف خوب حداقل نشان میدهد چه زمانی میتوان انتظار یک توضیح مناسب را داشت. درختهای تصمیم ابزار مفیدی برای نمایه سازی میباشند؛ قوانین وابستگی و خوشه بندی را نیز می توان برای نمایه سازی ها استفاده نمود. كاربرد هاي داده كاوي داده كاوي به سرعت در حال محبوبيت است به خاطر كمك هاي اساسي آن، سازمان هاي زيادي در حال استفاده از داده كاوي براي كمك به مديريت تمام فازهاي ارتباط با مشتري شامل به دست آوردن مشتريان جديد، افزايش سود از طريق مشتريان موجود و حفظ كردن مشتريان خوب هستند. با تعيين مشخصات يك مشتري خوب يك شركت مي تواند با همان مشخصات اهداف آينده خويش را پيش بيني كند. با پرونده سازي براي مشتري كه يك محصول خاص را خرید مي نمايد اين شركت مي تواند توجه خود را به مشتريان مشابهي كه از اين محصول خريد نكرده اند معطوف دارد با پرونده سازي براي مشترياني كه اين سازمان را ترك كرده اند يك شركت مي تواند مشترياني را كه خطر رفتن آنها نيز وجود دارد را نگه دارد چرا كه نگهداري يك مشتري موجود بسيار كم هزينه تر از بدست آوردن يك مشتري جديد هزينه مي برد. داده كاوي ارزشهايي را از طريق بررسي يك طيف وسيعي از كارخانه ها پيشنهاد مي كند.شركتهاي ارتباطات از راه دور و كارت هاي اعتباري دو شاخه بزرگ در استفاده از داده كاوي براي تشخيص استفاده كلاه بردارانه از خدمات آنها مي باشند. شركتهاي بيمه و درآمد هم علاقمند به استفاده از اين تكنولوژي براي كاهش كلاهبرداري مي باشند. كاربردهاي دارويي نواحي مفيد ديگري هستند كه داده كاوي در آنها دست دارد داده كاوي مي تواند براي تشخيص تاثير اعمال جراحي، آزمايش هاي دارويي ودرمان استفاده گردد. شركتهايي كه در خريد و فروشهاي مالي فعاليت ميكنند از دادهكاوي براي تعيين شاخصه هاي بازار و صنعت براي تشخيص كارايي درآمد استفاده مي كنند. خرده فروشها از داده كاوي براي تصميم درمورد اينكه كدام محصول در فروشگاه ها در آمد زاست به منظور دسترسي به ارتقاي كيفيت كار خود استفاده بيشتري مي نمايند. شركتهاي دارويي درحال كاوش پايگاههاي داده بزرگي از تركيبات شيميايي و مواد ژنتيكي براي كشف مواد كه مي توانند گزينه خوبي براي ساخت به عنوان دارو باشند [41]. رویکردهاي مسائل داده کاوي در پزشکی صنعت سلامت به طور مستمر در حال تولید میزان زیادي از دادهها می باشد و افرادي که با این نوع دادهها مواجه هستند، دریافته اند که بین جمع آوري تا تفسیر آنها شکاف وسیعی وجود دارد. حوزهي به نسبت جوان و در حال رشد داده کاوي در سلامت از جمله شیوه هایی است که میتواند این صنعت را از تحلیل عمیق این داده ها بهرمند سازد. و به توسعهي تحقیقات پزشکی و تصمیم گیريهاي علمی در زمینهي تشخیص و درمان منتج شود [42]. داده کاوي در پزشکی و بیولوژي بخش مهمی از انفورماتیک زیست - پزشکی است و یکی از کاربردي ترین علوم کامپیوتر در این علم بوده که در بیمارستانها، کلینیکها، آزمایشگاهها و مراکز تحقیقاتی به کار گرفته شده است [43]. الگوریتم ژنتیک تکنیک بهینهاي براي ارتقاي سایر الگوریتم هاي داده کاوي میباشد، به گونهاي که از بهترین مدل بر روي مجموعه هایي از داده ها استفاده میکند و میتواند براي یک بیماري خاص بهترین برنامهي درمانی را تعیین کند [44]. 1-4- نمونه هایی از کاربردهاي داده کاوي در سلامت داده کاوي در تشخیصهاي غیر تهاجمی: برخی از اقدامات تشخیصی و آزمایشگاهی براي بیماران، تهاجمی و هزینه بر و در عین حال رنج آور هستند، به عنوان مثال بافت برداري از گردن رحم به منظور تشخیص سرطان گردن رحم از جمله این موارد است. تنگاول و همکاران از طریق الگوریتمهاي خوشهبندي به تحلیل بیماران مبتلا به سرطان گردن رحم پرداختند و نتایج پیشگیري کننده تري را نسبت به عقاید پزشکی کنونی پیدا کردند. همچنین گوریونسکیو نشان داد که داده کاوي می تواند با ادغام CAD ( تشخیص با کمک کامپیوتر) و اندوسکوپی اولتراسونوگرافی در شناسایی غیر تهاجمی سرطان به عنوان یک شیوهي جدید به کار رود. داده کاوي در کنترل عفونت بیمارستانی: در ایالات متحده سالانه 2میلیون نفر به عفونتهاي بیمارستانی مبتلا می شوند، لذا تمرکز زیادي براي شناسایی این بیماران صورت گرفته است. به عنوان مثال در ایالت آلباما نوعی سیستم نظارتی وجود دارد که از تکنیکهاي دادهکاوي استفاده میکند. این سیستم با استفاده از قوانین و روابط داده کاوي بر روي کشت خون بیمار و داده هاي بالینی به دست آمده از سیستم اطلاعات آزمایشگاه الگوهاي جدید و جالب توجهی را مشخص می سازد و ماهانه الگوهایی که توسط کارشناسان کنترل عفونت مورد بررسی قرار می گیرد را تهیه می کند. سازندگان این سیستم دریافته اند که ارتقاي کنترل عفونت با سیستم داده کاوي حساستر از سیستم کنترل عفونت سنتی عمل می کند [45-46]. مدلها و الگوريتمهای داده کاوی شبکه هاي عصبی مصنوعی شبکههاي عصبی مصنوعی که معمولاً به عنوان" شبکه هاي عصبی" نام برده می شوند یک الگوي ریاضی مبنی بر سیستم زیستی است. سیستمهاي عصبی یک الگوریتم براي بهینه سازي و یادگیري آزادانه بر اساس مفاهیم الهام گرفته از تحقیق در ماهیت مغز می باشند. مغز با استفاده از قابلیتی شناخته شده به عنوان نورون اجزاء ساختاري خود را سازماندهی می کند، در نتیجه محاسبات معینی را بسیار سریع تر از کامپیوتر دیجیتال انجام میدهد. در حالت کلی شبکه عصبی ماشینی است که طراحی شده تا روشی مشابه با کاري که مغز براي انجام وظایف خاص یا عملکرد قابل توجه بر اساس مطالعات دکتر سایمون هاسکین انجام می دهد را مدل سازي کند. این شبکه یک پردازنده توزیع شده موازي بزرگ است که از واحد هاي پردازش ساده ساخته شده است، و داراي یک تمایل طبیعی براي ذخیره سازي دانش تجربی و ایجاد دسترسی به آن براي استفاده می باشد [47]. ساختار شبکه عصبی شکل 3-2 شبکه عصبی که شامل سه لایه ورودی،میانی و خروجی می باشد[47] لایه ورودي: این لایه وروديهارا دریافت میکند و برحسب قدرت ارتباطش با لایه بعد سیگنال ورودي را به لایه بعد می فرستد. لایه میانی(لایه پنهان): تعداد لایههاي میانی و تعداد نورون هاي آن دلخواه است. لایههاي میانی باید با دقت انتخاب شوند تا خروجی مناسب را به ما بدهند. لایه خروجی: گروه دیگري از نورونها نیز از طریق خروجیهاي خود، جهان خارج را می سازند. معماري شبکه عصبی یک شبکه عصبی را میتوان به عنوان یک گراف وزن دار جهت دار درنظر گرفت که نورونها به عنوان گرهها و یالهاي جهتدار نشان دهنده ارتباط بین نورون ها هستند. معماري شبکه نورون در سه کلاس طبقه بندي میشود: شبکه هاي پیش خور تک لایه : یک شبکه نورون لایه لایه شده است که در آن نورونها به شکلی از لایه سازماندهی شدهاند، در این معماري ما شاهد لایهاي ورودي از گرههاي منبع هستیم که به سمت لایه خروجی نورونها انتقال مییابند اما نه بصورت بلعکس. این شبکه به شدت پیش خور یا بدون دور است. شبکه هاي پیش خور چند لایه : شبکه اي است که داراي یک یا چند لایه پنهان گرههاي محاسباتی مربوطه به نام نورونهاي پنهان می باشد. نقش نورونهاي پنهان به عنوان ارتباط بین ورودي خارجی و شبکه خروجی به شیوهاي مفید است. شبکه هاي برگشتی که حداقل یک حلقه پس خور دارند، این شبکه ممکن است از نورونهاي تک لایه تشکیل شده باشد از هر سیگنال خروجی نورون پس خوري به وروديهاي دیگر نورونها وجود دارد [47]. نحوه محاسبات در شبکه های عصبی به این شکل است که ورودیهای به نورون )x1 تا xi( دروزنهای w1 تا wi ضرب شده و مجموع نتایج حاصل از هر ورودی پس از اعمال در یک تابع،خروجی نورون را تشکیل میدهد: (3-1) ۰ در بعضی موارد مقدار ثابتی در هر نورون به معادله فوق به نام وزن اریب اضافه می گردد: (3-2) شبکه های عصبی مصنوعی، مدلهای مختلفی دارند که با توجه به جهت ورود اطلاعات وشبکه های بازگشتی پردازش آنها به انواع مختلفی از جمله شبکه های عصبی پیش خور، شبکه های چندلایه پرسپترون و شبکههای توابع پایه شعاعی تقسیم می شوند. شبکههای عصبی پیشخور کاربردی ترین نوع شبکههای عصبی مصنوعی در پیش بینی هستند زیرا می توان ثابت کرد که شبکه های عصبی پیشخور با یک الیه پنهان، تابع فعالسازی لجستیک در لایه پنهان، تابع فعالسازی خطی در لایه خروجی و تعداد نورونهای کافی در لایه پنهان، قادرند هر تابعی را با دقت دلخواه تقریب بزنند. در این پایان نامه از شبکه چندلایه پرسپترون که از انواع شبکه های پیشخور هستند جهت پیش بینی مصرف دارو استفاده شده است. معمولاً در شبکههای عصبی کل دادههای موجود را به دو مجموعه آموزشی و آزمایشی تقسیم می کنند. مجموعه آموزشی توسط یادگیری برای تخمین وزنهای شبکه و مجموعه آزمایشی جهت ارزیابی دقت پیش بینی شبکه آموزش دیده، استفاده می شوند. آموزش شبکه هاي عصبی مصنوعی یک شبکه عصبی بر خلاف کامپیوترهاي رقمی که نیازمند دستورات کاملاً صریح و مشخص است به مدلهاي ریاضی محض نیاز ندارد بلکه مانند انسان قابلیت یادگیري به وسیله تعدادي مثال مشخص را دارد. یک شبکهي عصبی مصنوعی باید بصورتی پیکربندي شود که از مجموعهاي از وروديها ( چه مستقیم و چه بصورت فرآیندي آرام ) مجموعهاي از خروجی هاي مورد نظر را ایجاد کند. روشهاي مختلفی براي تعیین نقاط قوت اتصال وجود دارد، یکی از این راهها تعیین وزن بصورت مستقیم با استفاده از دانش قبلی است. راه دیگر آموزش شبکه عصبی بوسیله تغذیه با الگوهاي آموزشی و اجازه دادن به آن براي تغییر وزنها بر اساس قوانین آموزشی می باشد [48]. انواع یادگیري در شبکه هاي عصبی مصنوعی یادگیري نظارت شده روشی است که در آن آموزش شبکه بر اساس دریافت ورودي و تطبیق آن با الگوهاي خروجی انجام گرفته است. این جفت ورودي و خروجی را می توان توسط یک آموزگار خارجی یا سیستمی که شامل شبکه هاي عصبی ( با سرپرست) است را ایجاد کرد. یادگیري نظارت نشده یا (خود سازمان دهنده) در هرواحد خروجی، براي پاسخ به الگوي ورودي آموزش داده شده است. در این نمونه فرض بر این است که ویژگیهاي چشمگیر جمعیت ورودي به صورت ایستا کشف میشود. بر خلاف الگوي یادگیري نظارت شده، با اینکه سیستم باید نمایش خود را از محركهاي ورودي ارائه دهد، مجموعه قابل پیش بینی از الگوهاي قابل دسته بندي براي آن وجود ندارد. یادگیري تقویتی ممکن است از دو نوع آموزش مذکور (به صورت میانگین) الهام گرفته باشد. در این نوع آموزش، ماشین آموزش فعالیت هایی را بر روي محیط انجام می دهد و بازخورد این فعالیت ها را از محیط دریافت می کند. این سیستم آموزش، بر اساس بازخوردهاي محیط و پارامترهاي آن به فعالیتهاي خود نمره خوب یا بد می دهد [49]. درخت هاي انتخاب درخت هاي انتخاب راهي براي نمايش يك سري از قوانين كه به يك كلاس يا مقدار منجر مي شود مي باشند. براي مثال شما ممكن است بخواهيد درخواستهاي وام را برحسب ريسك اعتبار خوب يا بد طبقه بندي كنيد. شكل بعد يك مدل ساده از يك درخت انتخاب به همراه توضيح در مورد تمام بسته هاي پايه آن يعني گره انتخاب، شاخه ها و برگهاي آن كه اين مساله را حل مي كند نشان مي دهد. شکل 3- 3 مثالی از درخت تصمیم[41] اولين بسته گره بالايي تصميم يا ريشه مي باشد كه يك بررسي جهت برقراري شرط خاصي مي نمايد. گره ريشه در اين مثال”Income>$40,000“ مي باشد. نتايج اين بررسي منجر مي شود كه درخت به دوشاخه تقسيم گردد كه هر يك نشان دهنده جوابهاي ممكن است. در اين مورد بررسي شرط مذكور مي تواند داراي جواب خير يا بله باشد در نتيجه دو شاخه داريم .براساس نوع الگوريتم هر گره مي تواند دو يا تعداد بيشتري شاخه داشته باشد. براي مثال CART درختهايي با تنها دوشاخه در هر گره توليد مي كند. چنين درختي يك درخت دودويي مي باشد. مدلهاي مختلف درخت تصميم بطور عمومي در داده كاوي براي كاوش داده و براي استنتاج درخت و قوانين آن كه براي پيش بيني مورد استفاده قرار مي گيرد استفاده مي شوند. يك تعداد از الگوريتمهاي مختلف ميتوانند براي ساخت درختهاي تصميم شامل Quest, CART,CHAID و C5.0 بكارروند. اندازه درخت مي تواند از طريق قوانين متوقف شونده كه رشد درخت را محدود مي كنند كنترل شود [41]. Bagging & Boosting 3-8-3-1- Bagging : (متراکم شدن خودکار) براي بهبود دادن رده بندي توسط ترکيب کردن رده بنديهاي مجموعههاي آموزشي به طور تصادفي توليد شده، ميباشد اين روش يک متا الگوريتم ميباشد که براي بهبود دادن يادگيري ماشين ردهبندي و مدلهاي پسرفتي بر حسب پايداري و دقت ردهبندي ميباشد. اين روش همچنين واريانس را کاهش داده و به دوري از Overfitting کمک ميکند. اگر چه اين روش معمولا در درخت تصميم به کار مي رود اما مي تواند در هر نوع مدل استفاده شود. Bagging يک حالت مخصوص از روند مدل ميانگين ميباشد [50]. يک مجموعه آموزشي استاندارد D به اندازه n را فرض کنيد، بگينگ توسط نمونه گيري به طور يکنواخت و با جايگزيني مثالها از D، m مجموعه آموزشي جديد Di با اندازه n>n'  توليد مي شود. نمونه گيري با جايگزيني اين امکان را مي دهد که بعضي از مثال ها امکان تکرار در هرDi را داشته باشند. اگر n = n' باشد لذا براي n بزرگ ، مجموعه Di انتظار داشتن %63.2 از مثالهاي بيهمتاي D را دارد و بقيه مثال ها تکراري مي باشند. اين نوع نمونهگيري به عنوان نمونه گيري خودراهانداز شناخته ميشود. m مدل براي استفاده کردن m نمونههاي خودکار بالا گنجانيده شده و اين مدلها توسط متوسط گيري خروجي (براي پسرفت) يا راي گيري (براي رده بندي) ترکيب ميشوند.از آنجاييکه اين روش چندين پيشگويي کننده را ميانگين ميگيرد، لذا براي بهبود مثالهاي خطي مفيد نميباشد [51]. 3-8-3-1- Boosting : يک متا الگوريتم يادگيري ماشين براي اجراي يادگيري نظارت شده مي باشد. Boosting بر این سوال بنا شده است: آيا يک مجموعه يادگيرندههاي ضعيف ميتواند يک يادگيرنده واحد قوي بسازد؟ يک يادگيرنده ضعيف يک رده بندي کنندهاي تعريف ميشود که فقط اندکي با رده بندي صحيح همبسته است. در حقيقت، يک يادگيرنده قوي يادگيرندهاي است که به طور دلخواهانه همبستهي خوبي با رده بندي صحيح دارند [52]. 3-8-3-3-الگوريتمهاي Boosting تا زمانی که Boosting به صورت الگوريتمي تحميل نشود، اکثر الگوريتمهاي Boosting عبارتند از به طور تکراري ياد گرفتن رده بندي کنندههاي ضعيف نسبت به توزيع و اضافه کردن آنها به ردهبندي کننده قوي نهايي موقعي که آنها اضافه ميشوند، نوعا در بعضي روشهايي وزندهي ميشوند که معمولا با دقت يادگيرنده ضعيف مرتبط است. بعد از اضافه کردن يک يادگيرنده ضعيف، داده دوباره وزن دهي مي شود: مثالهايي که اشتباه ردهبندي شوند وزن بيشتري بدست آورده و مثالهايي که به درستي ردهبندي شوند وزن از دست ميدهند (بعضي الگوريتمهاي Boosting عملا وزن مثالهاي مکررا نادرست رده بندي شده را کاهش مي دهند). بنابراين، يادگيرندههاي ضعيف آينده بيشتر بر مثالهايي تمرکز ميکند که يادگيرندههاي ضعيف قبلي به نادرستي رده بندي کردند [53-54]. تعداد الگوريتمهاي Boosting زيادي وجود دارد. الگوريتمهاي اصيل، انطباق پذير نبودند و نتوانستند فايدهي کاملي از يادگيرندههاي ضعيف بگيرند. فقط الگوريتمهايي که در قاعده يادگيري محتملا تقريبا صحيح الگويتمهاي Boosting قابل اثبات هستند، الگوريتمهاي بوستينگ ميباشند. الگوريتمهاي ديگر که در روح با الگوريتمهاي بوستينگ شبيه هستند گاهي اوقات "الگوريتمهاي اهرمي" ناميده ميشوند، هرچند آنها گاهي اوقات نادرست الگوريتمهاي Boosting صدا زده ميشوند. Adaptive Boosting(Adaboost) Adaboost، مختصر شده از بوستينگ انطباقي، يک الگوريتم يادگیری ماشين است و مي تواند در ترکيب با تعداد زيادي الگوريتمهاي يادگيري براي بهبود کاراييشان استفاده شود. آدابوست تا حدي وقف پذير است که ساخت ردهبنديکنندههاي بعدي براي آن نمونههايي که توسط ردهبنديکنندههاي قبلي نادرست ردهبندي شدند تنظيم شود. آدابوست به دادههاي نويزدار و بخش مجزا حساس ميباشد. در غير اينصورت، آن در مسائل اورفيتينگ حساسيت کمتري نسبت به الگوريتمهاي يادگيري ديگر دارد [55]. Adaboost مکررا در سريهاي گرد کردن t = 1, … , T يک ردهبنديکننده ضعيف ناميده ميشود. براي هر فراخواني يک توزيع وزنهاي Dt بروز رساني ميشود که اهميت مثالها را براي ردهبندي در مجموعه داده مشخص ميکند. در هر گرد کردن، وزنهاي هر مثالي که به نادرستي رده بندي شده افزايش مييابد (يا به طور جايگزين، وزنهاي هر مثالي که به درستي ردهبندي شده کاهش مييابد)، بهطوريکه ردهبنديکننده جديد بيشتر بر روي اين مثالها ردهبندي ميکند [56]. رگرسیون بردار پشتیبان ماشین بردار پشتیبان  نوع خاصی از شبکه های عصبی هستند که بر خلاف سایر انواع شبکه عصبی مانند MLP و RBF به جای کمینه کردن خطا، اقدام به کمینه کردن ریسک عملیاتی طبقه بندی یا مدل سازی می کند. این ابزار، بسیار قدرتمند است و در زمینه های مختلفی چون طبقه بندی، خوشه بندی و مدل سازی (رگرسیون) می تواند مورد استفاده قرار بگیرد یکی از الگوریتم های مهم از میان ماشین های بردار پشتیبان، رگرسیون بردار پشتیبان می باشد. در آمار كلاسيك روشهاي طبقه بندي و رگرسيون بر پایه فرضيات محدود كننده اي بنا شده که در آن مدلهاي توزيع احتمال و يا توابع چگالي احتمال، معلوم هستند. متأسفانه بسياري اوقات، در عمل اطلاعات كافي درباره توزيع احتمال متغيرهاي مورد مطالعه در دسترس نيست. در چنين مواقعي به روش هايي نياز داريم كه بدون دانستن توزيع احتمال، به خوبي عمل كنند. همچنين در بيشتر مطالعات با اطلاعاتي در فضاهايي با ابعاد بالا مواجه هستيم. براي استفاده از روشهاي كلاسيك آماري در چنين شرايطي، نيازمند نمونه هايي با حجم بالا مي باشيم كه ممكن است در عمل فراهم كردن آن ميسر نباشد. يكي از روشهايي كه براي حل چنين مشكلاتي مورد استفاده قرار مي گيرد، استفاده از الگوريتمهاي يادگيري ماشين است. ماشین بردار پشتیبان یک تکنیک جدید از روشهاي يادگيري ماشین است و مي توان محبوبيت كنوني آن را با محبوبيت شبكههاي عصبي در دهههاي گذشته مقايسه كرد [57]. ماشين بردار پشتيبان در پيش بيني ها نسبت به شبکههاي عصبی از دقت بالاتری برخوردار است [58]. از طرفي تعيين وضعیت شبكه و قابليت تعميم شبكه عصبي براي وظايف مدلسازي/يادگيري هنوز به خوبي حل نشده است، درحالي كه مدل ماشين بردار پشتيبان به خوبي تعميم پذيراست [59]. ويژگي مهم ماشين بردار پشتيبان اين است كه برخلاف الگوريتمهاي کلاسيك و رگرسيونهاي خطي كه به وسيله مينيمم كردن قدر مطلق خطا يا توان دوم خطا عمل ميكنند، آنها ريسك عملياتي را مينيمم ميكنند. ماشین بردار پشتیبان بر خلاف شبکههای عصبی با مشکل گیر افتادن در مینیمم های محلی تابع خطا مواجه نمیباشد .[60-61] همچنين با استفاده از هستههاي غير خطي قادر به تصميم گيري غير خطي نيز ميباشد. انتخاب هستههاي مناسب براي ماشين بردار پشتيبان، منجر به برتري آن نسبت به ساير رويكردهاي مبتني بر تصميم گيري خطي شده است. مدلهاي ماشينها بردار پشتيبان به دو گروه عمده الف- مدل طبقه بندي ماشين بردار پشتيبان و ب- مدل رگرسیون ماشين بردار پشتيبان تقسيم بندي مي شوند. از مدل طبقه بندي ماشين بردار پشتيبان جهت حل مسائل طبقه بندي داده هايي كه در كلاس هاي مختلف قرار مي گيرند استفاده مي گردد و مدل رگرسيون ماشين بردار پشتيبان در حل مسائل پيش بيني كاربرد دارد [62-63]. رگرسیون خطی در روش های طبقه بندی اغلب بر چسب کلاس از نوع دادهی گسسته (غیر عددی) است. اگر چه در برخی از آنها با کمی تغییر می توان روش را برای پیش بینی کلاس هاس پیوسته (عددی) توسعه داد، اما روش های رگرسیون یکی از معروفترین تکنیک های آماری به حساب می آیند که برای این کار بسیار مناسب هستند.تا جایی که در متون داده کاوی دو کلمهی رگرسیون و تخمین کلماتی مترداف یکدیگر در نظر گرفته و استفاده می شوند. هدف تحلیل رگرسیون تعیین بهترین مدلی است که چگونگی ارتباط یک متغیر را با یک یا چند متغیر دیگر تعیین می کند. در بسیاری از کاربردهای عملی نیاز به پیش بینی مقدار یک متغیر (وابسته) از روی مقادیر چند متغیر (مستقل) بسیار رایج است. معادله زیر به معادله رگرسیون موسوم است (3-3) در آن xi ها مقادیر صفات خاصه در مجموعه داده ها هستند، y برچسب کلاس و wi ها که به ضریب رگرسیون شناخته می شوند، پارامترهای نامعلومی هستند که بایستی برآورده شوند. منظور از رگرسیون خطی این است که میانگین y به طور خطی با x در ارتباط است [64]. ساده ترین شکل رگرسیون برای معادله رگرسیون هنگامی است که مجموعه دادههای آموزشی دارای یک صفت خاصه و یک برچسب کلاس باشند. این رگرسیون که به نام رگرسیون ساده خطی شناخته می شود ، y را همانند یک تابع خطی از x مدل می کند. (3-4)y=w0+w1x چناجه واریانس y ثابت فرض شود، می توانیم ضرایب خط رگرسیون فوق را (w0 ,w1) با روش حداقل مربعات بدست آوریم، به طوری که خطای میان مجموعه داده ها و خط رگرسیون تخمین زده شده به حداقل خود برسد. در روش حداقل مربعات، مجموع مربعاتباقیمانده را معمولاً مجموع مربعات خطاها حول خط رگرسیون گویند و با SSE نمایش می دهند. (3-5) که در آن ei مقدار خطای مشاهده شده وyi و yi به ترتیب جواب حاصل از مدل و مقدار واقعی خروجی هستند. به دنبال مقادیری از ضرایب رگرسیون (w0 ,w1) هستیم که SSE را به حداقل برساند. بنابراین با مشتق گیری از SSE نسبت به w0 و w1 صفر قرار دادن این مشتقات جزیی ، معادلاتی به دست می آید که پس از حل آنها ضرایب به ترتیب زیر محاسبه می شوند: (3-6) که در آن x وy به ترتیب میانگین مقادیر x وy هستند. با روشی مشابه می توان برای رگرسیون خطی چندگانه نیز ضرایب را تعیین نمود. رگرسیون خط چند گانه مواقعی است که به جای یک متغییر مستقل چندین متغییر مستقل (چندین صفت خاصه) داشته باشیم [65]. الگوریتم هایی که ما در این پایان نامه برای پیادهسازی درنظر گرفته ایم به این صورت است:(MLP) ، (SVR)، AdaBoost.R، (BAGTREE)، (LR)، (LLSVR) نرم افزارهای داده کاوی یک پروژه داده کاوی جهت انجام تحلیل ها به یک نرم افزار مناسب نیاز دارد. امروز نرم افزار مختلفی در زمینه داده کاوی وجود دارد که در زیر به برخی از آنها اشاره شده است [66] : AdvancedMiner Professional, , Angoss Knowledge Studio, BayesiaLab,IBM SPSS Modeler (Clementine), , Microsoft SQLServer Data Tools, Oracle Data Mining (ODM), SAS Enterprise Miner, SPAD,StarProbe, Statistica Data Miner, XLMiner, RapidMiner, Weka, MALAB. بیشتر سیستم های نرم افزاری فقط جهت انجام روش های خاصی مناسب هستند و قابلیت انجام روش های دیگر را ندارند. یک نرم افزار داده کاوی مناسب باید اجازه استفاده و مقایسه روش های مختلف را بدهد ضمن آنکه بایستی پایگاه داده های نرم افزارهای مختلف را یکپارچه کند. گروه بزرگی از تحقیقات داه کاوی بر اساس برنامه های ریاضی اسکریپت گرا مانند متلب (تجاری) و R (منبع باز ) صورت می گیرند.در اصل تمرکز این برنامه ها بر داده کاوی نیست ولی حاوی توابع ریاضی و شبیه سازهایی می باشند که از اجرای الگوریتم های داده کاوی حمایت می کنند [67]. در این پایان نامه از نرمافزار MATLABجهت انجام مراحل داده کاوی به خصوص مدلسازیهای مورد نیاز استفاده می شود. فرایند خرید دارو بیمارستان پاستور بم تنها بیمارستان دولتی در شهرستان بم و با جمعیت تحت پوشش 520.000 نفری یک از فعالترین بیمارستان های کشور است .این بیمارستان شامل بخش هایی همچون اورژانس، جراحی، داخلی ،اطفال ، نوزادان ،icu ، ccu، رادیولوژی ،آزمایشگاه ، دیالیز ، اندوسکوپی ، فیزیوتراپی ، سنگ شکن و با ظرفیت 220 تخت خواب و ضریب اشغال تخت 85% در حال خدمات دهی می باشد [68]. سیستم اطلاعات این بیمارستان در سال 1386 از شرکت تیراژه رایانه تهران خریداری شده که در حال حاضر بیش از 155 بیمارستان از 32 دانشگاه علوم پزشکی کشور تحت پوشش نرم افزارها و خدمات شرکت تیراژه قرار دارند که این تعداد معادل 5/12 درصد از کل تختهای بستری کل کشور میباشد [69]. زیر سیستم داروخانه در سیستم اطلاعات بیمارستان پاستور شامل :مشخصات دارو ،مشخصات بیمار ،لیست موجودی، درخواست های بخش ها می باشد شکل 3-4 واسط کاربری سیستم اطلاعات بیمارستان پاستور بم فرایند خرید در داروخانه این بیمارستان و سایر بیمارستان های کشور بدین صورت است که با توجه به مصرف دارو در بخش های مختلف و فروش دارو بصورت تجربی و بدون استفاده از فرایند سیستماتیک در خواست خرید دارو توسط مسئول داروخانه به معاونت غذا و دارو دانشکاه علوم پزشکی ارسال می شود و از طریق این معاونت اقدام به خرید دارو می گردد. با توجه به اینکه این فرایند بصورت تجربی صورت می گیرد می توان با استفاده از داده کاوی این فرایند را بهبود بخشید. جمع بندی در این فصل ضمن معرفی سیستم های اطلاعات بیمارستانی و توضیح درباره مزایا و معایب آنها به معرفی الگوریتم ها و روش های مختلف داده کاوی پرداخته شد. همچنین نرم افزارهای مختلف برای داده کاوی نام برده شدند و نهایتاٌ فرایند خرید دارو توضیح داده شد. . فهرست منابع 1.Reichertz P. Hospital information systems—Past, present, future. International Journal of Medical Informatics. . 2006;75(3-4):282-99. 2.yan-feng l. Data Mining of Inspection-time Rules in HIS with DeepSee. Database Technology and Applications (DBTA), 2010 2nd International Workshop on 27-28 Nov; Wuhan: IEEE; 2010. p. 1-4. 3.Berry MJA. Data Mining Tehniques: For Marketing, Sales, and Customer Support. New York: John Wiley & Sons; 2004. 4.Stephen. Pharmaceutical Marketing in Perspective - Its Value and Role as One of Many Factors Informing Prescribing2008 [cited 2008 07.01.08]. .5ج. شهرابی، داده کاوی، چاپ دوم. انتشارات جهاد دانشگاهی واحد صنعتی امیرکبیر، تهران. 1390 .6م. غضنفری ، داده کاوی وکشف دانش. چاپ اول، انتشارات دانشگاه علم وصنعت ایران، تهران. 1387 .7م. کانتاردزیک، داده کاوی.چاپ اول، انتشارات علوم رایانه، بابل. 1385 8.Bellazzi R. Predictive data mining in clinical medicine: Current issues and guidelines. International journal of medical informatics. 2008;77:81-97. 9.Weiss GM. Data Mining. Handbook of Technology Management, , . (Ed.) HB, editor. New York: John Wiley and Sons 2010. 10. " بیمارستان‌های دولتی در صورت عدم رسیدگی تعطیل خواهند شد" [Online]. Available: http://www.isna.ir/fa/news/92081811448. ADDIN EN.REFLIST 11." "چالش‌های پیشروی اقتصا د درمان [Online]. Available: http://www.hamshahrionline.ir/print/235652. 12."بلاتکلیفی داروخانه‌های بیمارستانی و چندنکته" [Online]. Available: http://www.isna.ir/fa/news/92070100229. 13.Hong T. The application of information technology in the hospital pharmacy management based on HIS. Information Technology in Medicine and Education (ITME), 2012 International Symposium on; 3-5 Aug; Hokodate, Hokkaido: IEEE; 2012. p. 604-7. 14.Qingkui C. Study on the Demand Forecasting of Hospital Stocks Based on Data Mining and BP Neural Networks International Conference on Electronic Commerce and Business Intelligence2009. p. 284-9. 15.Desikan P. DATA MINING FOR HEALTHCARE MANAGEMENT. SIAM international conference on data minig2011. 16.HAMURO Y. Mining Pharmacy Data Helps to Make Profits. Data Mining and Knowledge Discovery 1998;2:391–8 17.Li J-s. "Data Mining in Hospital Information System". New Fundamental Technologies in Data Mining. 2011:143-71. 18.Bereznicki BJ. Data-mining of medication records to improve asthma management. MJA. 2008;189:21-5. 19.Asadi F. Pharmacy information systems in Tehran university hospitals and their relationship with pharmaceutical companies. Journal of Paramedical Sciences 2011;2:48-55. 20.Asfandiary N . Knowledge discovery in medicine: Current issue and future trend [press release]. ELSEVIER2014. 21.Ranjan J. APPLICATIONS OF DATA MINING TECHNIQUES IN PHARMACEUTICAL INDUSTRY. Journal of Theoretical and Applied Information Technology 2007:61-7. 22.Doddi S. Discovery of Association Rules in Medical Data. Medical informatics and the Internet in medicine 2001;26(1):25-33 .23 ا. حاجوی ، مدارک پزشکی، چاپ اول ، انتشارات نشرالکترونیک و اطلاع رسانی جهان رایانه، 1381. .24ح. وکیلی منفرد، سيستم اطلاعات بيمارستانی و نقش آن در توسعه خدمات پزشکی وبهداشتی. مجله علمی-پژوهشی پژوهان. 1391;دوره11(شماره1). 25.Dorenfest S. The decade of the '90s. Poor use of IT investment contributes to the growing healthcare crisis. Healthc Inform. 2000;17(8):64-7. 26.Kim HS. A Clinical Document Architecture (CDA) to Generate Clinical Documents within a Hospital Information System for E-Healthcare Services. Computer and Information Technology, 2006 CIT '06 The Sixth IEEE International Conference on; Sept. 2006; Seoul: IEEE; 2006. p. 254. 27.Siyamian H. The role of health information management in hospital management. Scientific Communication. 2005;3(4):19-28. 28Hu D. Study on information system of health care services management in hospital. Services Systems and Services Management, 2005 Proceedings of ICSSSM '05 2005 International Conference on 13-15 June 2005: IEEE; 2005. p. 1498 - 501. .29م. آقاجانی، بررسی و مقایسه سیستم های اطلاعات بیمارستانی. طب وتزکیه 1382; دوره 47 30.Khan NN. Hospital Information Systems: An Aid to Decision Making. Emerging Trends in Engineering and Technology (ICETET), 2010 3rd International Conference on; 19-21 Nov. 2010; Goa: IEEE; 2010. p. 657 - 63. 31.Xiaolan W. Improved Services in Hospital Information System. Information Technology and Applications (IFITA), 2010 International Forum on 16-18 July 2010; Kunming: IEEE; 2010. p. 358-61. 32.Ahmadi M. A Survey of Usability of Hospital Information Systems from the perspective of Nurses, Department Secretaries, and paraclinic Users in Selected hospitals: 2009 Journal of Health Administration. 2011;14(44):11-20. 33.Lenz R. Intranet meets hospital information systems – the solution to the integration.problem? Method Inform Med. 2001;40:99-105. 34.Collen M. A brief historical overview of hospital information system evolution in the United States. Int JBiomed Comput. 1991;29(3-4):169-89. .35م. قاضی سعیدی، مديريت اطلاعات بهداشتي درمانی، ماهان – تهران 1384. .36د.ترابی، مدیریت فناوری اطلاعات سلامت ،انتشارات جعفري 1389. .37د.احمدی، مديريت اطلاعات بهداشتي: مديريت يك منبع استراتژيك،انتشارات واژه پرداز 1382. 38.Fayyad U. From data mining to knowledge discovery in databases. AI Mag. 1996;17(3):37-54. 39.Friedman J. Data Mining and Statistics: What’s the connection? Comput Sci Stat. 1998. 40.ع.مشکانی، مقدمه ای برداده کاوی، موسسه چاپ وانتشارات دانشگاه فردوسی مشهد،1388 . 41.Potomac. Two Crows Corporation, Introduction to Data Mining and Knowledge Discovery. Third ed: Two Crows Corporation; 1999. 42.Gupta S. Data Mining Classification Techniques Applied For Breast Cancer Diagnosis And Prognosis Indian Journal of Computer Science and Engineering (IJCSE). 2011:188-95. 43.Bushinak H. Recognizing The Electronic Medical Record Data FromUnstructured Medical Data Using Visual Text Mining TechniquesProf. Hussain Bushinak. InternationalJournal of Computer Science and Information Security. 2011;9(6):25-35. 44.Seifert JW. Data Mining : An Overview. Analyst in Information Science and Technology Policy, Resources S, and Industry Division; 2004. 45. Stühlinger W. Intelligent Data Mining for Medical Qualit 2000. 46.Ganesan N. .Application of Neural Networks in Diagnosing Cancer Disease Using Demographic Data. International Journal of Computer Applications 2010;1(26):0975-8887. 47.Haykin S. ; "Neural Networks: A Comprehensive Foundation second ed: Prentice-Hall Inc; 1999. 48.م. منهاج. مبانی شبکه های عصبی، دانشگاه صنعتی امیرکبیر، تهران 1392. 49.Machová K. A Bagging Method using Decision Trees in the Role of Base Classifiers Acta Polytechnica Hungarica. 2006;3(2). 50.Dietterich TG. An experimental comparison of three methods for constructing ensembles of decision trees:Bagging, boosting, and randomization Machine Learning. 2000;40(2):139-58. 51.Freund Y. Boosting a weak learning algorithm by majority. Information and Computation. 1995;121(2):256-85. 52.Skurichina M. The Role of Combining Rules in Bagging and Boosting 2004. 53.Demiriz A. Linear programming boosting via column generation. Machine Learning. 2002;46:225-54. 54.Hao X. An Improved Adaboost.R Algorithm and Its Application in Mining Safety Monitoring. Intelligent Information Technology Application, 2009 IITA 2009 Third International Symposium on; 21-22 Nov. 2009; Nanchang: IEEE; 2009. p. 287-90. 55.Solomatine DP. AdaBoost.RT: a Boosting Algorithm for Regression Problems. IEEE; 2004. p. 7803-8359. 56.Basak D. Support vector regression. Neural Inf Process. 2007;11:203-25. 57.Guohai L. Model optimization of SVM for a fermentation soft sensor with Applications2010. 58.Liu Y. Soft chemical analyzer development using adaptive least-squares support .vector regression with selective pruning and variable moving window size”, ., Vol. 48, pp.5731–574, 2009. Ind Eng Chem Res. 2009;48:5731-40. 59.Hong WC. Traffic flow forecasting by seasonal SVR with chaotic simulated annealing algorithm. Neurocomputing. 2011;74:2096-107. 60.Yin J. LogP prediction for blocked tripeptides with amino acids descriptors (HMLP) by multiple linear regressionand support vector regression. Procedia Environmental Sciences 2011;8:173-8. 61.Vapnik VN. The nature of statistical learning theory. second ed. New York: Springer; 1999. 62.Boser BE. A training algorithm for optimal margin classifiers. In: Haussler D, editor. 5th Annual ACM Workshop on COLT; Pittsburgh: ACM Press; 1992. p. 144-52. 63.L. Xu. Comparisons of Logistic Regression and Artificial Neural Network on Power DistributionSystems Fault Cause Identification. Mid-Summer Workshop on Soft Computing in Industrial Applications; June ٢٨-٣٠; Finland: IEEE; 2005. 64Kim YS. Comparison of the decision tree, artificial neural network, and linear regression methods based on the number and types of independent variables and sample size. Expert Systems with Applications: Elsevier; 2008. p. 1227-34. 65. “ Data Mining Software Suites”. [Online]. Available : http://www.kdnuggets.com /software/suites.html. 66.Lavrac N. Selected techniques for data mining in medicine, 16 (1999) 3–23. Artificial Intelligence in Medicine. 1999;3:16-23. 67. " بیمارستان پاستور بم " [Online]. Available: http://www.mubam.ac.ir 68. "شرکت تیراژه رایانه"[Online]. Available: http://www.trtco.com 69.Smola AJ. A tutorial on support vector regression: Springer 2004. 70.Bertoni A. A Boosting Algorithm for Regression. Available from: http://www.researchgate.net/...Boosting_Algorithm.../0deec524a8. Abstract Optimizing Buying Drugs Using Data mining By Mohammad Mahdi Toranji Developing information technology’s application in health care systems leads to advantages including accessibility of data. Applying data mining methods on available data could improves management and decision making process. This study was aimed to evaluate various algorithms that have been used in data mining to define a model for prediction of medications utilization in hospitals. For this purpose we extracted data from health information system of Bam’s Pasteur hospital that was saved for 5 years. Models such as LSSVR, LR, BAGTREE, ADABOOST, SVR and MLP were evaluated in prediction of drug usage. Power of mentioned models for prediction was assessed according to MAE, RMSE, MSE and R2 measures. In conclusion BAGTREE model was revealed as best model. Keywords : Hospital Information Systems, Buying Drugs, Prediction, Pharmacy IN THE NAME OF GOD Optimizing Buying Drugs Using Data mining BY Mohammad Mahdi Toranji THESIS SUBMITTED TO THE SCHOOL OF GRADUATE STUDIES IN PARTIAL FULFILLMENT OF THE REQUIREMENTS FOR THE DEGREE OF MASTER OF SCIENCE (MSc.) IN Information Technology Engineering (e-Commerce) SHIRAZ UNIVERSITY SHIRAZ ISLAMIC REPUBLIC OF IRAN EVALUATED AND APPROVED BY THE THESIS COMMITTEE AS: ………………………… , Ph.D., PROF. Of (CHAIRMAN) .......…………………… , PhD., PROF . Of ………………………… , Ph.D., ASSOCIATEPROF Of Information Technology Engineering January 2015 Shiraz University Faculty of eLearning M.S. Thesis In Information Technology Engineering (ECommerce) Optimizing Buying Drugs Using Data mining By Mohammad Mahdi Toranji Supervised by Dr. Reza Boostani January 2015

فایل های دیگر این دسته

مجوزها،گواهینامه ها و بانکهای همکار

بانک پاورپوینت های آماده دارای نماد اعتماد الکترونیک از وزارت صنعت و همچنین دارای قرارداد پرداختهای اینترنتی با شرکتهای بزرگ به پرداخت ملت و زرین پال و آقای پرداخت میباشد که در زیـر میـتوانید مجـوزها را مشاهده کنید