سمینار بررسی روش های یادگیری ماشین به فیلتر هرزنامه

سمینار بررسی روش های یادگیری ماشین به فیلتر هرزنامه
رشته تحصیلی : سمینار کامپیوتر

فرمت فایل : docx

تعداد صفحات : 23

حجم فایل (به کیلوبایت) : 1548

فرمت دانلود : رار/ زیپ

مبلغ : 13900 تومان

خرید و دانلود

سمینار بررسی روش های یادگیری ماشین به فیلتر هرزنامه

.چکیده

در این مقاله ،ما یک بازنمایی جامع از توسعه های اخیر در روش های فیلنرینگ اسپم ها با الگوریتم های یاد گیری ماشینی ارائه کرده ایم که به هر دو جنبه متنی و روش های تصویری می پردازد .به جای اینکه فیلترینگ اسپم را به عنوان یک مسئله استاندارد طبقه بندی شده در نظر بگیریم ،اهمیت در نظر گرفتن برخی ویژگی های ان مانند مفهوم جمع شدن [1]  در طراحی فیلتر های جدید  نشان داده ایم .دو جنبه  نسبتا مهم که کمتر در این مقوله مورد بحث قرار گرفته است عبارتند از : سختی به روز کردن کلاسیفایر بر اساس نمایش کیسه کلمات [2] و یک تفاوت بزرگ بین دو مدل اخیر بیز .در نهایت ،ما نتیجه گیری کرده ایم که با این که پیشرفت های مهمی در سال اخیر صورت گرفته است ،جنبه های بسیاری هستند که هنوز کشف نشده باقی مانده اند ،به خصوص تحت تنظیمات ارزیابی واقعی تر .

کلمات کلیدی : اسپم فیلترینگ ،یادگیری انلاین ،کیسه کلمات ،بیز ،اسپم تصویر

2.مقدمه

در سال های اخیر افزایش استفاده از ایمیل منجر به  افزایش مشکلات ناشی از حجمی از  پیام های ایمیل  ناخواسته ،که معمولا به آن اسپم گفته می شود ،گردیده است . شامل یک آزار کوچک تا یک نگرانی بزرگ ،به دلیل حجم زیاد و توهین آمیز برخی از اسن پیام ها ، اسپم ها شروع به کاهش قابلیت اعتماد ایمیل ها کردند . کاربران شخصی و کمپانی ها  ،با  هدر رفتن پهنای باند به دلیل دریافت این پیام ها و زمانی که به وسیله کاربران برای تفکیک انها از پیام های نرمال یا قانونی صرف می کنند ، تحت تاثیر قرار گرفتند . یک مدل تجاری بر اساس بازار اسپم ها مفید است زیرت هزینه ها برای فرستنده کم است ، بنابراین تعداد زیادی از این پیام ها می توتنند ارسال شوند ، خروجی  انها حداکثر می شود ، این رفتار متجاوزانه یکی از ویژگی های اسپمر ها را بیان می کند (کسانی که پیام های اسپم را ارسال می کنند ) (Martin-Herran ,Rubrl,& Zaccour ,2008 ) .  تاثیرات اقتصای اسپم ها برخی کشور ها را به سمت وضع قوانینی بر علیه انها سوق داد ( e.g ,Carpinter & Hunt ,2006 ; Hoanca ,2006;Stern,2008 ) ، اگرچه این قوانین با به وسیله این واقعیت که این پیام ها از سایر کشودها نیز ارسال می شوند محدود می شوند .(Talbot ,2008 ) .بعلاوه ، سختی های رد گیری فرستندگان واقعی این پیام ها عملکرد این قوانین را محدود می کند .علاوه بر قانون گذاری ، برخی نویسندگان تغییرات پروتکل ها و مدل های عملیاتی را نیز پیشنهاد داده اند ( در Hoanca بحث شده است ) .

روش دیگری که بکار گرفته شده است استفاده از فیلترینگ اسپم است ، که بر اساس انالیز محتوای پیام . اطلاعات اضافه ،سعی بر شناسایی پیام های اسپم دارد .زمانی که انها را شناسایی کرد بر اساس تنظیماتی که  در فیلتر در نظر گرفته شده است عمل مناسب را انجام می دهد . اگر فیلتر برای یک کاربر یکتا اعمال می شود ، پس از شناسایی انرا به بک فولدر که شامل پیام هایی با برچسب اسپم است ارسال می شود ،که این کار شناسایی انهارا ساده تر می کند .اما اگر فیلتر بر روی یک سرور ایمیل که ایمیل های کاربران مختلف را اداره می کند اعمال شود ، یا ممکن است به عنوان اسپم بر چسب زده شود یا پاک شود .یک احتمال دیگر می تواند تنظیمات همکاری باشد ، به این صورت که فیلتر هایی که روی ماشین های مختلف اجرا می شوند  اطلاعاتی را که از پیام های دریافتی بدست می اورند را به اشتراک بگذارند و کارایی شان را بهبود ببخشند .


[1]  Concept drift

[2]  Bag-of-word