داستان داده‌ها از کجا شروع می‌شود؟!

داستان داده‌ها از کجا شروع می‌شود؟!

مجموعه داده چیست؟ چگونه جمع‌آوری می‌شود؟ هنگام جمع‌آوری و کار روی داده‌ها به چه نکاتی باید توجه کرد؟ در ادامه به این سؤالات پاسخ خواهیم داد.

حرف اول!
داده‌ها تعیین‌کننده نوع نتایج خروجی و یکی از مهم‌ترین بخش‌های یادگیری ماشینی هستند. فرانکو شولت، نویسنده وب‌سایت Keras– یکی از معروف‌ترین کتابخانه‌های نرم‌افزاری یادگیری عمیق به زبان پایتون (python)- می‌گوید: «یادگیری ماشینی تنها برای حفظ الگوهای ارائه‌شده در داده‌های آموزشی به کار می‌رود و آنچه را دیده باشد تشخیص می‌دهد. استفاده از یادگیری ماشینی برای پیش‌بینی آینده با این فرض همراه است که رفتارهای آینده مانند گذشته خواهد بود؛ البته اغلب چنین نیست.»

این مقاله در سه بخش جمع‌آوری داده، انواع داده و ساخت داده به بیان کلیات هر بخش می‌پردازد.

بیشتر

مقدمه‌ای بر پردازش متن

مقدمه‌ای بر پردازش متن

پردازش متن دنیایی است بزرگ و پیچیده و در عین‌حال سرشار از جذابیت‌ها و پازل‌های کوچک و بزرگ؛ می‌توان پیکره‌های متنی بزرگ را به چشم معدن‌هایی سرشار دید که با فرآیندهای مهندسی شده اکتشاف دانش می‌توان از آن‌ها به حجم وسیع و ارزشمندی از تحلیل‌ها و استنتاج‌ها رسید. این معدن سرشار می‌تواند نظرات کاربران در مورد محصولات یا اخبار یک سایت، توییت‌های کاربران در مورد موضوعات متفاوت، مجموعه مقاله‌های چاپ شده در یک کنفرانس، خبرهای یک سایت خبری و یا هر مجموعه دیگری که حاوی اسناد متنی معناردار است باشد.
بیشتر

بهترین روش برچسب‌گذاری تیکت‌ها

بهترین روش برچسب‌گذاری تیکت‌ها

هر تیم در ماه، ساعت‌ها مشغول برچسب‌گذاری تیکت‌های پشتیبانی مشتری است. آن‌ها برای سؤالات متداول، آگاهی از مشکلات به وجود آمده و نحوه تأثیر تغییرات بر درخواست‌های ورودی از برچسب‌ها (تگ‌ها) استفاده می‌کنند. برچسب‌گذاری امکان ارزشمندی است اما گاهی مورد کم‌لطفی تیم‌ها قرار می‌گیرد! شاید دلیل چنین کم‌توجهی‌هایی عدم اطلاع از اهمیت آن باشد؛ بنابراین در این مقاله ابتدا به تعریف برچسب‌گذاری و اهمیت آن از زبان تعدادی از متخصصان می‌پردازیم و سپس بابیان ۶ قانون دسته‌بندی در راستای بهبود برچسب‌ها و ایجاد داده‌های مؤثر سعی می‌کنیم پیش‌نیازهای ایجاد یک مدل یادگیری ماشینی را شرح دهیم.

بیشتر