داستان داده‌ها از کجا شروع می‌شود؟!

داستان داده‌ها از کجا شروع می‌شود؟!

مجموعه داده چیست؟ چگونه جمع‌آوری می‌شود؟ هنگام جمع‌آوری و کار روی داده‌ها به چه نکاتی باید توجه کرد؟ در ادامه به این سؤالات پاسخ خواهیم داد.

حرف اول!
داده‌ها تعیین‌کننده نوع نتایج خروجی و یکی از مهم‌ترین بخش‌های یادگیری ماشینی هستند. فرانکو شولت، نویسنده وب‌سایت Keras– یکی از معروف‌ترین کتابخانه‌های نرم‌افزاری یادگیری عمیق به زبان پایتون (python)- می‌گوید: «یادگیری ماشینی تنها برای حفظ الگوهای ارائه‌شده در داده‌های آموزشی به کار می‌رود و آنچه را دیده باشد تشخیص می‌دهد. استفاده از یادگیری ماشینی برای پیش‌بینی آینده با این فرض همراه است که رفتارهای آینده مانند گذشته خواهد بود؛ البته اغلب چنین نیست.»

این مقاله در سه بخش جمع‌آوری داده، انواع داده و ساخت داده به بیان کلیات هر بخش می‌پردازد.

بیشتر

مقدمه‌ای بر پردازش متن

مقدمه‌ای بر پردازش متن

پردازش متن دنیایی است بزرگ و پیچیده و در عین‌حال سرشار از جذابیت‌ها و پازل‌های کوچک و بزرگ؛ می‌توان پیکره‌های متنی بزرگ را به چشم معدن‌هایی سرشار دید که با فرآیندهای مهندسی شده اکتشاف دانش می‌توان از آن‌ها به حجم وسیع و ارزشمندی از تحلیل‌ها و استنتاج‌ها رسید. این معدن سرشار می‌تواند نظرات کاربران در مورد محصولات یا اخبار یک سایت، توییت‌های کاربران در مورد موضوعات متفاوت، مجموعه مقاله‌های چاپ شده در یک کنفرانس، خبرهای یک سایت خبری و یا هر مجموعه دیگری که حاوی اسناد متنی معناردار است باشد.
بیشتر