بر اساس تخمینهای صنعت، بیش از ۸۰ درصد دادههای تولید شده به صورت قالبهای بدون ساختار است، مثل فرمت متن، عکس، صوت، ویدئو و ... .در حالی که ما داریم صحبت میکنیم، مینویسیم، توییت میکنیم، از پلتفرمهای شبکههای اجتماعی استفاده میکنیم، بر روی پلتفرمهای مختلف پیام رسانی، پیام ارسال میکنیم یا در حال خرید در فروشگاههای الکترونیکی هستیم، در حال تولید داده هستیم. بیشتر این دادهها در قالب متن وجود دارند.
بنابراین دادههای بدون ساختار چه چیزی هستند؟ دادههای بدون ساختار اطلاعاتی هستند که در یک پایگاه داده رابطه ای سنتی وجود ندارند. برای مثال اسناد، بلاگ ها، فیدهای رسانههای اجتماعی، تصاویر و ویدئو ها. دادههای متنی بیشتر از ۵۰ درصد دادههای بدون ساختار را تشکیل داده اند.
اما پردازش زبان طبیعی که عموما با NLP نیز شناخته میشود چیست؟ همه ما میدانیم که ماشینها و الگوریتمها درکی از متون و کاراکترها ندارند، بنابراین خیلی مهم است که بتوانیم متن را به فرمت قابل فهم برای ماشین (مثل اعداد یا باینری) تبدیل کنیم تا برای هر نوع آنالیزی بر روی دادههای متنی قابل استفاده شوند. این که کاری کنیم که ماشینها زبان انسانها (دادههای متنی) را بفهمند و ترجمه کنند را اصطلاحا پردازش زبان طبیعی گویند.