با توجه به افزایش حجم داده ها در عصر اطلاعات وقت و هزینه قابل توجهی جهت دسته بندی و جستجوی داده ها صرف می گردد که نیاز به روش ها و مدل های جدید داده کاوی بیش از پیش مشهود است، خصوصا این نیاز در مورد وب که بزرگترین پایگاه اطلاعات عمومی است ضروری تر می نماید. در این خصوص دو عامل حجم و تنوع اطلاعات به همراه تعداد رو به رشد کاربران چالش بزرگی را در زمینه فرایند داده کاوی بوجود آورده است شایان ذکر است که یکی از فرآیندهای اصلی در سیستم های جستجوگر شاخص گذاری اطلاعات است که ارتباط مستقیم با تعداد اسناد موجوددر پایگاه دارد.
تحقیقات اخیر نشان میدهد که زمان شاخص گذاری با افزایش تعداد اسناد موجود در پایگاه داده به شدت افزایش می یابد تحقیق حاضر به بررسی خصوصیات اسناد یک پایگاه داده بزرگ و استاندارد شامل پرونده های جمع آوری شده از وب پرداخته است این خصوصیات شامل تعداد، نوع، و اندازه اسناد که تاثیر آن ها بر ساختار فایل شاخص و فرآیند شاخص گذاری مورد بررسی قرارگرفته است.
کلمات کلیدی: داده کاوی، بازیابی اطلاعات، شاخص گذاری، ساختار فایل معکوس، حجم پایگاه داده