كشط الويب مع خبير Semalt

تجريف الويب ، والمعروف أيضًا باسم جني الويب ، هو أسلوب يستخدم لاستخراج البيانات من مواقع الويب. يمكن لبرنامج حصاد الويب الوصول إلى الويب مباشرة باستخدام HTTP أو مستعرض ويب. بينما قد يتم تنفيذ العملية يدويًا بواسطة مستخدم برنامج ، فإن التقنية تستلزم بشكل عام عملية مؤتمتة يتم تنفيذها باستخدام زاحف الويب أو الروبوت.

تعد خدش الويب عملية يتم فيها نسخ البيانات المنظمة من الويب إلى قاعدة بيانات محلية لمراجعتها واسترجاعها. تتضمن جلب صفحة ويب واستخراج محتواها. قد يتم تحليل محتوى الصفحة والبحث فيه وإعادة هيكلته ونسخ بياناته إلى جهاز تخزين محلي.

يتم إنشاء صفحات الويب بشكل عام من لغات ترميز نصية مثل XHTML و HTML ، وكلاهما يحتوي على مجموعة كبيرة من البيانات المفيدة في شكل نص. ومع ذلك ، فقد تم تصميم العديد من هذه المواقع للمستخدمين النهائيين وليس للاستخدام الآلي. هذا هو السبب في إنشاء برنامج الكشط.

هناك العديد من التقنيات التي يمكن استخدامها لكشط الويب الفعال. وقد تم تفصيل بعضها أدناه:

1. النسخ واللصق البشري

من وقت لآخر ، حتى أفضل أدوات تجريف الويب لا يمكن أن تحل محل دقة وكفاءة النسخ واللصق اليدوي للإنسان. ينطبق هذا غالبًا في المواقف التي تضع فيها مواقع الويب حواجز لمنع أتمتة الماكينة.

2. مطابقة نمط النص

هذا نهج بسيط إلى حد ما ولكنه قوي يستخدم لاستخراج البيانات من صفحات الويب. قد يعتمد على أمر UNIX grep أو مجرد وسيلة تعبير عادية للغة برمجة معينة ، على سبيل المثال ، Python أو Perl.

3. برمجة HTTP

يمكن استخدام برمجة HTTP لكل من صفحات الويب الثابتة والديناميكية. يتم استخراج البيانات من خلال نشر طلبات HTTP إلى خادم ويب بعيد مع الاستفادة من برمجة مأخذ التوصيل.

4. تحليل HTML

تميل العديد من مواقع الويب إلى الحصول على مجموعة كبيرة من الصفحات التي تم إنشاؤها ديناميكيًا من مصدر بنية أساسي مثل قاعدة البيانات. هنا ، يتم ترميز البيانات التي تنتمي إلى فئة مماثلة في صفحات مماثلة. في تحليل HTML ، يكتشف البرنامج عمومًا مثل هذا القالب في مصدر معين للمعلومات ، ويسترد محتوياته ثم يترجمه إلى نموذج تابع ، يشار إليه باسم المجمع.

5. تحليل DOM

في هذه التقنية ، يتم تضمين برنامج في مستعرض ويب كامل مثل Mozilla Firefox أو Internet Explorer لاسترداد المحتوى الديناميكي الناتج عن البرنامج النصي من جانب العميل. قد تقوم هذه المتصفحات أيضًا بتحليل صفحات الويب في شجرة DOM اعتمادًا على البرامج التي يمكنها استخراج أجزاء من الصفحات.

6. التعرف على الشرح الدلالي

قد تتضمن الصفحات التي تنوي كشطها ترميزات دلالية وتعليقات توضيحية أو بيانات وصفية ، والتي يمكن استخدامها لتحديد مقتطفات بيانات معينة. إذا تم تضمين هذه التعليقات التوضيحية في الصفحات ، فقد يتم عرض هذه التقنية كحالة خاصة لتحليل DOM. يمكن أيضًا تنظيم هذه التعليقات التوضيحية في طبقة نحوية ، ثم تخزينها وإدارتها بشكل منفصل عن صفحات الويب. يسمح للكاشطات باسترداد مخطط البيانات وكذلك الأوامر من هذه الطبقة قبل أن تتخلص من الصفحات.