Sådan oprettes en Web Spider

October 27

En web spider er en computer program, der henter en webside, og derefter følger alle de links på denne side, og henter dem så godt. Web edderkopper bruges til at gemme hjemmesider for offline læsning, eller til opbevaring af websider i databaser, som skal bruges af en søgemaskine. Oprettelse af en Web edderkop er en udfordrende opgave, egnet til en college-niveau programmering klasse. Disse instruktioner antager at du har erfaring med programmering solid, men ingen viden om edderkop arkitektur. Trinene lægge en meget specifik arkitektur for at skrive en web edderkop i dit valgte sprog.

Instruktioner

1 Initialiser dit program til den oprindelige webside, du ønsker at downloade. Tilføj URL til denne side til en ny database tabel over URL'er.

2 Send en kommando til webbrowseren instruerer den til at hente denne webside, og gemme den til en disk. Flyt databasen pointer frem et skridt forbi den webadresse, du lige har downloadet, som nu vil pege på enden af ​​bordet.

3 Læs websiden ind i programmet, og parse det for links til yderligere websider. Dette sker typisk ved at søge efter tekststrengen "http: //" (. Såsom "", "", eller ">"), og opfange teksten mellem denne streng og en opsigelse karakter. Tilføj disse links til URL database tabel; databasen pointer bør forblive på toppen af ​​denne nye liste.

4 Test posterne i databasen tabellen for entydighed, og fjern eventuelle URL'er, der vises mere end én gang.

5 Hvis du ønsker at anvende en URL-filter (for eksempel for at forhindre download af sider fra websteder på forskellige domæner), gælder det nu for at URL database tabel og fjern eventuelle webadresser, du ikke ønsker at downloade.

6 Opsæt en programmatisk løkke, så din edderkop tilbage til trin 2 ovenfor. Dette vil rekursivt downloade alle de webadresser dine spider møder. Fjernelse dublerede URL'er sikrer, at edderkoppen ordentligt ophører, når den når det sidste unikke URL.

TIPS

  • Hvis du bruger et Unix operativsystem, skal du kontrollere Unix dokumentation (eller "mand sider") for krølle og wget. Disse kommandoer omfatter mange indbyggede spider muligheder, hvilket i høj grad kan reducere sendetid og kompleksitet.

relaterede artikler