Results 1 to 5 of 5

Thread: Crawler - ili masovno pretrazivanje sajtova za odredjene rijeci

  1. #1
    Join Date
    Jun 2014
    Posts
    2,014
    Thanks Thanks Given 
    0
    Thanks Thanks Received 
    0
    Thanked in
    0 Posts

    Default Crawler - ili masovno pretrazivanje sajtova za odredjene rijeci

    Ne znam kako se zove softver koji radi ovo ili da li uopste postoji. Uglavnom trazim program sa kojim mogu da otvaram po 500-1000 stranica odjednom i da trazi specificnu rijec i da mi kaze na koji link je to nadjen ? Isti je sajt u pitanju, samo ima na hiljade pod linkova koje ja imam .Dakle ne treba mi struktura sajta.

  2. #2
    Join Date
    Mar 2008
    Location
    Bar
    Posts
    2,200
    Thanks Thanks Given 
    66
    Thanks Thanks Received 
    112
    Thanked in
    71 Posts

    Default

    Ne znam kakav ti output treba, ali ako sam shvatio dobro moze ti i ovo pomoci, samo kucaj na google pretrazi: site:www.tvojsajt.com kljucnarijec

    Takodje yahoo ima dobar api, moze se dosta lako neka skripta uraditi

  3. #3
    Join Date
    Jun 2014
    Posts
    2,014
    Thanks Thanks Given 
    0
    Thanks Thanks Received 
    0
    Thanked in
    0 Posts

    Default

    Ne, ne treba mi to, ovi sajtovi nisu na google, ne indexuju se nigdje, u pitanju je www.sajt.com/1 , pa treba da pretrazi npr od recimo 1 do 10.000 ili i vise. Evo gledam nesto preko pythona i scrapija da vidim, ako ima neko nesto lakse i bolje neka mi javi. Ili komandu koju da dodam kako bi mi otvarao 500strana, onda cekao 30sekundi i otvarao opet 500 drugih i tako ..

  4. #4
    Join Date
    Jun 2014
    Posts
    2,014
    Thanks Thanks Given 
    0
    Thanks Thanks Received 
    0
    Thanked in
    0 Posts

    Default

    Konacno sastavih kod za ovo. Moze lock.

  5. #5
    Join Date
    Jan 2004
    Location
    Herceg Novi
    Posts
    3,365
    Thanks Thanks Given 
    0
    Thanks Thanks Received 
    0
    Thanked in
    0 Posts

    Default

    Kasno viđeh post ...

    Uglavnom, možda je ova metoda jednostavnija:

    wget --mirror --random-wait -A htm,html -e robots=off http://www.tvojsajt.com
    kako bi napravio mirror ignorišući pri tome robots.txt (što može biti zgodno) i poštujući strukturu Web sajta. Potom sljedeća komanda kako bi pretražio gdje se nalazi određeni zapis:

    findstr /spin /m /c:"odredjenizapis" *.*

Thread Information

Users Browsing this Thread

There are currently 1 users browsing this thread. (0 members and 1 guests)

Similar Threads

  1. Replies: 4
    Last Post: 27-12-13, 10:35
  2. Intolerancija krvi na odredjene namirnice
    By Titania in forum Medicina
    Replies: 13
    Last Post: 07-12-09, 00:38
  3. Opet masovno ubistvo u USA
    By simm in forum Politika generalno
    Replies: 19
    Last Post: 18-02-08, 09:30
  4. Opet masovno ubistvo u USA
    By simm in forum Budućnost Crne Gore
    Replies: 0
    Last Post: 06-12-07, 12:01

Bookmarks

Bookmarks

Posting Permissions

  • You may not post new threads
  • You may not post replies
  • You may not post attachments
  • You may not edit your posts
  •