+ Responder tema
Resultados 1 al 10 de 10

Tema: Como puedo recorrer una pagina web con algun lenguaje de programacion?

  1. #1
    Recien Nacido
    Fecha de ingreso
    09 sep, 10
    Mensajes
    6
    Gracias
    0
    Agradecido 1 vez en 1 Mensaje

    Predeterminado Como puedo recorrer una pagina web con algun lenguaje de programacion?

    Hola hace meses que quisiera programar algo entretenido, se lo basico de C y Java... pero no es ningun problema aprender otros tipos de lenguaje como python, ruby no se (el que recomienden)

    Mi intencion es generar algun "programa", "script" no se... que me permita recorrer una pagina web y asi poder (por ejemplo) tener todas los links de las descargas en un archivo, etc.

    No se por donde empezar, ni como hacerlo. Necesito de vuestra ayuda.

    Quizas podria hacerse como extension de firefox, greasemonkey o con algun lenguaje en especial... porfavor ayudenme =)

    Saludos fraternos
    freecom4ever

  2. #2
    kyo
    kyo está desconectado
    Recien Nacido
    Fecha de ingreso
    13 ago, 08
    Ubicación
    Santa Cruz - Bolivia
    Mensajes
    10
    Gracias
    0
    Agradecido 1 vez en 1 Mensaje

  3. #3
    Recien Nacido
    Fecha de ingreso
    30 sep, 08
    Mensajes
    25
    Gracias
    0
    Agradecido 1 vez en 1 Mensaje

    Predeterminado

    Usa el Wget como spider y luego comandos como cut,gep, etc... para recorrerla y luego filtrar los links y archivos.
    No se debe llorar por los que mueren, si no por los que nacen, ya que no podemos darles un mundo mejor.

  4. #4
    Administradores Avatar de Epsilon
    Fecha de ingreso
    11 ago, 08
    Ubicación
    Colombia
    Mensajes
    753
    Gracias
    149
    Agradecido 106 veces en 75 Mensajes

    Predeterminado

    Hace poco realice un script en python que hiciera algo parecido, para ello use la libreria urllib es muy simple de usar. mira un ejemplo sencillo

    Código:
    import urllib2,sys  
    from urllib2 import HTTPError, URLError
    file= open(sys.argv[1])
    for linea in file.readlines(): 
            
     try:  
            f = urllib2.urlopen(linea)  
            titulo = f.readlines()
            print titulo[2]  
            f.close()  
     except HTTPError, e:  
            print "Ocurrio un error"
            print e.code  
     except URLError, e:  
           print "Ocurrio un error"
    Lo que hacia este script era recorrer una lista de urls de un archivo que le entregaramos como parametro, abria la web y guardaba el contenido en una lista, despues imprimia el titulo.

    No se si te sirva, pero es un comienzo.

    Nota:"No soy experto programando."



  5. #5
    Recien Nacido
    Fecha de ingreso
    09 sep, 10
    Mensajes
    6
    Gracias
    0
    Agradecido 1 vez en 1 Mensaje

    Predeterminado

    Bueno, Kyo y Epsilon dicen que empiese por pyhton... ahora cual descargo 2.7 o 3.1.2 (http://python.org/download/)?? o da lo mismo??

    Lo que me dice Sune en algun momento lo pense, de hecho lo que quiero hacer es similar al wget -r... pero creo que esta demasiado lejos de mi posibilidades.

    gracias y espero sus respuestas

  6. #6
    kyo
    kyo está desconectado
    Recien Nacido
    Fecha de ingreso
    13 ago, 08
    Ubicación
    Santa Cruz - Bolivia
    Mensajes
    10
    Gracias
    0
    Agradecido 1 vez en 1 Mensaje

    Predeterminado

    te aconsejo la 2.7 es la que se usa en producción la 3 esta en etapa de transicion.

  7. #7
    Dragonauta Oficial Avatar de c1b3rh4ck
    Fecha de ingreso
    09 nov, 09
    Mensajes
    367
    Gracias
    148
    Agradecido 130 veces en 82 Mensajes

    Predeterminado

    Creo que te iria mejor con las superiores a > 3.0
    "Quien se infiltra en la Oscuridad , es Quien se acerca a la verdad "Lao Tse
    Viva Gnu/Linux y la comunidad del libre conocimiento h4ck3r
    twitter: @c1b3rh4ck
    c1b3rh4ck.blogspot.com

  8. #8
    Recien Nacido
    Fecha de ingreso
    09 sep, 10
    Mensajes
    6
    Gracias
    0
    Agradecido 1 vez en 1 Mensaje

    Predeterminado

    Código:
    import urllib2,sys  
    from urllib2 import HTTPError, URLError
    file= open(sys.argv[1])
    for linea in file.readlines(): 
            
     try:  
            f = urllib2.urlopen(linea)  
            titulo = f.readlines()
            print titulo[2]  
            f.close()  
     except HTTPError, e:  
            print "Ocurrio un error"
            print e.code  
     except URLError, e:  
           print "Ocurrio un error"
    Estoy tremendamente agradecido por los comentarios, solo tengo una ultima duda... documentacion recomendada para leer... (se que en google hay arto, de hecho ya estoy leyendo.... es solo para saber que piensan ustedes).

    sobre todo con ejemplos para manipular paginas web

    Saludines

  9. #9
    Dragonauta Avatar de Ksanchez
    Fecha de ingreso
    04 feb, 10
    Mensajes
    199
    Gracias
    61
    Agradecido 38 veces en 23 Mensajes

    Predeterminado

    Ejemplo que propone SUNE

    wget www.nexti3g.com

    luego le das un cat al index.html que quieres leer los links

    cat index.html |grep "href = " >urls.txt

    Te desplegara todos los tags dentro de href= pero de forma desordenada y con mucha basura, ya intervendra cut para cortar los campos que necesites.

    Ejemplo

    cat url.txt |cut -d "/" -f4

    o Algo asi, hasta darle forma al programa. ahora mismo no tengo mi gnu a mano, so. Si quieres algo solo avisame, y te pongo el escript completo. Para que tengas una idea mas o menos. Solo hay que ser creativos.
    Última edición por Ksanchez; 27/09/2010 a las 09:35

  10. #10
    Dragonauta Oficial Avatar de Shell Root
    Fecha de ingreso
    09 ago, 09
    Ubicación
    iNET
    Mensajes
    997
    Gracias
    3
    Agradecido 454 veces en 217 Mensajes

    Predeterminado

    Recordad que existen expresiones regulares, por ejemplo
    [highlight=bash]shellroot@alex-laptop:~$ echo "<a href='http://www.google.com.co'>" | egrep "((ht|f)tps?:\/\/)([a-z\d][-a-z\d]*[a-z\d]\.)+[a-z][-a-z\d]*[a-z]"[/highlight]
    El resultado es,
    <a href='http://www.google.com.co'>
    shellroot@alex-laptop:~$
    <script>alert('Pwned!');</script>
    .
    .
    .
    .

    "Una vulnerabilidad es tan limitada como tu quieras que sea"
    "Nuestros pensamientos más importantes, son los que contradicen nuestros sentimientos..."
    "A veces podemos pasarnos años sin vivir en absoluto, y de pronto toda nuestra vida se concentra en un solo instante..."
    "La vida no se mide por los momentos que respiras, sino por los momentos que te dejan sin aliento...
    "


+ Responder tema

Visitantes encuentran esta página buscando por:

recorrer paginas web

python recorrer pagina web

recorrer web

recorrer una web

script recorrer paginas web

recorer paginas del sitio web

web recorrer links

recorer pagina web

recorrer paginas con python

scri´pt recorrer pagina web

recorrer paginas de internet

recorre paginas web

recorrer la web

recorrer web pyton

recorrer pagina web python

recorrido en una pagina web

ejemplos paginas web lenguaje python

como puedo recorrer el horario de una pagina

programa para recorrer pagina web

lenguaje de programacion para paginas web

como recorrer todos los enlaces de una web

python recorrer pagina y sus links

scrpt recorrer paginas web

script pagina web

recorrer pagina

Etiquetas para este tema

Permisos de publicación

  • No puedes crear nuevos temas
  • No puedes responder temas
  • No puedes subir archivos adjuntos
  • No puedes editar tus mensajes