lunes, 5 de noviembre de 2007

PageRank

Alien [blackHat4all@gmail.com]

A raíz de una noticia publicada en la pasada edición, muchas personas (a las que imagino como webmasters) han escrito a BlackHat pero no para saber sobre qué es el PageRank sino para obtener más información al respecto.

Empezaré diciendo, para los no duchos en el tema, que PageRank en una especie de valor que adquiere o pierde una página en la red, y ese valor es el que define si al hacer una búsqueda con Google la página será mostrada entre una de las primeras o no.

Constantemente circulan, salidos de Google, unos programas a los que se les llama Bot, que se encargan de revisar el contenido de toda la web y enviar reportes al gigante buscador. En esos reportes se dice si una página ha desaparecido o se ha creado una nueva, y se incluye también un número que luego Google utilizará para modificar el PageRank de esa página.

Por lo general esos bot son algo “inteligentes”, y por el creciente contenido que aparece en internet ellos deben saber hacia dónde dirigirse con más frecuencia y qué lugares deben ser los menos visitados. Por ejemplo, todos sabemos que Wikipedia en una de las páginas que más modificaciones tiene a diario ya que es un lugar donde no solo el administrador de la página puede “trastear” sino cualquiera que sienta deseos de publicar información que a su consideración puede resultar útil para los demás. Por esta razón, imagino que Google haya creado un Bot específico para que monitoree los cambios que se hagan en Wikipedia, dando como resultado que al poco tiempo de haber sido introducido un artículo en esta web ya Google lo haya insertado a su listado de resultados.

Lo dicho anteriormente pudiera ser válido también para las páginas de noticias, blogs y quizás algún que otro foro de relevancia en la red. No es así con otras páginas que se modifican raras veces, digamos, por ejemplo, una web donde se trate un contenido histórico. Todos sabemos que las páginas de ese tipo no suelen ser modificadas con frecuencia, por lo que quizás los Bot se dirijan esporádicamente a esos lugares, pudiendo demorar más de un mes en que Google se percate que el contenido de esa página ha cambiado.

Y tenemos aquí, casi sin quererlo, el primer truco que hará que los Bot visiten más frecuentemente nuestra página: solo debemos asegurarnos de que sea dinámica y cambiar constantemente el contenido.

SpammingKeywords

Otro aspecto que detectan los Bot es la cantidad de palabras que se repitan en la web y coincidan con nuestro criterio de búsqueda. Digamos, por ejemplo, que estamos buscando información sobre los lápices, y para simplificar el ejemplo, supongamos que existen en toda la red solo dos páginas que hablen de ese tema. Ahora, para hacerlo más sencillo aún, imaginemos que cada una de las dos web que tratan sobre lápices tienen solamente en su contenido una oración, quedando de esta forma:

Web #1: Los lápices son muy importantes para escribir en las libretas de los niños de una escuela. Están constituidos de madera y grafito, y si haces clic en este vínculo, se te enviará uno por DHL.

Web #2: Los lápices son lindos, los lápices son útiles, los lápices son lápices.

No es difícil darse cuenta que quizás la web que más nos resolverá el problema sea la web #1, no solo porque nos regalará un lápiz, sino porque nos da más información sobre el mismo. Sin embargo al realizar una búsqueda, Google nos mostrará de primera opción la web #2 (a menos que la web #1 cumpla con requisitos que se explicarán más adelante).

¿Por qué sucede esto?. El problema es que por muy inteligentes que sean los Bot... son solo Bot, programas que se encargan de monitorear el contenido de la red y enviar reportes, y al ver que la web #2 tiene más palabras que coinciden con nuestro criterio de búsqueda, ellos asumen que esa debe ser la primera en mostrar. Tenemos ya nuestro segundo truco, que está basado en la incapacidad de los Bot para definir, sin importar la cantidad de repeticiones, cual web es de mayor interés para el usuario. Por lo tanto, si este boletín estuviera en la red, y en lugar de “Hello World”, hubiésemos puesto tantas veces como sea posible “BlackHat”, de seguro nuestra página aumentaría notoriamente en la red. Y aunque el contenido como tal no sea de interés, sería la primera en mostrarse al efectuarse una búsqueda.

Si alguien se decide a aplicar esta técnica, debe tener bien claro que puede ser penalizado por los Bot haciendo que la página desaparezca definitivamente de la lista de contenidos a mostrar

Pero… ¿por qué esto no siempre sucede así?.
El caso es que los Bot no son tan bobos y los programadores de los mismos ya han previsto estas cosas, así que han buscado otro aspecto que contribuya a elevar el PageRank de una página y estos son los enlaces que hayan hacia la misma.

Granja de enlaces.

Por lo general, una página, mientras más útil sea, se supone que mayor cantidad de sitios apunten hacia ella y por otra parte, mientras mayor sea el Page Rank de un sitio que apunte a otro, mayor será el número en que crecerá este último. Viendo las cosas de esta forma, no hay problemas, pero el caso es que muchas veces las empresas que carecen de una buena posición en el buscador se dedican a comprar vínculos; es decir, por una suma de dinero, se las arreglan para estar en la sección de páginas amigas de la mayor cantidad de sitios posibles.

Realmente es muy difícil para un Bot darse cuenta de cuándo un vínculo es legítimo o cuando es adquirido mediante el soborno. Y qué digo difícil: es más bien imposible.

Pero esta opción no es utilizada por todo el mundo ya que imaginen ustedes qué precio tendría poner en Microsoft o Intel un vínculo hacia una página que no es tan popular y, por ende, no cuenta con el capital necesario para darse ese tipo de promoción.

En estos casos, lo que hacen es trabajar en conjunto. Digamos por ejemplo dos web que acaban de salir no tienen fondo monetario para comprar vínculos y no creen que el spam sea la mejor forma de darse a conocer. ¿Qué hacen? Pues nada, cada una pone en su página un vínculo a la otra y de esa forma irían aumentando su PageRank al mismo nivel, hasta que, por el contenido que traten, una de las dos empiece a recibir más visitas que la otra y después se olvide de que empezaron juntas.

Texto Oculto

Anteriormente hablábamos sobre la cantidad de palabras que se repiten en las páginas y de la contribución de esto a ser tomado en cuenta por los Bot con más interés que otros sitios. Pero, ¿a quién le interesaría entrar en una web que solo diga la misma palabra repetidas veces?

Esto se solucionó de una forma muy fácil para los Webmaster: solo tenían que colocar ese texto repetido del mismo color del fondo de de la página.

El problema con esto se solucionaría a medias, ya que el usuario, que el 0.1% de las veces que navega se dedica a editar la página no vería diferencias, pero los Bot, que no leen el texto, sino el código, detectarían de inmediato que se está tratando de hacer trampas. La pregunta aquí es: ¿cómo ellos lo saben?.

Una página, que hable sobre pelota evidentemente tendrá al menos en el título esa palabra; pero si se dedica a hablar de pelota solamente, al menos a mí me parece lógico que varias veces repita la palabra, y aunque el español sea muy rico (en cantidad de sinónimos), no creo que en una web se puedan colocar tantos de ellos como para no repetirlos (hagan la prueba si quieren).

Lo que hacen los Bot es definir un porciento, y si la cantidad de repeticiones sobrepasa ese límite, entonces la página estará tratando de hacer trampas en la web y será penalizada.

¿Qué cual es el porciento? Eso jamás se sabrá con exactitud pero el promedio ronda sobre el número 15. Yo les recomendaría en primer lugar no hacerlo pero, en caso de que se decidan, por si las moscas, no sobrepasen el 12.

Este porciento se calcula contando la cantidad de repeticiones de una palabra clave con respecto a la cantidad de palabras que tiene la página. Para efectuar esa cuenta se me ocurre el Word, la calculadora de Windows  y un cerebro, no pienso que haga falta más.

A raíz del código publicado en la pasada edición por Reinier, se me ocurre otra técnica; no se si exista, o si ya alguien la haya utilizado, pero es realmente algo bochornoso de hacer.

La técnica no consiste en elevar el PageRank de nuestro sitio, sino en disminuir el de los demás. Mediante el uso (y abuso) de las técnicas anteriores y otras que a cualquiera se le pueda ocurrir, se puede tratar de penalizar a los sitios que estén por encima del nuestro haciendo que ellos caigan irremediablemente en la posición de las listas. Nosotros, aunque no aumentemos nuestros numeritos, iríamos ascendiendo hasta estar en la primera posición.

Esto, aunque perfectamente pudiera hacerse por un Webmaster, creando un página que en nada tenga que ver con la suya y generando por montones vínculos hacia otras web, no es para nada alentador ni digno de reconocer.

La informática, si ha llegado hasta donde está, no es por aplastar a otras ciencias, ni por tratar de restarles importancia, sino por valerse de los recursos de estas brindan para aumentar su propio valor. Estar por encima de una página cuyo Pagerank sea 0, 1, 2 o cualquier otro numero insignificante que sea asignado a las páginas que aparecen después de la vigésima hoja de Google, no es nada meritorio. Importante, en cambio, es estar al nivel, o al menos cerca, de las que le han pagado millones al megabuscador para aparecer a la derecha cuando todas están a la izquierda. Mérito debe tener la web que, a poco tiempo de su salida, aparece en una de las primeras 20 opciones al menos.

Hace algún tiempo, cuando BlackHat estaba online, la comunidad tuvo la suerte de experimentar esa dicha: veíamos cómo, sin trampas ni artilugios, nuestra web iba escalando posiciones hasta llegar a ocupar elprimer lugar dentro de las páginas bajo dominio .cu, 4ta posición en todas las web escritas con el carácter “ñ” y 8va en el mundo.

Por el momento solo tenemos un repositorio de ediciones pasadas, pronto esperamos tener conformada nuestra web nuevamente.

Y nuevamente esperamos que ustedes, a pura conciencia, elevan nuestro PageRank.



Artículos relacionados


No hay comentarios: