Civicom, una pequeña comunidad dedicada al software y conocimiento libre, empresas, profesionales liberales y emprendedores, te da la bienvenida. Participa, regístrate y comenta, pregunta, responde, señala los errores que veas, ayúdanos a conocer recursos libres (sean gratis o no) y no olvides promocionar tu trabajo, tu empresa, tus productos y servicios, tu sitio web, tu blog ... Si te gusta algún artículo, ayuda a difundirlo haciendo clic en: |
Puedes escribir con todos los privilegios en el muro de la página de Civicom en Facebook: |
Internet Marketing 3: Buscadores
Buscadores
Los buscadores navegan o exploran la Web, la rastrean, primero cada dominio y después siguiendo el rastro de los hipervínculos (los que no tengan el atributo Nofollow pero no te preocupes por ésto ahora). Entre otras cosas, los buscadores indexan y cachean las páginas de los sitios Web. La indexación consiste en algo muy parecido al índice analítico que vimos al final del artículo anterior, con la salvedad de que los robots no lo hacen igual que las personas.
Para ellos es más difícil distinguir exactamente las acepciones de las palabras y acrónimos, la conjugación de los verbos, los sinónimos, el género (masculino, femenino y neutro), el número (singular y plural), prefijos y sufijos, espacios en blanco omitidos como "nicolasramos", faltas de ortografía como la ausencia de tildes, el uso de tildes para diferenciar artículos de pronombres o preposiciones de complementos circunstanciales, etc.
Cuando realizas una búsqueda en Google, no estás buscando en la Web, sino en el índice del buscador. Google estrenó nuevo sistema de índice a mediados de 2010 que se llama Google Caffeine, y que puedes conocer mejor en http://googleblog.blogspot.com/2010/06/our-new-search-index-caffeine.html . Si quieres saber más profundamente cómo funciona, lo explican en http://www.google.com/howgoogleworks/
En cuanto a la caché, es una captura instantánea de la página, algo que de lejos puede parecer a lo que hace la máquina del tiempo, pero que es muy diferente, ya que los buscadores solamente guardan la última captura y lo hacen página a página, es decir, no es una copia funcional del sitio.
Otras cosas que hacen los buscadores son las siguientes:
- clasificar los sitios por localización (idomas y territorios),
- tener en cuenta los enlaces de una página a otra para asignar un valor a cada sitio, que en el caso de Googlebot se llama Page-Rank y usa una escala de 0 a 10 para cada página de cada sitio,
- tener en cuenta el Page-Rank para asignar un "peso" o importancia o relevancia a cada enlace,
- etc.
En el anterior artículo mencioné el buscador de Google, y ciertamente es una de las primeras cosas que debemos conocer, pero Google tiene muchas más herramientas además del buscador, y hay más buscadores, algunos especializados como el ya citado Summize. Así que hay muchas cosas por conocer, solamente de Google tenemos las herramientas para Webmasters que ya mencionamos, Google Analytics, Google AdSense, Google AdWords, Google Engage, Google Checkout, Google Merchant, Google Trends, Google Places, Google Boost, Google Buzz, Google Groups, Google Orkut, etc.
En el siguiente artículo hablaremos de los blogs, pero voy a adelantar que el término viene de Web Log o registro o bitácora de navegación Web. Y es que muchas páginas de los primeros tiempos consistían en enlaces, lo cual es lógico porque el hipertexto ( http://es.wikipedia.org/wiki/Hipertexto ) es la característica fundamental del diseño de la Web, y no existían los marcadores (o favoritos para la gente Microsoft Windows) en el único explorador Web que existía entonces y que se llamaba Navigator, motivo por el que usamos "navegador" para traducir "browser" y que, en rigor, se denomina "agente de usuario". Navigator, de la compañía Netscape, era el programa o aplicación que usábamos para "surfear". Netscape lo "infló" (bloated en inglés) en su versión llamada Communicator, lo cual condujo a un fracaso y terminó desapareciendo para ser rescatado por la fundación Mozilla que lo desarrolló hasta lo que hoy es FireFox. De los navegadores y de "la guerra de los navegadores" también habrá que hablar más extensamente, especialmente ahora que acaba de salir FireFox 4 ( http://www.mozilla.com/es-ES/firefox/ ).
Bien, pues el párrafo anterior es para señalar que las páginas de enlaces eran muy frecuentes. La mía tenía unas secciones de prensa, radio, tv, diccionarios, etc, que he conservado. A continuación reproduzco la sección de buscadores tal como la dejé en 2002, cuando ya no seguí actualizándola:
Buscadores. Datos de 2002.
Principales motores (bots, crawlers) de búsqueda (arañas, spiders), buscadores de directorio y metabuscadores.
| http://www.buscopio.net | Directorio de buscadores: 3.600 buscadores especializados. | Dir de buscadores |
| http://es.todalanet.com | En español. Elige automáticamente entre unos 100 buscadores. | Metabuscador |
| http://www.nodos.com | En español. Usa 14 buscadores. | Metabuscador |
| http://www.google.com | 1.600 millones de páginas. Enlaza con AltaVista (550), Excite (330), Lycos (120) y Yahoo. | Motor |
| http://www.euroseek.com | Idioma configurable. Especializado en sitios europeos. | Motor |
| http://www.dmoz.org | Directorio de Netscape. 2'5 millones de páginas en 400.000 categorías. | Directorio |
| http://www.terra.es | Portal con más de 200.000 páginas indexadas. | Directorio |
| http://www.ozu.es | Portal con Directorio. | Directorio |
| http://www.msn.es | Portal de Microsoft Network España que incluye motor y directorio. | Motor y Dir |
| http://www.hispavista.com | Portal en español con motor y directorio. | Motor y Dir |
| http://www.elindice.com | En español. | |
| http://www.buscaya.net | En español. | |
| http://www.tematicos.com | Búsqueda de temas determinados. | |
| http://www.search.com | En inglés. Usa unos 40 buscadores. | Metabuscador |
| http://www.metacrawler.com | En inglés. Usa 12 buscadores. | Metabuscador |
| http://www.qbsearch.com | En inglés. Usa 17 buscadores. | Metabuscador |
| http://www.webtop.com | En inglés. 500 millones de páginas. | Motor |
No sé si es entrañable o patético, si tiene el encanto de las cosas antiguas o huele a rancio precisamente por el paso del tiempo. Tampoco sé si alguna vez usaste Altavista, y si es así, cuanto tiempo hace que no lo usas http://es.altavista.com/ , o Lycos http://www.lycos.es/ , o Astalavista http://www.astalavista.com
En aquellos tiempos Telefónica compró Lycos y ahora Terra usa el buscador de Google, pero Telefónica no paga a Google por usar el buscador, sino que Google paga a Telefónica, del mismo modo que a cualquier sitio Web que disponga Google para búsquedas, porque al usarlo los anuncios llegan a más personas y los anunciantes pagan esa publicidad.
Podemos decir que 2002 es "la antigüedad" cuando se trata de Internet, aunque la hayamos venido usando desde el 94 ó 95. Las cosas han cambiado mucho desde entonces, por ejemplo, ahora tenemos buscadores scrape ( http://en.wikipedia.org/wiki/Web_scraping ) que simulan la exploración humana de la Web, y hace años que se sentaron las bases de lo que será la "Web 3.0", pero lo importante es que seguirán cambiando, cada vez a mayor velocidad, y durante esta década más empresas querrán tener un sitio web ... y los individuos.
Aunque los enlaces de la lista siguen llevando a algún sitio, la mayoría han cambiado hasta el punto de no tener buscador, como Terra. Si tienes curiosidad puedes usar "la máquina del tiempo" para verlos como eran en 2002 o 2003. Pero ahora sería más interesante actualizar la lista, no sin antes destacar a Google y a Dmoz que no han hecho más que aumentar su relevancia. Si tienes un sitio, no está de más darlo de alta en Google y Dmoz, aunque seguramente Google lo encontrará sin ayuda, puedes hacerlo en http://www.google.es/addurl/ u otro dominio de Google distinto de google.es, mientras que en el caso de Dmoz, has de solicitarlo en su sitio y esperar que el tuyo sea admitido.
En España prácticamente se usa Google solamente, aunque suelo ver la barra de ask.com (antes Ask Jeeves), http://www.ask.com instalada en los usuarios. El buscador de Microosoft ahora se llama Bing, http://www.bing.com/ mientras que la lista anterior de 2002 era parte de MSN. Y también es importante el buscador de Yahoo http://search.yahoo.com/
Ejercicio 1
Busca la palabra "civicom" en ask.com y en un buscador que no hayamos mencionado como http://www.websearch.com/ y compara los resultados.
Ejercicio 2
Haz búsquedas en Google de tu sitio o de un sitio o palabra clave que frecuentes mucho, primero en el ordenador que usas habitualmente y luego la misma búsqueda con otro navegador, o con otra cuenta de usuario o incluso en otro ordenador que sepas que esa búsqueda no se realiza a menudo. Entonces comprueba que los resultados son diferentes porque, de alguna manera (seguramente una cookie), Google intenta reconocer las preferencias del usuario o personalizar los resultados de las búsquedas.
Ejercicio 3
Busca "web search" para obtener resultados como http://www.webcrawler.com/ y muchos otros buscadores que te ayuden a comprobar qué tal ven los buscadores tu sitio web. Algunos resultados pueden ser: Voila France, Yandex US, Bleko, Blekko US, Yahoo de muchos sitios, Bing de muchos sitios, Google de muchos sitios, Exalead, Cuil, Najdi, Excite, Seek France, SAPO Portugal, ASK, AOL, AllesKlar, Seznam, Cent, Lycos, Virgilio, Gigablast, etc.
Googlebot: El buscador de Google.
En el próximo artículo veremos que Google tiene un buscador específico de blogs, y seguramente ya conocerás el de noticias, pero ahora vamos a mirar Googlebot un poco más de cerca, pero desde una perspectiva distinta a la habitual: no se trata de realizar búsquedas normales, sino de ver nuestro sitio desde el punto de vista del buscador y de los usuarios.
Googlebot
El buscador de Google es el motor de búsqueda más utilizado en las búsquedas de Internet (en países como España superaban el 90% en 2008), es del tipo araña y funciona en tres fases: Rastreo, Indexación y Publicación (http://www.google.com/support/webmasters/bin/answer.py?answer=70897).
Lo que vamos a ver es el uso de operadores para obtener información que Googlebot nos proporciona sobre nuestro sitio Web. Como ejemplo usaremos este sitio: "civicom.eu". Obtendremos información del sitio, tanto general como en relación a las palabra clave "erp tenerife", porque esas palabras representan un nicho de mercado donde queremos competir, donde queremos posicionarnos. La palabra clave "ERP" es similar a "sistema de gestión", "sistema de gestión empresarial", etc., por lo que también hay que realizar las consultas para todas ellas.
Una vez que consigamos posicionarnos en un nicho como "erp tenerife", los siguientes pasos serían: erp canarias, erp españa, erp español, y por último: erp. Y en este caso, lo mismo para otras palabras clave como: erp libre, erp open source, etc.
Para ver la presentación haz clic en el botoncito verde o en el botón "Play" al pie.
El primer operador de Googlebot es info, y para este ejemplo lo usaríamos de la forma siguiente: info:civicom.eu. Obtendremos 5 enlaces que corresponden a otros 4 operadores y la búsqueda normal:
- cache:civicom.eu o haciendo clic en "caché" de un resultado de búsqueda normal, nos da la instantánea del sitio y el momento que fue tomada.
- related:civicom.eu o haciendo clic en "Páginas similares" de un resultado de búsqueda normal, podemos encontrar contenidos o productos de la competencia. Pero hay un problema, si, como en nuestro caso, la compañía usa múltiples URLs para sus páginas (como civicom.eu y www.civicom.eu), puede haber poca información en una URL pero más en otra. Sin embargo, en general, "Páginas similares" funciona bien para la mayoría de las páginas web y además Google permite que corrijamos la disyuntiva agregando ambos sitios y seleccionando una de las dos direcciones como "Dominio preferido", en nuestro caso civicom.eu en detrimento de www.civicom.eu; también podemos configurar un redireccionamiento 301, en un servidor web Apache mediante .htaccess, lo que fue un buen motivo para abandonar el alojamiento de Telefónica que usa un servidor IIS de Microsoft.
- link:civicom.eu nos da los sitios que Google ha encontrado que enlazan con el sitio indicado, en este caso civicom.eu, que es nuestro ejemplo.
- site:civicom.eu nos da las páginas que Google tiene indexadas de nuestro sitio web, cuantas más haya más posibilidad de salir arriba en el resultado de la búsqueda. En su día nos daba estadísticas, es decir, las visitas que habían sucedido a una búsqueda. Para las estadísticas del sitio podemos usar Google Analytics.
- El último de los enlaces nos da los resultados de búsqueda normales, es decir, sin hacer uso de ningún operador.
Normalmente, Googlebot nos muestra los resultados en páginas de 10, el botón "Voy a tener suerte" nos lleva directamente al primero de ellos. Googlebot no cachea las imágenes, sino las direcciones de los sitios en que se encuentran.
- Inicie sesión o regístrese para comentar

679.404.986