BlogaBlogBlog

Gai berriak topatzen ditugu eta, noizean behin, baita gai zaharrak ere. Idatziz jartzeko adinako lana ematen digutenak jasotzen ditugu gure blogean.Encontramos cosas nuevas y, a veces, también cosas viejas. Nuestro blog recoge las que nos rondan lo suficiente como para haberlas puesto por escrito.

No such pipe, or this pipe has been deleted

This data comes from pipes.yahoo.com but the Pipe does not exist or has been deleted.

0

Web scraping con Yahoo Pipes! usando el módulo XPath

Para dar respuesta a una serie de cuestiones surgidas en las ediciones del curso sobre Escucha Activa con Yahoo Pipes! en Enpresa Digitala, vamos a montar un pequeño scraper con Yahoo Pipes!.

AVISO 1: Yahoo Pipes! no es una herramienta pensada para hacer scraping, aunque el módulo XPath Fecth Page permite hacer scraping básico (una sóla página) e incluso algo más avanzado, combinándolo con el módulo Loop. También necesitaremos el módulo Rename (y si la codificación de la web no nos facilita la labor, probablemente también necesitemos el módulo Regex). Para proyectos más complejos, mejor ir directamente a sitios como Scraperwiki ;o)

AVISO 2: aunque para hacer scraping con Yahoo Pipes! no hace falta saber programar, sí que es necesario tener un mínimo conocimiento de HTML (etiquetas y estructura del documento). Si además sabemos de selectores CSS podremos entender las rutas XPath fácilmente.

Read More »

0

Extracción automática de entidades en Google Refine con APIs externas

En el post “SNA de tweets recogidos sobre una jornada” comentaba que uno de los problemas de tomar como punto de partida la información que ofrece Twitter, sin procesar, de cara a realizar un análisis SNA es que realmente no da cuenta de todas las menciones que se hacen de distintos usuarios y personas. Al final del post indicaba que una de las carencias de la técnica explicada era que no recogía menciones a personas que no eran usuarios de Twitter.

En este post explico cómo utilizar una API de extracción automática de entidades (Named-Entity recognition) con Google Refine para intentar obtener automáticamente nombres de personas de los tweets, aunque cómo se verá estas herramientas automáticas no son perfectas, por lo que no nos evitarán algo (o bastante, en el peor de los casos) de trabajo manual.

Read More »

, , , , 0

SNA de tweets recogidos sobre una jornada

Hace poco leía un post de Tony Hirst sobre cómo elaborar un grafo de red a partir de tweets sobre un tema, usando Google Refine y Gephi. La técnica parecía bastante sencilla, así que hice un pequeño experimento aprovechando las III Jornadas sobre Fábricas de Creación – II Jornadas de industrias culturales y creativas y empleo, celebrada el pasado 4 de octubre, y en la que estuve metiendo baza en nombre de Kulturklik.

Read More »

, , , 4

Gráfica desmadrada

Recojo esta gráfica del Diario Vasco de hoy, que pasa directamente a la categoría de #graficaca:

Graficaca

Graficaca


Read More »

, 0

Consideraciones sobre la segunda sesión (avanzada) de formación en periodismo de datos organizada por Irekia

El jueves pasado asistimos a la segunda sesión que organizó Irekia sobre periodismo de datos, impartida por Mar Cabra y David Cabo.

Esta sesión estuvo dividida en dos partes: una pequeña introducción a técnicas de scraping, y posterior visualización de datos con Fusion tables; y varias técnicas de cálculo y obtención de nuevos de datos con hojas de cálculo.
Read More »

1

Eurocopa, periodismo de datos y análisis de redes sociales

Esta mañana me he encontrado con esta infografía en El País:

Pases de y a Xavi

La infografía muestra el número de pases dados y recibidos por Xabi. Nunca había visto antes una infografía como ésta, pero lo primero que me ha venido a la cabeza es que partiendo de los mismos datos sería bastante más interesante hacer un grafo usando técnicas de análisis de redes sociales (y con las herramientas gratuitas que hay a nuestra disposición, hasta más rápido). Read More »

4

Consideraciones sobre la primera sesión (básica) de formación en periodismo de datos organizada por Irekia

Esta mañana he estado en el curso sobre periodismo de datos organizado por Irekia e impartido por Mar Cabra (@cabralens) y David Cabo (@dcabo) de Civio.

El curso consta de dos sesiones, una básica (la de hoy) y una avanzada (a la que iré el jueves). Y estas son algunas opiniones, pensamientos… que me ha suscitado la sesión básica.

Read More »

3

Nueva edición del curso “Escucha activa en la web (y cómo facilitar la tarea con Yahoo! Pipes)”

Los próximos días 4-5 de julio impartiré en Miramon Enpresa Digitala una nueva edición del curso sobre escucha activa con Yahoo! Pipes que impartí hace un par de años. En este tiempo Pipes ha modificado su motor interno, añadido o modificado algunos módulos… y han surgido nuevas herramientas que podemos usar en coordinación con Pipes, por lo que he actualizado el temario:
Read More »

, , , 0

ifttt: cualquier canal a CSV (vía Dropbox)

Hace apenas un par de horitas que los chicos de IFTTT han anunciado por Twitter que ponían en marcha unas nuevas acciones para la parte “that” para Dropbox: ‘Create a text file’ y ‘Append to a text file’. Pues bien, resulta que he estado todo el día trasteando con ellas sin saber que estaban recien estrenadas :o)

El uso que le he dado a esta acción es muy simple: convertir la entrada de datos en un fichero CSV.
Read More »

0