Q&A
Perguntas e respostas.

Indíce

O que é o POPSTAR?

POPSTAR (Public Opinion and Sentiment Tracking, Analysis, and Research) é um projeto que desenvolve métodos de recolha, medição e agregação de opiniões políticas e económicas veiculadas em micro-blogs (Twitter), na blogosfera e nas notícias. Para além disso, tem também como objectivo confrontar os dados assim gerados com indicadores mais convencionais de opinião pública, nomeadamente os obtidos através de inquéritos por questionário (sondagens). Este projeto reúne investigadores do Instituto de Ciências Sociais da Universidade de Lisboa (ICS-ULisboa), do Instituto de Engenharia de Sistemas e Computadores-ID Lisboa (INESC-ID), da Faculdade de Engenharia da Universidade do Porto (FEUP) e do Núcleo de Investigação em Políticas Económicas da Universidade do Minho (NIPE-UM). O POPSTAR é um projeto financiado pela Fundação para a Ciência e Tecnologia (PTDC/CPJ-CPO/116888/2010). A página do projecto POPSTAR pode ser consultada aqui.

Este site apresenta os dados que resultam do funcionamento do primeiro protótipo das ferramentas de detecção e análise de tendências de:

  1. Menções a líderes político-partidários no Twitter, na blogosfera e nas notícias.
  2. Sentimento transmitido através de "tweets" sobre esses líderes.
  3. Intenções de voto nos seus partidos captadas através de sondagens.
  4. Avaliações da atuação desses líderes captadas através de sondagens.

Futuros protótipos alargarão a análise de sentimento a outras fontes para além do Twitter e a fenómenos económicos.

Quem forma a equipa do POPSTAR?

A equipa do POPSTAR é formada por Pedro Magalhães, Carlos Soares, Luís Aguiar-Conraria, Mário J. Silva, Nina Wiesehomeier, Paula Carvalho, Silvio Amir, Pedro Saleiro, Miguel Maria Pereira, João Filgueiras e pelo designer Manuel Távora. Eduarda Mendes Rodrigues também integrou a equipa na sua fase inicial.

De onde vêm os dados de opinião pública?

Os dados de opinião pública utilizados são os resultados de sondagens à população eleitora realizadas desde as últimas eleições legislativas de Junho de 2011, publicadas na comunicação social e posteriormente depositadas na Entidade Reguladora para a Comunicação Social. Mais concretamente, utilizamos as intenções de voto nos cinco principais partidos em eleições legislativas (em %) e os resultados de questões sobre a avaliação da atuação dos principais líderes políticos e partidários. No caso das intenções de voto, quando as sondagens divulgadas reportam “indecisos” sem os redistribuírem pelas restantes opções de voto, tratamo-los como abstencionistas, o que é equivalente a distribui-los proporcionalmente pelas restantes principais opções (PSD, PS, CDS-PP, CDU, BE, e Outros, Brancos e Nulos). No caso das avaliações da atuação dos principais líderes políticos (as lideranças partidárias + o Presidente da República), as opções de resposta variam de empresa para empresa e produzem métricas distintas. Contudo, na análise e produção de estimativas globais sobre a avaliação da atuação dos líderes políticos, tomamos em conta essas diferenças e apresentamos os resultados numa escala que vai de 0 (aprovação mínima) a 20 (aprovação máxima).

Como se estimam as tendências na opinião pública?

Os dados de opinião recolhidos são por nós tratados de forma a filtrar o ruído excessivo e discernir melhor as tendências da opinião pública. Há várias técnicas econométricas que permitem fazer este “alisamento” de dados. Nós optámos por usar o Filtro de Kalman. O princípio subjacente ao Filtro de Kalman é bastante simples. Considera-se que cada variação observada na opinião pública pode dever-se a dois fatores: (1) variações na opinião pública propriamente dita ou (2) variações na medição dessa mesma opinião pública. Suponha, por exemplo, que é publicada uma sondagem que dá uma forte subida nas intenções de voto de um dado partido. Essa subida pode dever-se, simplesmente, a um aumento da popularidade desse partido como pode dever-se ao erro amostral que existe em qualquer sondagem. Se se considerar que a sondagem foi muito bem feita e que a opinião pública é muito volátil, então faz sentido dar um grande peso a esta nova sondagem. Já se se considerar que a opinião pública é muito estável a esta nova sondagem deve ser o mesmo peso das anteriores. Sob certos pressupostos, é possível demonstrar que o Filtro de Kalman pondera estas duas fontes de incerteza de forma óptima, permitindo, em cada momento de tempo e dada toda a informação disponível até esse momento, apresentar uma estimativa óptima do estado da opinião pública. Para uma explicação um pouco mais técnica sobre o Filtro de Kalman, o leitor poderá consultar este artigo.

Na medição da opinião pública, usamos este filtro em duas situações distintas: para estimar intenções de voto e para estimar índices de popularidade. No caso das intenções de voto, o exercício é mais fácil, porque todas as casas de sondagem pretendem medir exatamente o mesmo e é perfeitamente claro o que está a ser medido. No caso dos índices de popularidade, diferentes casas fazem questionários diferentes e ponderam as respostas de forma diferente. É diferente pedir a alguém que atribua uma nota de 0 a 20 a um líder (como fazem algumas casas de sondagens) ou, simplesmente, perguntar se considera a performance desse líder como positiva ou negativa, como fazem outras. Para este último caso, partimos do pressuposto que existe uma variável latente, não-observada, chamemos-lhe popularidade, que influencia os vários índices das várias casas. Com o Filtro de Kalman, usando os dados das várias casas de sondagem, é possível fornecer estimativas óptimas para o valor dessa popularidade não-observada. Esse índice de popularidade é convertido numa escala de 0 a 20.

Estes dados são atualizados no POPSTAR sempre que sejam conhecidos os resultados de novas sondagens.

O que significa Buzz?

Buzz consiste na frequência diária com que os líderes políticos são mencionados pelos utilizadores do Twitter, pelos autores de blogues e pelas notícias dos órgãos de comunicação social online. Na secção Buzz, apresentamos dois tipos de indicadores. O primeiro tipo é a frequência relativa com que os líderes dos cinco principais partidos são mencionados em cada um dos suportes (Twitter, Blogues e Notícias) em cada dia. É expresso, para cada líder de cada partido, numa percentagem em relação ao total de menções a todos os líderes partidários. O segundo tipo de indicador é a frequência absoluta de menções, uma simples contagem de menções por cada líder político, incluindo também, neste caso, o Presidente da República. Em ambos os indicadores, no caso do Bloco de Esquerda, a partir de 11 de novembro de 2012, os dados respeitantes aos dois coordenadores do partido são tratados em conjunto.

Para estimar tendências no Sentimento, voltamos a usar o Filtro de Kalman. No POPSTAR estes dados são atualizados diariamente. Introduzimos uma modificação que esperamos torne a experiência do utilizador ainda mais interativa. Agora é possível ao utilizador escolher o grau de suavidade da tendência estimada. Poderá escolher entre três alternativas, uma bastante reativa, em que a tendência é bastante volátil, permitindo assim acompanhar de perto as variações do dia-a-dia. Uma bastante suave, ideal para captar tendências de longo e prazo e, naturalmente, uma opção intermédia, que é a atualmente apresentada por omissão.

De onde vêm os dados de notícias, blogues e twittosfera?

Os dados de media sociais e notícias online são fornecidos pela plataforma POPmine, desenvolvida pela Faculdade de Engenharia da Universidade do Porto e os Labs Sapo UP. O POPmine filtra dados de várias fontes dos media socias e notícias que mencionem entidades específicas, aplica classificadores de conteúdo (por exemplo, tópico ou sentimento), agrega os dados (por exemplo, buzz diário) e disponibiliza esses dados através de uma API. No âmbito do projecto POPSTAR, foram integrados módulos específicos de classificação de sentimento (Opinionizer), agregação de sentimento e smoothing. O POPmine recolhe dados provenientes de 3 fontes:

Notícias: Os dados de notícias são fornecidos pelo serviço Verbetes e Notícias do Labs Sapo. Este serviço processa notícias online de mais de 60 fontes noticiosas portuguesas é capaz de reconhecer entidades mencionadas nas notícias.

Blogues: Os posts de blogues são fornecidos pelo sistema de monitorização de blogues do Labs Sapo e correspondem a todos os blogues do domínio sapo.pt, blogspot.pt (Blogger) e Wordpress (blogues escritos em Português).

Twittosfera: Os "tweets" são recolhidos utilizando a plataforma TwitterEcho, responsável pela recolha de "tweets" de 100.000 utilizadores da twittosfera portuguesa. Os "tweets" são recolhidos em tempo real e submetidos a uma classificação de idioma. A plataforma POPmine utiliza apenas "tweets" escritos em Português.

O que significa sentimento?

No contexto do projeto POPSTAR, sentimento é qualquer expressão subjetiva (i.e., opinião) transmitida num documento textual sobre um determinado tópico, por exemplo, um líder político ou a situação da economia. No POPSTAR, e neste primeiro protótipo, os objectivos principais a este nível são:

  1. Determinar a polaridade dos textos escritos pelos utilizadores do Twitter em relação a líderes políticos e partidários, ou seja, o seu carácter positivo, negativo ou neutro.
  2. Construir, validar e analisar indicadores de sentimento global dos utilizadores do Twitter em relação a cada líder partidário.

Numa fase posterior, esta análise será alargada a outros suportes (notícias, blogues). Parte do esforço de validação e análise consistirá em comparar estes resultados com o trabalho de codificadores humanos e estes indicadores de sentimento com os que decorrem de métodos convencionais de medição da opinião pública, i.e., resultados de sondagens.

Para estimar tendências no Sentimento, voltamos a usar o Filtro de Kalman. No POPSTAR estes dados são atualizados diariamente. Introduzimos uma modificação que esperamos torne a experiência do utilizador ainda mais interativa. Agora é possível ao utilizador escolher o grau de suavidade da tendência estimada. Poderá escolher entre três alternativas, uma bastante reativa, em que a tendência é bastante volátil, permitindo assim acompanhar de perto as variações do dia-a-dia. Uma bastante suave, ideal para captar tendências de longo e prazo e, naturalmente, uma opção intermédia, que é a atualmente apresentada por omissão.

Como se mede a polaridade de um texto?

A análise da polaridade de um texto, neste caso os "tweets", é feita através do Opinionizer, uma ferramenta de análise de sentimento em mensagens do Twitter, fruto de trabalho de Investigação e Desenvolvimento do grupo DMIR do INESC- ID Lisboa. O objetivo do sistema consiste em, dada uma mensagem do Twitter que mencione pelo menos um dos alvos de interesse, decidir se esta expressa um sentimento positivo, negativo ou neutro. Para esse efeito, a mensagem é convertida numa representação matemática que combina um conjunto de aspectos que a caracterizam, nomeadamente o vocabulário usado, a presença de palavras de um léxico de sentimento e a presença de padrões sintáticos tipicamente usados para exprimir emoções. O algoritmo de classificação baseia-se em dois passos:

  • "aprender" automaticamente as relações entre os aspectos que caracterizam uma mensagem e o sentimento que esta expressa, analisando um conjunto de exemplos previamente classificados por anotadores humanos
  • usar essa informação para inferir a polaridade de uma nova mensagem, ponderando todos os aspectos.

Os aspectos considerados são os seguintes:

  1. Vocabulário - palavras que compõem o "tweet", pesadas de acordo com a distribuição de probabilidade de cada palavra ser usada em mensagens positivas, negativas ou neutras. Palavras com alta probabilidade de aparecer em todas as classes são ignoradas. A distribuição de probabilidade é estimada, também, com base em exemplos manualmente classificados.
  2. Palavras de sentimento - contagem do número de palavras com polaridade positiva ou negativa presente na mensagem, recorrendo ao SentiLex-PT, um léxico de palavras que expressam sentimento.
  3. Padrões sintácticos - presença de expressões usadas para manifestar emoções ou sentimentos, como por exemplo, pontuação marcada, a utilização de emoticons e linguagem informal usada em redes sociais baseadas na web (lol, hehehe, hahaha, etc..).

Como se mede o sentimento em relação a líderes políticos na twittosfera?

Depois de identificada a polaridade em cada um dos "tweets" que constituem a comunicação política na twittosfera portuguesa, existe uma multiplicidade de formas de quantificar o sentimento global face a líderes políticos. Por exemplo, olhando para cada alvo de forma independente ou em termos relativos, confrontando referências positivas com negativas ou centrando-nos apenas num dos sentidos da polaridade, ou ainda olhando para dados num registo diário, semanal ou mensal.

A opção neste primeiro protótipo foi a de apresentar dois indicadores distintos e suas evoluções ao longo do tempo, usando em ambos os casos o dia como período de referência. O primeiro indicador corresponde ao logaritmo do rácio entre "tweets" positivos e negativos sobre um líder político (as lideranças partidárias + o Presidente da República). Por outras palavras, um resultado positivo significa que o líder político em questão teve mais "tweets" positivos que negativos nesse dia, enquanto que um resultado negativo significa que teve mais "tweets" negativos que positivos. Em notação matemática:

A outra alternativa é a olhar simplesmente para os "tweets" que configuram sentimentos negativos face aos líderes partidários (a esmagadora maioria na base do nosso classificador) e calcular a sua frequência relativa para cada líder. Desta forma, é possível acompanhar, em cada dia, qual ou quais dos líderes partidários foram, em termos relativos, mais ou menos objecto de "tweets" com polaridade negativa. Em notação matemática: