Big Data | ER Consultoria Gestão de Informação e Memória Institucional

Por: Eliana Rezende Bethancourt

Como poderíamos imaginar o quanto a grande massa de informações que temos hoje disponível, em ambientes digitais por meio de diferentes plataformas e programas, poderiam acabar se convertendo em massa amorfa e ruído branco, sendo apenas potencializadora de gastos e nenhum benefício? Como poderíamos supor que grande quantidade de dados e até informações poderiam ter como contra-indicação transformar-se apenas em custo sem nada poder oferecer?

O fato é que a facilidade que hoje temos, tanto de produzir como de armazenar, registros que poderão ou não ser utilizados, faz com que produzamos uma quantidade imensa de dados que representam apenas, e tão somente ruído, pois não oferecem informações capazes de gerar produtos, sejam para quais fins forem.

Esta massa, que aumenta dia-a-dia tem sua localização dificultada pela dispersão e ausência de padrões para seu armazenamento e posterior recuperação. É usual nos depararmos com conjuntos imensos de registros que ninguém sabe exatamente do que tratam e porque estão ali armazenados. Em geral, ocupam redes, computadores, pendrives e até gavetas. Nesta linha entram e-mails, tabelas, planilhas, gráficos e demais registros que, sem uma estruturação, nada trarão de benefício para seus produtores e/ou armazenadores do que volume e gastos para seu armazenamento. Nesta condição também estão digitalizações realizadas de forma massiva e sem critérios, tornando todo o conjunto apenas uma grande redundância desprovida de significado e sem possibilidade de ágil localização nem utilização.

A forma de acúmulo é bem conhecida por todos: guardamos por que achamos que um dia isso nós será útil, necessário, ou que alguém irá solicitar… “vai que”… e em pouquíssimo tempo temos uma imensidão de registros que, para pouco ou nada servem.
O acúmulo também pode ocorrer pela “desconfiança”. Temos receio que alguém, antes ou depois, irá perder o que é importante e nos responsabilizarão por isso. Então passamos a reproduzir tais registros, provocando o que chamamos de redundâncias de informações, entropia. A situação fica às vezes tão crítica que somos capazes de encontrar o mesmo registro em todos os suportes possíveis: analógicos, digitais, e às vezes até em fax-símiles, digitalizações e fotocópias.

Este acúmulo pode ficar ainda pior, se a eles acrescentarmos registros fotográficos, audiovisuais e até mensagens como whatsapp! Para estes casos, é comum termos uma imensidão de registros que compõem o que chamaríamos de “crônicas de mais do mesmo”. A facilidade de produção destes registros torna o número de imagens e audiovisuais uma quantidade absurda, mas que ao mesmo tempo, e quase sempre, impossíveis de serem identificadas e processadas. Tornam-se uma massa indecifrável e indisponível, quase sempre. Em geral, sabe-se que eles existem, que estão lá, mas ninguém os consegue localizar. Por um período sobrará alguém que saiba minimamente do que se tratava, mas transcorrido tempo, nem isso se saberá: ninguém será capaz de dizer o que ali está sem ter que abrir, registro a registro.

Isto que inicialmente pode parecer apenas e tão somente desorganização, com o tempo e fazendo-se uma análise mais acurada se mostrará algo bem mais grave.
O suposto mundo digital limpinho e muito organizado pode se converter em seu maior pesadelo, quase que sem você perceber.

A grande transformação pela qual o mundo passa depende em grande parte da forma como lida com seus dados. Muita tecnologia tem sido desenvolvida nas formas de produção de dados. Mas a produção simplesmente não basta! É preciso entender que estamos também sofrendo transformações nas formas como obtemos e coletamos tais dados, como os armazenamos e principalmente como os analisaremos para poder gerar informação de qualidade. Não entender esta dinâmica que vai da produção à utilização e guarda racional nos transformará apenas em acumuladores. E acumuladores, em geral, simplesmente não conseguem determinar o real valor do que possuem e para quê o guardam. Se isso pode ser um péssimo vício individual, imagine quando ele alcança patamares institucionais.

O volume de dados gerados é imenso já que tudo à nossa volta comporta capacidades estatísticas para a reunião posterior e utilização destes registros, em geral para que sejam formuladas informações que validem decisões estratégicas.
Por exemplo, informações oriundas de mudanças climáticas que acumulam registros sobre densidades, volumetrias e índices de chuvas e estiagens e interferência em regimes de plantios, ou combate de pragas. Há dados que se originam de pessoas: podem vir de prontuários médicos, prontuários de alunos, consumo de marcas, alimentos, veículos ou roupas, passando por arte, cultura e lazer. Quando estes vários conjuntos de dados se cruzam, quer pelo olhar de um pesquisador de área acadêmica específica, quer de um estudioso de tendências de mercado o resultado será muito mais registros que se sobrepõem. No entanto, todos estes dados AINDA precisam de uma lógica humana definindo as perguntas certas para encontrar nesta quantidade infindável de registros, e que de fato façam sentido como informação de valor.

Observe:
A empresa Veritas fez uma pesquisa com 1.500 profissionais dispersos por 15 países e constatou que 52% dos dados armazenados dentro das instituições não possuem nenhum tipo de classificação, tornando-se com isso absolutamente invisíveis e indisponíveis para tomadas de decisões, sendo apenas útil para hackers – que violarão e utilização estes dados para fins que estão longe desejáveis para a instituição.
No Brasil este número não é diferente e revela as mesmas mazelas.

Para se ter uma ideia desde volume, estimativas dão conta de que apenas no ano de 2020 estarão sendo lançados na atmosfera 6.4 milhões de toneladas de CO2 na geração de energia para manter armazenados em data centers tal quantidade de dados. Sendo que boa parte deles, ou mantendo-se a estimativa acima, 52% serão de dados e registros sem valor algum, por que são mantidos sem classificação e/ou identificação. E é preciso que se diga que estes números tendem a duplicar a cada dois anos. Ou seja, a produção mundial chega facilmente a 500 quatrilhões de dados armazenados no universo digital.

O que significa dizer que deste montante e obedecendo os percentuais citados acima teremos 91ZB de dark data no mundo, fato que apenas gera consumo de energia e libera CO2 na atmosfera. Mas o que é a “dark data”? Em uma tradução livre seria exatamente este amontoados de dados não tratados, e que por isso tornam-se inúteis e sem valor, pois não estão relacionados a mais nada. São órfãos neste sentido.

Os prejuízos óbvios são financeiros, mas também o são em termos de sustentabilidade do planeta. As pegadas ecológicas resultantes desta guarda desprovida de significado são imensas, e para uma empresa que tenta praticar a responsabilidade ambiental é bastante constrangedor. As pegadas ecológicas são o que poderíamos chamar de uma contabilidade ambiental onde as empresas e cidadãos utilizam e/ou avançam sobre recursos naturais e o quanto isso impacta o Planeta. O armazenamento em data centers significa milhões de toneladas de carbono, que ano a ano representam florestas inteiras. A chamada “dark data” sozinha pode significar uma produção de dióxido de carbono superior a de 80 países, ou mais precisamente seria como se um carro rodando 575 mil vezes ao redor da Terra queimando CO2!

Entendendo e desmitificando o Big Data
O termo Big Data começou a entrar em voga pelos idos da década de 1990, mas foi ganhando importância à medida que o volume de dados acumulados no mundo foi aumentando, propiciado em grande parte pela facilidade tecnológica e diferenciação de suportes e mídias. Anteriormente quando falávamos em Big Data utilizávamos como principais métricas três variáveis: volume, variedade (podem ser compostos por dados estruturados, mas também com dados semiestruturados e principalmente não estruturados, como: vídeos, fotografias, áudios, atualizações de redes sociais, cliques, dados de máquinas, entre outros) e velocidade. Juntos compunham o que era chamado os 3Vs do Big Data. Mas, hoje em dia pode-se acrescentar mais outros 7Vs. Suas características podem ser resumidas, segundo Juan Pablo D. Boeira como sendo:

“Variabilidade: Um é o número de inconsistências nos dados (…) É variável também devido à multiplicidade de dimensões de dados resultantes de vários tipos e fontes de dados diferentes. Variabilidade também pode se referir à velocidade inconsistente na qual os dados são carregados em um banco de dados.
Veracidade: À medida que todas as propriedades acima podem aumentar, a veracidade (ou confiança nos dados) diminui (…) A veracidade refere-se à proveniência ou confiabilidade da fonte de dados, seu contexto e a importância da análise com base nela. Os criadores de dados resumiram as informações? As informações foram editadas ou modificadas por mais alguém? As respostas a essas perguntas são necessárias para determinar a veracidade dessas informações.(…)
Validade: Semelhante à veracidade, a validade refere-se à precisão e correção dos dados para o uso pretendido. Estima-se que 60% do tempo de um cientista de dados é gasto limpando seus dados antes de poder fazer qualquer análise.
Vulnerabilidade: O big data vem trazendo novas preocupações em relação à segurança dos dados e, por este motivo, é necessária uma atenção especial nos quesitos ligados à privacidade.
Volatilidade: Quanto tempo um banco de dados precisa ter para que seja considerado relevante? Por quanto tempo os dados precisam ser mantidos? Antes do Big Data, as organizações tendiam a armazenar dados indefinidamente – alguns terabytes de dados podem não criar altas despesas de armazenamento; pode até ser mantido no banco de dados ativo sem causar problemas de desempenho. É necessário estabelecer regras para a disponibilidade de dados, além de garantir a recuperação rápida de informações quando necessário. Faz-se operante também verificar se os dados estão claramente vinculados às necessidades e processos da organização, assim como se fazem sentido em relação a custos e a complexidade de um processo de armazenamento e recuperação.
Visualização: Por este motivo, é de suma importância utilizar-se de dashboards para visualizações gerenciais dos dados, transformando-os em informações para tomadas de decisão.
Valor: As outras características do Big Data não fazem sentido se não houver valor comercial relevante para os dados. (…)”

Questões fundamentais a tomar em conta em relação à sua produção de dados
O cenário que temos hoje, e que vem sendo fortalecido, é de digitalização da sociedade e das instituições tornando cada vez mais registros móveis e dinâmicos um caminho natural de compartilhamento e trabalho. E são exatamente nestes dispositivos que o maior número de informações são registradas e não identificadas, tagueadas, classificadas. Tornando-se uma fauna propícia ao vazamento de informações sensíveis. O que deixa claro que, se de um lado, há a facilidade de produção e armazenamento, de outro lado há o acúmulo massivo e sem significado que pode ter como principal produto vazamentos de informações que debilitam a segurança dos dados armazenados.Mas, se a segurança dos dados é um fator que preocupa muito as organizações, como estabelecer a hierarquia de valor e importância se não se sabe ao certo o quê se possui? Como saber o risco que representam e o grau de sensibilidade de seus dados se não conhecem ou sabem sobre eles?

Aí que entra o importante trabalho de Gestão de Informação e a utilização de ferramentas apropriadas para identificação, armazenamento e localização de informações, e sua posterior disponibilização para tomada de decisões estratégicas.
Note que não falo aqui em curadoria de conteúdos. Esta estratégia não se aplica ao dark data. Sobre este tema escrevi o artigo “Curadoria de Conteúdos: O que é? Quem faz? Como faz?“, onde abordo o que significa este trabalho. Ao lê-lo poderá perceber a diferença entre uma coisa e outra.

Existe ainda um outro ingrediente de complexidade, e não apenas de tecnologia. Se tomarmos instituições públicas ou mistas, ou mesmo empresas que precisam cumprir aspectos legais envolvendo leis trabalhistas e tributárias temos a Temporalidade Documental. Há documentos que necessitam cumprir prazos prescricionais estabelecidos em legislação vigente. Portanto, não basta apenas saber o quê se tem, se produz e onde se armazena. É preciso criar instrumentos para organizar e guardar pelo tempo estabelecido em lei tais documentos independente de seus suportes.

Mas podemos ir mais longe. Há empresas e instituições que possuem uma estatura que a tornam verdadeiros patrimônios e que detém importantes documentos que merecem guarda permanente. Para estes casos não basta querer guardar TUDO. É preciso estabelecer critérios sobre o quê preservar, para quê, por quem e com quais finalidades. Não saber isso significará o problema que pontuamos acima e os prejuízos daí decorrentes.

Uma instituição que se reconheça como sendo detentora de um Patrimônio mostrará isso a partir de ações que indicam que possuem preocupações com o que chamo de Responsabilidade Histórica nas Organizações: seu papel em garantir à civilização futura o seu patrimônio cultural/documental como herança de um percurso de valor.

Como proceder diante disso?
É fundamental que antes de tudo a instituição conheça o quê produz, porquê e com qual finalidade. Para, a seguir buscar compreender o que merece este dispêndio de energia e custos, e o que pode simplesmente ser eliminado. Daí que o estabelecimento de normas e procedimentos para este fluxo documental precisam e devem ser criados e rigorosamente obedecido, bem como estratégias de segurança, sigilo e acesso precisam ser definidas. O que é preciso deixar claro é que quem deve fazer isso, são os que tem a responsabilidade de produção, circulação e guarda destes registros e não apenas ferramentas tecnológicas. Estas são muito importantes, minimizam retrabalho e auxiliam nas tarefas, mas não são Solução para todas as decisões que precisam ser tomadas e monitoradas.

Como podemos auxiliá-lo?
Se você possui informações dispersas e definitivamente não sabe o quê possui e que decisões tomar em relação a isso, consulte-nos. Teremos imenso prazer em auxiliá-lo a encontrar uma solução que de fato atenda seus problemas não apenas de produção e armazenamento, mas também decisões sobre por quanto tempo manter tais registros, aonde e por quem.

________________________
Posts Relacionados:
Dados, Informação e Conhecimento. O que são?
O Valor do Conteúdo: uma reflexão
O que é Arquitetura de Informação para Portais Institucionais
Design de Informação para Portais Institucionais
Curadoria de Conteúdos: O que é? Quem faz? Como faz?
Design de Informação: O que é e Para quê serve?
Qual o perfil do Gestor de Conhecimento?
Consumidores ou Coletores de Informação?
Direto ao ponto: Gestão Documental e a Babel Algorítmica
Por que Ferramentas de GED não são Gestão Documental?
Gestão Documental para Racionalidade e Transparência Administrativa
Digitalização não é Solução. Entenda Porquê
Memória Institucional: ferramenta de Gestão Estratégica
Planejamento Estratégico e Responsabilidade Histórica
Porque Documento Digitalizado não é Documento Digital
A Jovem, e surpreendente, Gestão da Informação
O Valor da Gestão Documental para as Empresas
Fotografia como Documento e Narrativas Possíveis
Memórias Digitais em busca da Eternidade
O desafio das Soluções na Era da Informação
Uso de tecnologias como Política de Preservação de Patrimônio Cultural

***
Siga-nos:
No LinkedIn

© 2021 ER Consultoria em Gestão de Informação e Memória Institucional
Todos os direitos reservados
A reprodução não autorizada desta publicação, no todo ou em parte, constitui violação dos direitos autorais (Lei nº 9.610/1998).

ER Consultoria Gestão de Informação e Memória Institucional

Arquivo da tag: Big Data

Informação não processada é só ruído