Bioinformática Estrutural de Proteínas: Modelos, Algoritmos e Aplicações Biotecnológicas

Linhas de Pesquisa

Este projeto é composto por três principais linhas de trabalho. As duas primeiras linhas consistem em problemas biológicos de grande relevância nacional, a saber: previsão/validação de ligantes de ricina, e modelagem molecular de mutantes de beta-glicosidases. A terceira consiste no desenvolvimento de modelos e algoritmos de biologia estrutural computacional visando suportar a abordagem dos problemas biológicos apresentados nas duas primeiras linhas de pesquisa. Descrevemos à seguir, as linhas de pesquisa introduzidas.

Previsão in silico e validação in vitro de ligantes de ricina: estudos multidisciplinares conjugados de triagem virtual, ancoragem flexível, análises termodinâmicas e de citotoxicidade

A mamoneira (Ricinus communis L.), mais especificamente sua semente, a mamona, tem ganhado atenção crescente da indústria, de governos e da mídia, em função das propriedades incomuns de seus derivados, especialmente o óleo e a ricina.
O ácido ricinoleico compreende 90% dos ácidos graxos encontrados no óleo da mamona, uma homogeneidade impar quando comparada com o perfil mais diversificado de outras sementes. Além de ser insaturado, é hidroxilado, o que o torna solúvel em álcool à temperatura ambiente. Isso oferece à indústria química condições e pontos de reação como nenhum outro óleo vegetal comercial. Essa feliz combinação de propriedades tem feito o preço do ricinoleico disparar no mercado internacional, chegando a uma valorização de quase 300% nos últimos 10 anos. Tamanha demanda tem inviabilizado economicamente o biodiesel da mamona, já que de seu óleo pode-se obter produtos de maior valor agregado na indústria química que na de combustíveis.
A produção do óleo de mamona gera co-produtos, especialmente: a casca do fruto, durante a colheita; e a torta, decorrente da extração do óleo da semente. Estudos mostram que para cada 1kg de óleo de mamona extraído, são gerados cerca de 1,31 kg de casca e 1,13 kg de torta. Logo, é fundamental que se encontre destinação economicamente viável para esses co-produtos, principalmente tendo-se em mente que a produção mundial de óleo de mamona, em franca expansão, ronda a casa de 1,5 milhão de toneladas-ano.
Atualmente, o principal destino desses co-produtos tem sido a indústria de fertilizantes, dado o seu alto teor de nitrogênio, a elevada taxa de mineralização (até 15 vezes mais rápida que a do bagaço da cana) e seus efeitos nematicidas em fitoparasitas. Não obstante, outro destino de maior valor comercial seria a ração animal. A casca é uma excelente fonte de fibras, e a torta apresenta um teor de proteína bruta de quase 30%.
A principal dificuldade no uso desses co-produtos na ração animal é a presença da ricina. A ricina é uma potente fitotoxina proteica encontrada no endosperma da mamona. Sua LD50 (dose letal média a 50% dos expostos), em camundongos, apresenta alta variação, dependendo do modo de assimilação: entre 5mu g kg-1 (se inalado ou injetado) a 20 mg kg-1 (se ingerido). A menor toxidade relativa da ricina por via oral decorre possivelmente da ação das proteases digestivas, do impacto da flora intestinal e de sua baixa absorção no trato gastrointestinal. Tanto que varia com o tipo de estômago: tende a ser mais tóxica em animais monogástricos que em ruminantes. Seja como for, a letalidade da ricina em camundongos, se inalada ou injetada, é uma ordem de grandeza maior que da crotoxina (LD50 em torno de 90 mu g kg^-1), encontrada no veneno da cascavél (Crotalus durissus terrificus Laurenti).

Ricina

Em sua forma holo, a ricina é composta por duas subunidades (conhecidas como RTA e RTB) ligadas por uma ponte dissulfeto. A subunidade RTA compreende uma N-glicosidase (EC. 3.2.2.22) de 267 aminoácidos, classificada no SCOP como Alpha+Beta, enovelada por 2 domínios independentes. A RTB encerra uma lectina de 262 aminoácidos, registrada no SCOP como all-beta, agrupada em 2 macrodomínios tipo trefoil.
Funcionalmente, as ricinas são classificadas como proteínas inativadoras de ribossomos ou RIP (do inglês Ribosome Inactivating Protein). São tidas como RIP-type 2 em função do seu heterodimerismo. As RIP-type 1 são monoméricas. A RTA catalisa a clivagem hidrolítica da ligação N-glicosídica entre a adenina 4324 e a ribose, na porçao 28S de ribossomos eucariotos. Essa adenina está inserida numa sequência conhecida como SRL (sarcin-ricin loop), integrando uma região altamente conservada do RNA ribossomial, responsável pela ligação com o EF-2 - Elongation Factor 2. Assim, a depurinação de uma única adenina impingida pela RTA impede a elongação da cadeia nascente, interrompendo a síntese proteica. É dessa forma que a ricina opera sua toxidade, pois sem sintetizar proteínas as células inevitavelmente morrem.
A RTA pode ser considerada uma enzima supereficiente ou perfeita. Com uma constante de Michaelis K_m) de 0.1 mu M e uma constante enzimática (kcat) de 25 s-1, a RTA apresenta uma relação kcat/K_m próximo do máximo teórico de 10⁸ - 10¹⁰ M^-1s^-1, previsto para enzimas cujo passo limitante em sua velocidade catalítica encontra-se dependente apenas da difusão entre catalizadores e substratos, e não devido a algum evento químico da interação entre eles.
Toda essa perfeição enzimática da RTA é inútil para os fins de citotoxicidade se a ricina não contar com sua glicoproteina companheira (RTB) para ser incorporada à célula-alvo. A RTA, como uma cadeia isolada, não tem como ser eficientemente absorvida pela células. Curiosamente, algumas plantas, como a cevada (Hordeum vulgare L.), apresentam apenas a cadeia A, que é enzimaticamente ativa, sendo capaz até de inativar ribossomos em testes in vitro como uma RIP-type 1. Mas (para alívio geral) não se mostram citotóxicas na dieta animal.
A RTB faz com que a ricina seja internalizada por duas vias diferentes. A via GAL, pelo reconhecimento de resíduos galactosil terminais na superfície celular; e a via MAN, por interação das manoses de seus glicoconjugados com receptores de manose na membrana da célula-alvo. As duas vias operam mecanismos de endocitoses diferentes. A GAL é independente da formação de invaginações revestidas (coated pits), sendo que a MAN já é dependente. Seja como for, ambas vias podem terminar num mesmo endossomo tardio, que são incorporados à TGN (Trans-Golgi Network). A partir daí, por transporte vesicular retrógrado, passam do Complexo de Golgi para o Retículo Endoplasmático (RE).
Sabe-se que será dentro do RE que ocorrerá a redução da ponte dissulfeto intercadeias, pela PDI - Protein Disulphide Isomerase, uma enzima multifuncional capaz de catalizar a formação, redução e isomerização de pontes dissulfetos. Interessante observar que essa redução é necessária para que a glicosidase da ricina alcance os ribossomos no citossol. Uma vez desprendida da holotoxina, a cadeia RTA sofre um desenovelamento parcial, próximo de um “ molten globule”. Mas isso é um “embuste molecular”, pois foi a forma evolutiva que a RTA encontrou de ser retrotranslocada do RE para o citossol, onde estão os seus alvos, os ribossomos. Ao se apresentar como um proteína mal formada, ela é capturada pelo sistema de controle de qualidade do RE, provavelmente pelas proteínas da via ERAD - Endoplasmatic Reticulum-Associated [Protein] Degradation. Normalmente, esse sistema é responsável por remover proteínas defectivas para o citossol, a fim de serem ubiquitinizadas e degradadas em proteossomos.
De forma não muito compreendida, ela é capaz de burlar a ubiquitinização e de se re-enovelar em sua forma ativa, atacando (como visto) com grande eficiência os ribossomos. Suspeita-se que a baixa presença de resíduos de lisinas em sua superfície (apenas dois) ajude a explicar sua baixa interação com a ubiquitina, uma vez que grupos lisil e N-terminal são os sítios alvos preferenciais dessa marcadora. E é possível, ironicamente, que o próprio ribossomo funcione como uma “chaperona” no caso da RTA. Há indícios de que o ribossomo é capaz de promover seu re-enovelamento in vitro, auxiliando sua própria algoz. Mas, não somente ele. Já foram encontradas várias chaperonas que também parecem atuar na renaturação da RTA.

Justificativa

Além do problema já citado da presença de ricina em co-produtos da produção de óleo de mamona, a ricina tem preocupado as autoridades mundiais devido ao potencial uso como arma química, principalmente por grupos terroristas. Contribui para essa preocupação a robustez da mamoneira a estresses ambientais, em especial sua tolerância à baixa umidade e secas prolongadas, bem como a facilidade com que se pode purificar grandes quantidades de ricina a partir de métodos simples como a precipitação salina (salting out).
De fato, a ricina tem sido usada ou testada como arma química desde as primeiras guerras mundiais. Talvez o caso mais famoso seja do dissidente do regime comunista búlgaro, Georgi Markov, assassinado em 1978 por uma injeção contendo uma microcápsula com ricina, disparada a partir de um guarda-chuva modificado. Muito recentemente, o presidente norte-americando, Barack Obama, bem como outras autoridades entre senadores e juízes, receberam cartas contendo ricina em pó.
Como se vê, há forte apelo econômico, público e militar no sentido de encontrar meios efetivos de neutralizar, inibir e/ou marcar a ricina. São muitos os desafios. É valioso encontrar mecanismos eficientes e baratos, em escala industrial, capazes de neutralizar a ricina dos co-produtos da produção do óleo de mamona, especialmente a torta. Não somente neutralizá-la, mas também monitorá-la ao longo do processamento, comercialização e alimentação, com grande acurácia e sensitividade (baixas taxas de falso-negativos). Do ponto de vista médico e veterinário, é fundamental o desenvolvimento de vacinas e inibidores que possam ser usados na profilaxia e tratamento contra ricina.
Este projeto quer colaborar no enfrentamento desses desafios, e iniciar um estudo de descoberta e/ou desenho racional de ligantes de ricina utilizando estratégias de triagem virtual baseada em alvo biológico (TBVS - Target-Based Virtual Screening). Não somente triagem virtual de ligantes, mas também a sua validação em ensaios in vitro termodinâmicos e de citotoxicidade.

Objetivo

Prever in silico ligantes de ricina através de abordagens de biologia computacioal, refinamento por ancoragem dos ligantes baseada em simulações de dinâmica molecular clássica e cálculos semiempíricos, além da aquisição e/ou síntese orgânica dos ligantes indicados para validação in vitro destes ligantes através de ensaios termodinâmicos e de citotoxicidade.

Previsão in silico dos efeitos de mutações induzidas em beta-glicosidases recombinantes melhoradas para atividade catalítica e tolerância à inibição por glicose e celobiose

Os biocombustíveis ou combustíveis renováveis podem ser considerados como fontes energéticas virtualmente infinitas e surgem como uma alternativa bastante interessante aos combustíveis fósseis, pois podem utilizar a infraestrutura de distribuição e comercialização já existente. A produção deste tipo de combustível a partir da biomassa de plantas ou matéria orgânica derivada destas pode minimizar os efeitos do CO₂ na atmosfera, uma vez que o carbono liberado a partir de sua combustão equivale àquele fixado pela planta durante seu desenvolvimento não alterando, portanto, a quantidade líquida de carbono na biosfera. Entretanto, esta “primeira geração” de biocombustíveis causa preocupações devido à grande demanda de matéria-prima e o impacto sobre a biodiversidade e competição com a produção de alimentos. Neste contexto, fica evidente a necessidade da utilização de novas fontes de matéria-prima para a produção de biocombustíveis que minimizem os principais obstáculos enfrentados para o estabelecimento desta tecnologia.
Uma fonte extremamente abundante de matéria orgânica que pode ser utilizada para a produção de biocombustíveis é a lignocelulose. Este composto é a base para a produção dos biocombustíveis de “segunda geração”, os quais tem por princípio a utilização de matéria orgânica derivada de plantas que não pode ser destinada à alimentação. A lignocelulose é o maior componente estrutural da parede celular vegetal e é constituída, basicamente, de lignina, hemicelulose e celulose em um arranjo tridimensional que envolve ainda pectina, proteínas, lipídios e outras moléculas que interagem entre si formando uma estrutura altamente recalcitrante e resistente à degradação. As estruturas lignocelulósicas encontram-se extensivamente entrelaçadas e conectadas quimicamente por meio de ligações cruzadas covalentes e interações não-covalentes. A degradação destes polissacarídeos pode gerar uma grande quantidade de monossacarídeos fermentáveis para a produção de etanol biocombustível, chamado de etanol lignocelulósico.
Bactérias e fungos que conseguem decompor a parede celular vegetal de modo eficiente empregam uma ampla variedade de enzimas que atuam de modo coordenado para realizar esta tarefa particularmente desafiadora. Estes sistemas enzimáticos altamente especializados estão constituídos, basicamente, de três grupos principais de enzimas: as celulases, as hemicelulases e outras glicosídeo hidrolases relacionadas. A hidrólise da celulose pelos micro-organismos requer, pelo menos, três tipos de celulases: as endo-glucanases, as exo-glucanases (celodextrinase e celobiohidrolase) e as beta-glicosidases. No que diz respeito à produção de açúcares fermentáveis a partir de matéria prima lignocelulósica, estas enzimas precisam funcionar de maneira sincronizada para que se obtenha um alto rendimento. Todavia, a maioria das espécies de micro-organismos produtores de celulases apresenta baixa secreção de beta-glicosidases, o que implica em uma menor taxa de conversão da celobiose em glicose. Diferentemente das celulases em geral, as beta-glicosidases atuam sobre substratos solúveis (celobiose ou celodextrina), podendo ser estudadas através dos modelos tradicionais de cinética enzimática. Apresentam um papel vital na eficiência dos sistema de degradação de matéria lignocelulósica, uma vez que o aumento na concentração de celobiose acarreta em inibição das demais celulases envolvidas no processo. Este fato implica na necessidade imperativa de suplementação de beta-glicosidases aos coquetéis utilizados industrialmente para a conversão enzimática de biomassa vegetal em açúcares fermentáveis. Adicionalmente, a atividade das beta-glicosidases também podem sofrer inibição da pelo acúmulo de produto (glicose) ao longo do processo de hidrólise. Entretanto, recentemente foi reportado que beta-glicosidases da família GH1 podem ser extremamente resistentes à inibição por glicose e celobiose com a manutenção concomitante de níveis elevados de atividade catalítica.
Embora seja possível prospectar novas enzimas com características especiais que possam mitigar os principais problemas associados aos custos de produção do etanol lignocelulósico, é provável que esta ainda seja uma importante barreira a ser transposta. Desta forma, a aplicação de técnicas associadas à biologia sintética pode auxiliar no aumento da produção e no desenvolvimento de celulases e outras glicosídeo hidrolases mais eficientes em condições industriais. De fato, uma produção custo-eficiente destas enzimas tem sido um gargalo importante na viabilidade econômica do etanol lignocelulósico. Até o momento, a produção heteróloga de celulases não tem sido efetiva o suficiente para competir com o fungo industrialmente utilizado Trichoderma reesei. Em geral, os coquetéis enzimáticos industriais proveniente de T. reesei contém 80% de exoglucanases (principalmente celobiohidrolases), 15% de endoglucanases e uma quantidade menor de outras enzimas (entre elas as beta-glicosidases). É visível o progresso obtido nas técnicas recentes para produção de proteínas recombinantes, o que pode viabilizar a utilização de novas plataformas biológicas para produção de celulases competitivas do ponto de vista industrial. Neste contexto, as microalgas têm recebido bastante atenção da comunidade científica. Estes micro-organismos fotossintetizantes se destacam por possuírem um custo de produção relativamente baixo, consumirem CO₂ atmosférico e requererem métodos de cultivo simples, crescendo tanto em meios heterotróficos quanto autotróficos. Dentre as principais vantagens sobre outros organismos encontram-se: a alta taxa de crescimento, podendo dobrar sua biomassa em 24 horas, a capacidade de realizar modificações pós-transcricionais e pós-traducionais necessárias para a funcionalidade de proteínas, e a possibilidade do cultivo em fotobiorreatores, evitando o fluxo de transgenes e os riscos ecológicos decorrentes de contaminações. Além disso, o genoma de pelo menos 16 espécies de microalgas industrialmente importantes já foram sequenciados e métodos eficientes para a manipulação genética já foram descritos para cerca de 14 espécies de microalgas, incluindo a Chlamydomonas reinhardtii. Recentemente, demonstraram que é possível manipular geneticamente C. reinhardtii para expressar e secretar uma xilanase recombinante. Embora a acumulação total de xilanase ainda seja baixa em relação ao total de proteínas secretadas, este estudo pioneiro abre a possibilidade da utilização de microalgas como plataformas biológicas para a produção de celulases recombinantes. Além da abordagem específica da manipulação genética, atualmente existem técnicas disponíveis para criar novas formas de enzimas/proteínas que podem ser expressas de forma heteróloga e selecionadas diretamente para determinadas características. Uma das estratégias mais utilizadas para este propósito é a evolução direta. A base da evolução direta é a “mutagênese randômica” induzida especialmente por técnicas moleculares como a error-prone PCR (epPCR). Trata-se de um grande avanço com relação ao desenho racional de proteínas porque é independente do conhecimento prévio da estrutura da enzima e de suas interações com o substrato. O mecanismo da epPCR está fundamentado na amplificação de um gene a partir de uma DNA polimerase com baixa atividade proofreading para gerar randomicamente uma ampla genoteca de variantes gênicas. Não obstante, o maior desafio deste método é obter uma genoteca com um grande número de variantes e avaliar com acuracidade a performance dos mutantes selecionados. Em geral, os DNA mutados gerados pela epPCR são clonados em vetores de expressão e o produto desta clonagem usado para transformar bactérias. As colônias resultantes são selecionadas para uma determinada atividade ou característica. Os melhores clones selecionados são sequenciados e podem ser utilizados em um outro evento de mutagênese ou, a enzima expressa é purificada e avaliada bioquimicamente. Adicionalmente, eventos sequenciais de mutagênese podem ser utilizados para que se selecione enzimas com mais de uma característica de interesse.

Objetivo

Levando em consideração os pontos ressaltados anteriormente, o objetivo da presente proposta é desenvolver modelos computacionais que permitam a identificação e previsão do efeitos causados pelas mutações induzidas sobre a estrutura de beta-glicosidases recombinantes produzidas em microalgas sobre a atividade catalítica e tolerância a glicose e celobiose dessas enzimas recombinantes de alto valor para a produção de etanol de segunda geração.

Modelos e algoritmos para biologia estrutural computacional

A Biologia Computacional é uma área do conhecimento essencialmente interdisciplinar, agregadora de conhecimentos de diversas áreas do conhecimento: Ciência da Computação, Matemática Aplicada, Estatística, Bioquímica, Química, Biofísica, Biologia molecular, Genética, Ecologia, Anatomia, Neurociência e Visualização, promovendo o progresso científico nestas diversas áreas. A despeito dos esforços e progressos já alcançados, há ainda problemas em aberto na Biologia que demandam a pesquisa e o desenvolvimento de novos modelos e algoritmos que ajudem a compreender o funcionamento e as capacidades dos seres vivos.
Nosso grupo de pesquisa congrega pesquisadores com grande experiência na modelagem e desenvolvimento de algoritmos para descoberta de padrões conservados em estrututuras de proteínas, o que denominamos assinatura estrutural. Essa assinatura corresponde a um conjunto de características capazes de identificar univocamente uma determinada estrutura e função protéica. Acreditamos que sua descoberta seja um importante marco no campo da predição de função, sendo um passo além dos métodos baseados puramente em homologia de sequência.
Além do entendimento de como se estrutura e estabiliza uma proteína, outro aspecto fundamental que temos investigado é como proteínas reconhecem e interagem umas com as outras ou com outras moléculas. Temos trabalhado no desenvolvimento de algoritmos que visam obter padrões que ajudem a explicar esse complexo fenômeno.
Nossos colaboradores do Genoscope trabalham em inúmeros projetos de geração massiva de dados de genômica e metagenômica. A Professora Raquel C. de Melo Minardi participou de dois desses trabalhos enquanto realizava seu pós-doutoramento naquele centro de pesquisas. Em projetos desse tipo, o desenvolvimento de algoritmos que possibilitem a reconstrução dos genes e genomas assim como a anotação das suas funções é essencial para a geração de conhecimento útil a partir dos dados brutos. Técnicas tradicionais baseadas na similaridade de sequência apresentam sérias limitações uma vez que só podem ser aplicadas a proteínas homólogas a outras proteínas de função conhecida, o que comumente não acontece. A partir dessa experiência de trabalho no Genoscope, nosso grupo juntamente com o Dr. François Artiguenave, o Dr. Marcel Salanoubat, o Dr. David Vallenet e a Dra. Karine Bastard tem colaborado no desenvolvimento de novos modelos e algoritmos que sejam capazes de, agregando conhecimentos das mais diversas fontes de dados biol\xc3\xb3gicos, modelando e simulando estruturas de prote\xc3\xadnas computac ionalmente, predizer a fun\xc3\xa7\xc3\xa3o das novas prote\xc3\xadnas descobert as. Fruto deste tipo de trabalho, novas fun\xc3\xa7\xc3\xb5es enzim\xc3\xa1ticas com potencial biotecnol\xc3\xb3gico podem ser descobertas como mostramos em . Atualmente h\xc3\xa1 dois estudantes de doutorado realiz ando est\xc3\xa1gio sandu\xc3\xadche no Genoscope sob supervis\xc3\xa3o do Dr. F ran\xc3\xa7ois Artiguenave gra\xc3\xa7as a recursos do nosso projeto CAPES PVE p rocesso n\xc3\xbamero 143/2012. sejam capazes de, agregando conhecimentos das mais diversas fontes de dados biológicos, modelando e simulando estruturas de proteínas computacionalmente, predizer a função das novas proteínas descobertas. Fruto deste tipo de trabalho, novas funções enzimáticas com potencial biotecnológico podem ser descobertas como mostramos. Atualmente há dois estudantes de doutorado realizando estágio sanduíche no Genoscope sob supervisão do Dr. François Artiguenave graças a recursos do nosso projeto CAPES PVE processo número 143/2012.
Mais recentemente, iniciamos nossas pesquisas na área de visualização de informação. O objetivo é, considerando os principios gerais de percepção visual, desenvolver algoritmos e técnicas que possibilitem ao ser humano potencializar suas capazidades de percepção e cognição através de representações visuais dos dados. Acreditamos que as técnicas de visualização sejam extremamente úteis na descoberta do conhecimento em Bioinformática visto que trata-se de dados volumosos e grande complexidade. Elas potencializam a descoberta de padrões e tendências bem como anomalias nos dados podendo ser uma ferramenta auxiliar promissora.
Tendo em vista nossa experiência prévia e os projetos em andamento no grupo, descrevemos à seguir algumas das técnicas que desenvolveremos neste projeto em rede. O objetivo é que cada técnica possa dar suporte para as fases de previsão in silico dos dois problemas biológicos apresentados anteriormente e ainda que os resultados experimentais obtidos em cada um desses projetos possam ser usados para validação e refinamento das técnicas de biologia computacional desenvolvidas pela equipe.

Análise de contatos: Contatos entre resíduos e entre átomos tem sido amplamente estudados quando se analisa proteínas e outras biomoléculas. Essas análises são feitas com as mais diversas finalidades: estudo do enovelamento de proteínas, de similaridades funcionais, de relacionamentos evolucionários, classificações topológicas, ainhamentos estruturais, verificação da qualidade de estruturas experimentais ou modeladas, predição de estabilidade termodinâmica, inferência de interações proteína-proteína ou proteína-ligante. A Genômica provê a lista de partes constiuintes dos processos celulares mas 70% dos genes dos eucariotos levam a complexos multi-proteínas. Por essa razão, o estudo das interações proteína-proteína são também essenciais para a compreensão sistemica dos processos, visto que elas mediam quase toda função celular, incluindo a sinalização, proliferação e diferenciação celular, o reparo do DNA e a imunidade, entre outros. As interações proteína-ligante, por sua vez, tem papéis importantes na mediação da catálise enzimática, transdução de sinais e outras funções de proteínas. A equipe de pesquisadores da UFMG juntamente com o Professor Carlos Henrique da Silveira da UFPB tem se dedicado há alguns anos a estudar contatos em proteínas. Algumas das teses dos alunos do nosso grupo e artigos publicados consistem na proposta de modelos e algoritmos para cálculo e análise de conservação de contatos (intra-proteína, entre proteínas e entre proteínas e ligantes). Neste projeto em rede, pretendemos estender e aprimorar o seu desenvolvimento com a colaboração do pesquisador Tom Blundell da University of Cambridge que tem reconhecidos trabalhos no tema. Atualmente, o nosso ex-aluno Dr. Douglas Eduardo Valente Pires se encontra em pós-doutorado no Departamento de Bioquímica na University of Cambridge sob a supervisão do Dr. Tom Blundell. O Dr. Douglas Pires tem colaborado também com o Dr. David Ascher do St. Vincent's Institute of Medical Reserach cujos principais interesses são protínas envolvidas com doenças do sistema nervoso, câncer e doenças infecciosas. Preetendemos aplicar toda a teoria e ferramental desenvolvido nessa linha de pesquisa a problemas relacionados a essas doenças de interesse. No cenário dos nossos projetos com as equipes brasileiras envolvidas nessa rede, também aplicaremos as técnicas desenvolvidas a estudos da interação entre as Ricinas e possíveis ligantes no projeto envolvendo a equipe da UFPB bem como na análise de contatos formados pelas beta-glicosidades desenvolvidas in silico pela equipe da FURG.
Análise de ilhas hidrofóbicas: No estado enovelado, nas proteínas globulares, os\\aminoácidos apolares se encontram protegidos do contato com o solvente formando núcleos hidrofóbicos. Normalmente, os átomos hidrofóbicos se aglomeram compondo o que chamamos ilhas hidrofóbicas. Acreditamos que em proteínas globulares de uma mesma família há padrões conservados no posicionamento geométrico dos átomos dessas ilhas. Além disto, acreditamos que as porções hidrofóbicas dos resíduos das proteína globulares possuam menor grau de liberdade posicional que os de sua superfície. Consequentemente, isso levaria a um maior grau de conservação posicional dos átomos dos resíduos desses núcleos em relação aos átomos dos resíduos da superfície. Somado a isso, acreditamos que proteínas de uma mesma família possuam processo de enovelamento semelhante, adquirindo núcleos hidrofóbicos semelhantes. Dessa forma, pretendemos caracterizar as famílias das proteínas globulares em função dos padrões posicionais conservados das ilhas de seus núcleos hidrofóbicos. Soundararajan mostra em 2010 que a rede de interação atômica do núcleo não exposto ao solvente das proteínas conservam padrões de enovelamento apesar de muitas vezes divergirem extraordinariamente em suas sequências primárias. Utilizando mapas de contatos entre os átomos que compõe o núcleo, um conjunto de teste de domínios selecionados aleatoriamente foi classificado com cerca de 97% de precisão enquanto utilizando a totalidade dos átomos das proteínas o acerto do processo de classificação ficou em torno de 14%. A abordagem apresentada no trabalho consiste na obtenção de alinhamentos sequenciais baseados em alinhamentos estruturais e na conservação posicional de resíduos hidrofóbicos. No nosso ponto de vista, os autores conseguem alta precisão de classificação por focarem nos resíduos extremamente conservados. Como os autores visam a classificação, o uso deste tipo de informação foi relevante. Contudo, acreditamos que se nosso objetivo é compreender o papel das ilhas hidrofóbicas, importantes padrões podem ser perdidos considerando apenas os resíduos conservados. Nosso grupo de pesquisa da UFMG investigou também a importância de se desenvolver métodos confiáveis para determinação de ilhas hidrofóbicas em proteínas bem como para identificar sua conservação e seu papel no reconhecimento molecular. Nesse artigo, em especial, visamos estudar um complexo fenômeno de inibição cruzada de serino-proteases de diferentes famílias (Tripsinas e Subtilases) e reconhecimento pelos mesmos inibidores. Fomos capazes de identificar várias situações onde ilhas hidrofóbicas conservam sua posição apesar de não existirem resíduos hidrofóbicos conservados. Por exemplo, um resíduo volumoso como o triptofano poderia ser equivalente a mais de um resíduo hidrofóbico menor como a valina e a alanina. Além disso, resíduos polares podem apresentar grandes porções hidrofóbicas como é o caso da lisina. Trabalhamos em uma granularidade mais refinada através da busca de padrões posicionais em porções hidrofóbicas em nível atômico ao invés de resíduos. Apesar das descobertas de padrões de interações entre ilhas hidrofóbicas conservadas, muitas outras questões metodológicas sobre a hidrofobicidade de resíduos ou de porções de resíduos, sobre o cálculo computacional de ilhas e sobre como avaliar sua conservação foram levantados o que demanda uma investigação mais aprofundada. Atualmente, a Dra. Valdete Almeida é pós-doutoranda na UFMG do nosso projeto CAPES PVE processo número 143/2013 e trabalha neste assunto juntamente com o estudante de doutorado João Arthur Gadelha Ferreira Campelo cuja tese versará sobre esse tema. Pretendemos aplicar as técnicas de cálculo e análise de conservação de ilhas hidrofóbicas em alguns problemas trabalhados pelos nossos colaboradores da rede: no estudo de como as ilhas hidrofóbicas podem interferir no reconhecimento de ligantes e auxiliar na predição de ligantes para Ricinas no projeto da UFPB; fazendo uma análise da presença de ilhas hidrofóbicas nas beta-glicosidades e em possíveis implicações dessas ilhas na formação de interações proteína-proteína no projeto da FURG; e no estudo de conservações de ilhas hidrofóbicas e em possíveis implicações de suas variações nas diverentes subfamílias das proteínas KCE muito estudadas pelos nossos colaboradores do Genoscope.
Análise de interações envolvendo o solvente aquoso: Os estudos sobre interações de proteínas e seus ligantes têm o objetivo de aumentar a nossa compreensão de sua função, da sua importância em processos fisiológicos, das causas de suas desregulação e, especialmente, do controle de processos patológicos. Uma lógica sobre este estudo é o desenvolvimento de fármacos mais eficazes e a sua utilização em aplicações biotecnológicas. Valiosas informações a respeito da relação entre estruturas de proteínas e suas atividades foram obtidas em estudos de cristalografia por difração de raios X e com apuradas técnicas de Bioinformática que permite em estudo a nível atômico. A noção de que proteínas têm um sítio de ligação bem definido que são feitos sobre medida para seus ligantes permanece central para estudos de reconhecimento molecular e descoberta de novos fármacos. Entretanto, o contato entre uma proteína e seu ligante não pode ser explicado baseado em interações estéricas aleatórias. Diferentes formas de forças eletrostáticas necessariamente agem nas interações intramolecular ou interatômicas refletindo na eficiência catalítica de uma enzima ou na especificidade de alguma proteína. Em recentes trabalhos, usando como modelo a associação de beta-tripsina bovina e os ligantes sintéticos benzamidina e berenil, o Prof. Marcelo Matos Santoro e seus alunos avaliaram parâmetros termodinâmicos para investigar a contribuição da água de solvatacão na interação entre proteínas e ligantes. O estudo sugeriu que a água de solvatacão tem um papel primordial na formação de ligações de hidrogênios em produtos farmacêuticos derivados de benzamidina e que pode dar origem a inibidores mais eficazes. O estudo em sílico sobre um conjunto mais abrangente e controlado de dados de estruturas proteicas depositadas em grandes bases de dados biológicos pode revelar a contribuição do solvente no reconhecimento molecular. Tal estudo envolve uma série de técnicas computacionais robustas como modelagem e análises de redes de interações atômicas entre proteínas-ligantes-solvente, dinâmica e docagem molecular. Um dos resultados deste estudo é desenvolvimento de uma metodologia capaz de prever esta contribuição que pode ser empregada na análise de compostos biológicos que são alvos a serem analisados no âmbito deste projeto. A equipe da UFMG tem experiência da modelagem e desenvolvimento de algoritmos para análise dos contatos bem como de sua conservação. Acreditamos que será de fundamental importância interações com a equipe da FURG, mais especificamente da Profa. Karina dos Santos Machado e do Prof. Adriano Velasque Wehli devido à sua ampla experiência em docagem e dinâmica molecular. Contaremos também com a experiência do Prof. Gerd Bruno da Rocha, estudioso de métodos de química quântica acoplados à simulações de dinâmica computacional. A criação desta rede de pesquisa contrubuirá para estabelecermos novas relações entre esses três que tem uma expertises extremamente complementares no nosso ponto de vista. Como em todas as linhas de pesquisas com foco no desenvolvimento de modelos e algoritmos, esperamos que as técnicas desenvolvidas possam ser úteis nos estudos experimentais propostos nessa rede como a análise de como o solvente pode interferir na ligação das Ricincas com seus inibidores e ainda em como o solvente pode interagir com as proteínas das sub-famílias das proteínas KCE e como pode interferir no reconhecimento dos diferentes ligantes descobertos pela equipe do Genoscope.
Assinaturas estruturais de proteínas: É cada vez maior o número de sistemas reais que podem ser modelados computacionalmente como redes ou grafos, representações abstratas de entidades e seus relacionamentos que se mostraram muito eficazes na modelagem de fenômenos, sistemas e processos naturais. Estruturas proteicas podem ser modeladas como redes de interações (arestas) entre seus resíduos de aminoácidos (nós). Em muitos cenários reais atuais, entretanto, modelos de grafos tradicionais não são aplicáveis ou falham em virtude de falta de adequação, escalabilidade ou devido à dinamicidade dos dados, o que tem criado uma demanda relevante por novos paradigmas, modelos e algoritmos para que redes biológicas em larga escala sejam devidamente analisadas e os fenômenos que as governam, compreendidos. Nesse contexo, uma possível abordagem para o estudo de proteínas diz respeito à busca pos assinaturas estruturais, que correspondem à conjuntos de características que denotem similaridade proteica, seja ela estrutural ou funcional. Propusemos em trabalhos anteriores um novo modelo para geração de assinaturas estruturais proteicas denominada Cutoff Scanning Matrix (CSM). O CSM parte de uma modelagem computacional de proteínas como grafos de interações. A partir dessas redes, vetores de atributos que representam padrões de distâncias entre nós de um grafo são gerados e usados como evidência em tarefas de aprendizado de máquina. A metodologia proposta foi instanciada com sucesso em diversos cenários, tais como a previsão de função e classificação estrutural proteica. Em um segundo momento, as assinaturas foram adaptadas para utilização em tarefas de predição de inibidores proteicos, sendo instanciadas na proposta de potenciais inibidores de proteínas de Trypanosoma cruzi, parasita responsável pela Doença de Chagas. Mais recentemente, o conceito de geração de assinaturas CSM foi empregado com sucesso no estudo do impacto de mutações na estabilidade proteica e seu relacionamento com o surgimento de doenças como o câncer. É importante destacar a aplicabilidade da metodologia em cenários reais e de extrema importância para a indústria, não somente farmacêutica mas também agropecuária e agroquímica, setores de extrema relevância para o Brasil. A metodologia CSM pode ser aplicada de forma transparente para quaisquer alvos de interesse, partindo da busca por fármacos para o tratamento de doenças em seres humanos ao estudo do impacto de mutações e o surgimento de resistência a medicamentos. A abordagem pode ainda ser instanciada no projeto de fármacos para controle de doenças em rebanhos ou mesmo na busca por defensivos agrícolas. Os estudos até então desenvolvidos dão suporte e validam a abordagem, demonstrando a generalidade do conceito CSM e gerando oportunidades para o estudo de tais assinaturas e sua interpretação bioquímica, que por conseguinte demandam investigações futuras. Está previso na metodologia do projeto o trabalho em conjunto do Dr. Douglas Eduardo Valente Pires, pós-doutorando na University of Cambridge com o Prof. Carlos Henrique da Silveira no estudo do uso da metodologia CSM na triagem virtual de ligantes para as Ricinas. É importante destacar que a colaboração entre o Prof. Carlos Henrique da Silveira, atualmente na UFPB, com o nosso grupo da UFMG é bastante antiga contando com diversas publicações em conjunto inclusive com o Dr. Douglas Pires. Acreditamos que a metodologia possa também ser aplicada no estudo dos membros da família KCE estudada pelos nossos colaboradores do Genoscope ajudando a gerar assinaturas estruturais que possam explicar como se diferencia o processo de reconhecimento entre enzima e os diferentes ligantes descobertos pela equipe. Outro trabalho em conjunto desenvolvido pela Profa. Raquel C. de Melo Minardi com o Dr. François Artiguenave e a Dra. Karine Bastard do Genoscope é a modelagem e estudo através da metodologia ASCMC de cerca de 50 famílias de domínios de função desconhecida do PFam. Acreditamos que a metodologia CSM possa ser aplicada para auxiliar na predição de ligantes para esses domínios de função desconhecida.
Casamento de templates estruturais de sítios ativos: Normalmente a função das enzimas é dependente da geometria de um pequeno número de resíduos que compõem o seu sítio ativo. Como estes resíduos chave costumam ter sua geometria bastante conservada em proteínas distantes mas relacionadas, uma abordagem para predição de função baseia-se na busca por conjuntos de resíduos semelhantes a sítios ativos de enzimas de função conhecida, na esperança de se identificar homólogos. Em outras palavras, se resíduos tem um arranjo similar em um homólogo distante, isso pode sugerir que tenham funções similares. Por outro lado, mutações em resíduos do sítio, sugerem fortemente uma modificação na função. O termo modelo estruturalstructural template, é usado para descrever um padrão espacial de resíduos pelo qual um método de casamento pode buscar em estruturas de proteínas. Não se deve confundir este termo com o termo template usado na modelagem molecular por homologia. Este modelo estrutural normalmente é composto por resíduos do sítio ativo. Assim, é desejável construir uma biblioteca de sítios ativos conhecidos de forma que se possa fazer uma busca sistemática e automática. Um exemplo destas bibliotecas é o Catalytic Site Atlas (CSA). Teoricamente, este tipo de técnica é promissora por algumas razões. Em primeiro lugar, proteínas distantes podem ter evoluído independentemente tendo sítios ativos de conformações similares e catalizando reações similares. Trata-se de evolução convergente sendo possível inferir a função pela homologia dos sítios. Em segundo lugar, o sítio pode se conservar enquanto o resto da proteína evolui não possibilitando a inferência de função pela comparação global da estrutura e / ou sequência. Um exemplo prático da utilidade deste tipo de método baseado em modelos estruturais é a família das serino proteases. Essa grande família de enzimas usa uma combinação de serina, histidina e aspartato, que ocorrem separados na sequência, e diferentes ordenações, em enzimas distantes e ainda com estruturas tridimensionais completamente dissimilares, mas cujo sítio se encontra em geometria extremamente conservada. Este tipo de técnica pode ser útil na detecção dessa homologia remota na família de proteínas. Assim, o objetivo desta linha de pesquisa é, dada uma estrutura de proteína de função desconhecida e uma biblioteca de sítios de função conhecida, propor modelos e algoritmos para inferência de função baseado na busca por sítios ativos de composição e orientação similares. Atualmente, há um trabalho conjunto entre a Profa. Gisele Lobo Pappa e a Profa. Raquel C. de Melo Minardi juntamente com o estudante de doutorado Sandro Carvalho Izidoro neste tema. Sandro está fazendo doutorado sanduíche no Genoscope sob supervisão do Dr. François Artiguenave. Ele trabalhará juntamente com a Dra. Karine Bastard no uso de técnicas de computação natural, mais especificamente algoritmos genéticos, já desenvolvidos na primeira metade de seu doutorado em aplicações envolvendo a família KCE e outras de DUFs (Domains of Unknown Function) do PFam. Na parte final de seu doutorado temos interesse em tentar usar técnicas de docagem molecular para uma validação inicial de funções previstas através da docagem de ligantes em potencial. Essa etapa poderia contar com a participação da Profa. Karina dos Santos Machado da FURG e ainda do Prof. Gerd Bruno da Rocha das UFPB. Finalmente, gostaríamos de investigar como a liberadade conformacional dos sítios interfere na busca pelos modelos de sítio. Sabemos que uma proteína é um objeto flexível e as técnicas trabalhadas até o momento não consideram essa flexibilidade, embora seja teoricamente adequadas para lidar com o problema da dinâmica dos dados. Dessa forma, gostaríamos de contar com a colaborações dos mesmos persquisadores da FURG e UFPB na simulação da dinâmica das proteínas para que possamos gerar dados sobre a flexibilidade dos sítios e incorporá-la ao nosso modelo refinando-o.
Identificação de padrões de reconhecimento enzima-ligante: O objetivo desta linha de pesquisa é, dado um conjunto de complexos enzima-ligantes, juntamente com as propriedades físico-químicas do bolsão catalítico e dos ligantes reconhecidos, baseados em técnicas de aprendizagem de máquina e minaração de dados, desenvolver modelos e algoiritmos que sejam capazes de aprender as propriedades determinantes do reconhecimento e ação enzimáticos, utilizando os modelos aprendidos para a predição de: (i) enzimas que sejam capazes de catalisar uma dada reação entre substrato/produto e (ii) reações que possam ser catalisadas por uma enzima de função desconhecida. A tarefa de aprendizagem de máquina consistirá na busca por padrões frequentes em grafos. O objetivo passa a ser então o busca de padrões de interação entre enzimas e ligantes, modelada como um grafo. Um grafo G=(V,E) é uma coleção V de nós (ou vértices) conectados por um conjunto E de arestas. Grafos tem sido usados para descrever, modelar e analisar diversos fenômenos em especial diversas redes biológicas. Analisar as propriedades da interface de interação de diferentes famílias de enzimas com seus ligantes possibilita a descoberta de padrões complexos responsáveis pelo reconhecimento entre proteínas e ligantes e possivelmente pela própria reação catalítica. A modelagem do problema consiste em estudar e selecionar as propriedades físico-químicas das enzimas e seus ligantes e dos substratos / produtos, que possivelmente serão utilizados para rotulação dos grafos a serem estudados. Com relação à etapa do uso e desenvolvimento de técnicas de mineração de dados para busca de padrões complexos em grafos, essa etapa será desenvolvida cojuntamente pela Profa. Raquel C. de Melo Minardi e pelo Prof. Wagner Meira Júnior da UFMG juntamente com o Prof. Mohammed Zaki do RPI que tem diversas contribuições interessantes em mineração de padrões em grafos. Vale a pena ressaltar que o Prof. Wagner Meira tem uma colaboração bastante antiga com o Prof. Mohammed Zaki, que estão juntos escrevendo um livro sobre mineração de dados e que o Prof. Zaki já esteve diversas vezes no Brasil como visitante lecionando até mesmo disciplinas na UFMG. Pretendemos também contrastar a abordagem baseada em mineração de dados com a abordagem baseada em modelos de otimização e em heurísticas. Uma vez que o modelo computacional esteja satisfatoriamente construído, um dos problemas computacionais que serão estudados nesta linha é uma generalização de um problema clássico conhecido na Literatura como MCS-I (do inglês Maximum Common Subgraph-Isomorphism). Dados dois grafos G1 e G2, deve-se determinar qual é o maior subgrafo de G1 isomórfico a um subgrafo de G2. Entretanto, na generalização tratada neste projeto, além de identificar o isomorfismo na estrutura do grafo, também é necessário levar em consideração rótulos dos vértices e das arestas, ou seja, as propriedades dos átomos e de suas interações físico-químicas. Por ser uma generalização de MCS-I, este problema também é NP-Difícil. Neste caso, não são conhecidas técnicas de construção de algoritmos exatos que resolvem este problema em tempo polinomial. Surge então a necessidade de se aplicar algoritmos heurísticos que retornam uma solução aproximada do problema em tempo polinomial. Existem heurísticas na literatura baseadas em técnicas de mineração em grafos, tais como Gaston, gScan, entre outras. Apesar de alcançarem um bom desempenho para grafos de pequeno e médio porte, estas técnicas não são escaláveis para os enormes grafos oriundos de redes biológicas. Sendo assim o objetivo desta linha de pesquisa é pesquisar novas técnicas de projeto e análise de algoritmos heurísticos, baseadas em técnicas de otimização combinatória, que identifiquem características comuns em diversos ligantes, de modo a prever suas interações químicas com os sítios ativos de variadas enzimas. Para tal, contamos com a colaboração do Prof. Thiago Ferreira de Noronha que trabalha com algoritmos e otimização combinatória.
Análise de impacto de mutações: O DNA sofre mutações (substituições, inserções e deleções) naturalmente devido à pressão evolucionária e essas mutações obviamente podem provocar a perda da função nas proteínas codificadas. Quais as implicações dessas mutações específicas na estrutura de proteínas? Como essas modificações que podem ser induzidas na estrutura podem provocar a alteração, perda de estabilidade e principalmente a função de proteínas? Nosso grupo começou a estudar esse problema com dois diferentes enfoques. O primeiro é da predição de mutações que causem perda de função em proteínas, podendo até mesmo estar relacionadas a doenças. Neste caso, teremos a colaboração do Profa. Raquel C. de Melo Minardi e do Prof. Wagner Meira Jr. e do Dr. Douglas Pires e do Dr. Tom Blundell. Este linha de pesquisa se relaciona à tese em desenvolvimento pelo aluno de doutorado Laerte Mateus Rodrigues orientado pela Profa. Raquel C. de Melo Minardi e co-orientado pelo Dr. Douglas Eduardo Valente Pires. O segundo enfoque é no desenvolvimento de técnicas de visualização de dados que auxiliem o pesquisador a visualizar tendências, padrões e exceções parâmetros estruturais em alinhamentos de sequência baseados em alinhamentos estruturais em famílias de proteínas. Embora o problema da previsã dos efeitos de uma mutação seja um problema relativamente bem estudado em Bioinformática ele é um problema bastante complexo devido a ser multifatorial. Por esse motivo, acreditamos que as técnicas de visualização de informação possam ser bastante informativas nesse tipo de análise.
Plataforma para coleta, validação e processamento de arquivos PDB: O PDB (Protein Data Bank) é um repositório gratuito e bem conhecido de estruturas tridimensionais de biomoléculas que vem crescendo de forma exponencial nas últimas décadas. Um vasto e completo conteúdo de informação são organizadas em arquivos textuais em formato PDB. Um arquivo PDB é uma representação derivada de estudos de difração de raio x ou ressonância nuclear magnética, sendo esta representação usada em inúmeros programas. Apesar disto, existem erros frequentes ou omissões nos dados anotados que tornam difícil a tarefa de manipulação em massa, especialmente para se obter precisão em algoritmos que trabalham com estruturas. Em muitos casos, os arquivos PDB precisam ser previamente tratado e validado. Diante da necessidade de obter mais ordem e uniformidade nos arquivos PDB, nós desenvolvemos uma ferramenta computacional chamada PDBest (PDB Enhanced Structure Toolkit). O programa que tem o objetivo de tratar, limpar, filtrar, normalizar e validar arquivos de formato PDB antes que sejam submetidos a mineração de dados ou rotinas de análises. O PDBest possui uma interface gráfica que permite o usuário manipular arquivos PDB e está dividido duas partes principais. A primeira consiste na recuperação dos arquivos que pode ser localmente no computador ou online enviando requisições diretamente na base de dados do PDB sobre forma de consultas sendo possível realizar a combinação de parâmetros a fim de recuperar um conjunto específico. Além disso, o usuário pode adicionar a opção de disjunção de um conjunto de dados a ser recuperados. A segunda consiste na manipulação dos arquivos por meio de aplicação de filtros. A aplicação de filtros e manipulação dos arquivos incluem uma série de parâmetros: a) quebra de cadeia em arquivos diferentes que possibilita a eliminação de cadeias redundantes que podem enviesar uma análise, b) adição e remoção de átomos de hidrogênios, c) conversão para outros formatos (fasta, mol e xyz), d) renumeração de átomos e resíduos, e) seleção de átomos e resíduos específicos, f) seleção de cadeias principal e lateral, g) seleção de modelos, h) armazenar uma seção ou protocolo de parâmetros utilizados e i) relatório de inconsistência (átomos/resíduos faltantes e ocupância) nos arquivos possibilitando ao usuário a eliminação ou não do arquivo do conjunto de dados. Acreditamos que o programa PDBest será extremamente útil para a manipulação maciça de arquivos PDB no cenário de Bioinformática estrutural de proteínas e que possa figurar entre os mais utilizados.
Uso da álgebra linear na mineração de dados de Bioinformática: Idéias e algoritmos oriundos da álgebra linear são importantes em várias áreas da mineração de dados. Dada uma matriz A pertence a R^{m,n}, artefatos de álgebra linear, notadamente a decomposição por valores singulares, são utilizados para obter outra representação sem a presença de ruídos e privilegiando a direção dominante dos dados. A decomposição por valores singulares fatora uma matriz A, segundo a equação A = TSD^T, onde T é uma matriz ortonormal de dimensão m por m, S é uma matriz diagonal n por n e D é uma matriz ortonormal n por n. Quando se considera somente um subconjunto dos valores singulares k < p, onde p é o posto de A, obtem-se uma matriz A_k = T_kZ é aproximadamente iguai a A, onde T_k são as k primeiras colunas de T. A_k é a matriz de posto k mais próxima de A pela norma de Frobenius. Já a matriz Z é a combinação linear da base T_k e ela própria passa a representar o relacionamento entre os dados. Esta é uma das metodologias que viabiliza e torna eficiente o uso de modelos vetoriais para representar dados, sejam eles sequências moleculares, anotações proteicas de domínio, estruturas proteicas, informações textuais etc. Técnicas baseadas no SVD tem sido usadas em diversos trabalhos do nosso grupo através de colaborações com o Prof. Marcos Augusto dos Santos. Neste projeto em rede, continuaremos a explorar as potencialidades da redução de dimensionalidade nas técnicas desenvolvidas objetivando a redução de ruídos e incertezas nos dados.