Departamento de Ciências de Computação

Sandra Maria Aluisio

Sandra Maria Aluisio possui Bacharelado em Ciência da Computação pela Universidade Federal de São Carlos (1986), Mestrado em Ciência da Computação pela Universidade de São Paulo (1989) e Doutorado em Inteligência Artificial, mais especificamente, Processamento de Língua Natural, pela Universidade de São Paulo (1995). As áreas de pesquisa, colaborações e orientação são: Linguística de Córpus, PoS Tagging, Simplificação Textual, Anotação de Papéis Semânticos e Criação de Recursos Semânticos, Detecção Automática da Estrutura do Discurso Científico e Ferramentas de Suporte à Escrita, Extração Automática de Termos, Testes Computadorizados, Sistemas de Perguntas & Respostas, Reconhecimento de Inferência Textual, Raciocínio Baseado em Casos, Análise Automática de Distúrbios de Linguagem nas Demências, Reconhecimento de Fala e Inteligibilidade (Readability) Textual e Sentencial. Foi docente e pesquisadora, de 1988 a agosto de 2018, no Instituto de Ciências Matemáticas e da Computação, da Universidade de São Paulo (USP) em São Carlos, onde hoje atua no Programa Professor Sênior.

  • http://lattes.cnpq.br/4793072701914550 (03012023)
  • Rótulo/Grupo:
  • Bolsa CNPq:
  • Período de análise:
  • Endereço: Universidade de São Paulo. Departamento de Ciências da Computação. Instituto de Ciências Matemáticas e de Computação. ICMC-USP - CP 668 CEP 13560-970 - Sao Carlos, SP - Brasil
  • Grande área: [sem-grandeArea]
  • Área: [sem-area]
  • Citações: Google Acadêmico

Produção bibliográfica

Produção técnica

Produção artística

Orientações em andamento

Supervisões e orientações concluídas

Projetos de pesquisa

Prêmios e títulos

Participação em eventos

Organização de eventos

Lista de colaborações


Produção bibliográfica

Produção técnica

Produção artística

Orientações em andamento

Supervisões e orientações concluídas

Projetos de pesquisa

  • Total de projetos de pesquisa (20)
    1. 2002-2002. Projeto Lácio-Web
      Para atender o objetivo de aumentar o volume de conteúdo em português na Web, são necessárias ferramentas automáticas de criação e manipulação desse conteúdo. Nesse cenário, o problema em torno do qual se organiza esta proposta é prover recursos computacionais e lingüísticos básicos que dão suporte à construção de ferramentas automáticas (de recuperação e extração inteligentes da informação, reconhecimento de fala, correção ortográfica e gramatical, por exemplo) para o português --- a exemplo do que ocorreu e ocorre com o inglês. Corpora são considerados o recurso mais básico para a pesquisa da língua através de métodos empíricos. O objetivo deste projeto é a construção e disponibilização de recursos de base, isto é, corpora representativos da língua e suas ferramentas associadas de apoio à anotação manual, navegação e busca, e dessa forma, começar um processo de equiparação do português ao tratamento automático de outras línguas.
      Membro: Sandra Maria Aluísio.
    2. 2004-2004. COMET - CorTec: Coleta, organização e disponibilização online dos Corpora Técnicos do Corpus Multilingüe para Ensino e Tradução
      O projeto CorTec visa padronizar parte dos córpus do COMET segundo critérios descritos em Atkins et al (1992) e disponibilizá-los online, acompanhados de ferramentas de busca e análise lingüística, para servirem de fonte de pesquisa para estudiosos da tradução, tradutores profissionais, professores e aprendizes de tradução, de inglês para fins específicos e lingüistas em geral.
      Membro: Sandra Maria Aluísio.
    3. 2005-2005. Padrões rítmicos, Fixação de parâmetros e Mudança lingüística, Fase II
      Projeto Temático: Padrões rítmicos, Fixação de parâmetros e Mudança lingüística, Fase II (proc. nro 04/03643-0) Objetivos Este projeto situa-se na continuação do projeto homônimo, processo 1998/03382-0, cujo balanço final segue na Seção Resultados de Auxílios anteriores. O primeiro objetivo do presente projeto é a extensão e consolidação do Corpus Tycho Brahe (doravante CTB), , elaborado na fase anterior, tanto no que diz respeito aos textos que o compõem quanto à sua anotação morfológica e sintática. O segundo objetivo é usar o CTB para estudar a história do português a partir das seguintes questões: - Quais são as características da gramática intermediária entre a do português arcaico e do português europeu moderno? - Qual é a trajetória no tempo dessa gramática? - Como se dá a emergência do português europeu moderno? De uma maneira mais geral, este projeto se insere em duas grandes problemáticas da teoria da linguagem: - O que provoca a mudança lingüística? - Como essa mudança se dá ao longo do tempo? Enfim, o projeto enfrenta a questão metodológica da detecção da mudança nos textos escritos. Para isso pretende articular análise qualitativa - no âmbito da teoria da gramática gerativa - e análise quantitativa, lançando mão da estatística descritiva e da modelagem estocástica.
      Membro: Sandra Maria Aluísio.
    4. 2005-2005. Dicionário Histórico do Português do Brasil (séculos XVI, XVII e XVIII)
      A elaboração de um dicionário histórico sobre o Português do Brasil, o primeiro deste tipo, implica na análise minuciosa de documentos e textos originais de testemunhas vivas e oculares da realidade brasileira em seus estágios primeiros. O esmiuçamento de um número grande e inexplorado da produção escrita brasileira e sobre o Brasil a fim de escrutinar seu vocabulário, constitui um grande e árduo trabalho, o que requer um grande número de pesquisadores envolvidos. Além disso, as peculiaridades da formação dos diversos núcleos culturais e civilizatórios brasileiros em função das idiossincrasias históricas, lingüísticas e culturais das várias regiões do Brasil, de sua enorme biodiversidade ambiental e da multiplicidade de caminhos e de processos que atuaram na formação da sociedade brasileira, implicam em muitas dificuldades. Portanto, é necessário reunir forças e competências, organizando equipes representativas das múltiplas unidades do mosaico cultural brasileiro. Daí a idéia de reunir um grupo de pesquisadores representativos das várias regiões do Brasil para um trabalho conjunto sobre a formação histórica do vocabulário brasileiro. Por conseguinte, com este projeto, estamos criando uma rede integrada de pesquisadores de várias regiões do país em torno de um tema para o que trocaremos experiências assim como poderemos transferir competências de uns para outros. O Brasil não conta com nenhuma obra lexicográfica sobre seu vocabulário nos primeiros tempos da formação do Português Brasileiro. Assim, essa seria uma obra pioneira e necessária.
      Membro: Sandra Maria Aluísio.
    5. 2005-2005. PLN-BR - Recursos e Ferramentas para a Recuperação de Informação em Bases Textuais em Português do Brasil
      O presente projeto, submetido ao CNPq no âmbito do edital CTInfo/MCT/CNPq nº 011/2005, e aprovado para o biênio 2006/2007, tem por objetivo geral a construção de um espaço interinstitucional de interação e intercâmbio de práticas de análise e investigação lingüístico-computacional acerca da representação e da recuperação de informação de natureza semântica e pragmático-discursiva veiculada por enunciados produzidos em português brasileiro. Subdividido em 7 subprojetos relativamente autônomos (veja quadro à direita), mas que compartilham o mesmo ponto de partida - qual seja, o tratamento da informação mobilizada em um mesmo corpus do português do Brasil - o projeto vincula pesquisadores vinculados à Universidade de São Paulo (USP), campus de São Carlos; à Universidade Federal de São Carlos (UFSCar); à Universidade Estadual Paulista (UNESP), campus de Araraquara; à Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS); à Pontifícia Universidade Católica do Rio de Janeiro (PUCRJ); à Universidade do Vale do Rio dos Sinos (UNISINOS); e à Universidade Presbiteriana Mackenzie.
      Membro: Sandra Maria Aluísio.
    6. 2003-2003. Projeto Extração automática de termos e elaboração colaborativa de terminologias para intercâmbio e difusão de conhecimento especializado
      O uso de terminologias sistematizadas contribui para tornar mais eficaz a comunicação entre especialistas. Entretanto, para se empreender a tarefa de sistematizar terminologias, é fundamental que haja ferramentas computacionais compatíveis com esse tipo de empreendimento. A Terminologia e a Informática são duas áreas que estão integradas, há pelo menos quatro décadas, em países desenvolvidos, com o objetivo de gerar produtos terminológicos melhores e mais fiáveis. É fato que, no Brasil, tal realidade vai se dar muito tardiamente e, ainda assim, os poucos terminólogos brasileiros que desenvolvem produtos terminológicos operam na maioria das vezes com ferramentas adaptadas e não elaboradas especificamente para a finalidade das suas pesquisas. Nossa proposta, então, é a de satisfazer algumas exigências básicas da pesquisa terminológica por meio de uma ferramenta computacional baseada na Web, composta de módulos para extração automática de termos, elaboração colaborativa, intercâmbio e difusão do conhecimento terminológico disponível, para que áreas técnicas e de pesquisa emergentes e/ou de influência na economia brasileira possam ser privilegiadas com a criação de glossários e dicionários terminológicos.
      Membro: Sandra Maria Aluísio.
    7. 2005-2005. Desenvolvimento de uma estrutura conceitual (ontologia) para a área de nanotecnologia
      Os estudos iniciais para a concepção do Portal da Rede de Nanotecnologia da USP apontaram uma grande variedade de possíveis tópicos e atividades, ligados à pesquisa acadêmica e aplicações industriais, que podem ser adotados no mapa conceitual do Portal. De fato, um levantamento de portais e páginas da Internet dedicados à nanotecnologia, em inglês, português e espanhol, mostrou que as divisões variam enormemente, dependendo dos interesses específicos da Instituição ou indivíduos que produziram o portal. Por exemplo, há páginas em que a cobertura se restringe à bionanotecnologia, enquanto outras se concentram na fabricação de nanomáquinas e nanorobôs. Mencione-se, também, a quase completa inexistência de glossários abrangentes, pelo menos online. Os glossários de nanotecnologia encontrados são limitados, em abrangência e profundidade, sendo praticamente todos em inglês. Isso não é surpreendente, haja vista a natureza inter- e multidisciplinar dessa área que ainda está se consolidando. A partir das constatações mencionadas acima, decidimos realizar um estudo sobre terminologia para estabelecer uma estrutura conceitual (ontologia) para a nanotecnologia, que possa não apenas fornecer subsídios para produzir um Portal de alta qualidade e abrangente, mas também guiar a busca de oportunidades de mercado e oferta de tecnologias. Para este último objetivo, é importante dispor de ferramentas de processamento da informação para permitir integração universidade-empresa, principalmente nas áreas em que a terminologia específica possa variar do ambiente acadêmico para o industrial e empresarial.
      Membro: Sandra Maria Aluísio.
    8. 2006-2006. Terminologia em Língua Portuguesa da Nanociência e Nanotecnologia: Sistematização do Repertório Vocabular e Elaboração de Dicionário-Piloto (CNPq).
      Instituições: Universidade de São Paulo e Universidade Federal de São Carlos Resumo:Nanociência e Nanotecnologia (doravante N&N) são atualmente áreas centrais das atividades de pesquisa, desenvolvimento e inovação nos países industrializados. Investimentos aplicados nessa área de conhecimento por esses países têm sido crescentes. No Brasil, o cenário para pesquisas em N&N já é promissor, entretanto, ainda há uma grande defasagem dos países do Hemisfério Sul em relação aos países desenvolvidos. Para acompanhar esse desenvolvimento científico e tecnológico que se deseja, além de investimentos financeiros expressivos e formação de recursos humanos especializados, é preponderante a sistematização de repertórios vocabulares em língua portuguesa (doravante LP). Sistematizar terminologias significa criar termos fiáveis de forma a facilitar a comunicação especializada, além de demonstrar que a LP está apta para nomear conceitos técnicos e científicos. Em outras palavras, ao mesmo tempo em que se promove a disseminação e a divulgação de conhecimentos e de tecnologias, fomenta-se a língua nacional, posto que não há ainda qualquer glossário e/ou dicionário de N&N em LP. A elaboração do Dicionário-Piloto em N&N parte do projeto intitulado "Desenvolvimento de uma Estrutura Conceitual para a Área de N&N", realizado por uma equipe do Núcleo Interinstitucional de Lingüística Computacional (NILC), sediado no Instituto de Ciências Matemáticas e de Computação (ICMC) da Universidade de São Paulo (USP), Campus de São Carlos (SP-Brasil). Portanto, serão percorridas as mesmas etapas que geraram o corpus e a estrutura conceitual em língua inglesa, a saber: compilação de corpus a partir de várias fontes e com características diversas; extração de termos por meio de vários métodos de extração automática, baseados na abordagem estatística; análise de taxonomias existentes para N&N em livros, páginas da Web e programas institucionais e governamentais dedicados a N&N.
      Membro: Sandra Maria Aluísio.
    9. 2007-2007. PorSimples: Simplificação Textual do Português para Inclusão e Acessibilidade Digital
      Propomos o desenvolvimento de uma tecnologia que foca uma área de pesquisa do processamento de língua natural, a simplificação textual, sendo disponibilizada em dois sistemas destinados a públicos alvos diferentes: (i) um sistema de autoria para ajudar autores a produzir textos simplificados que serão validados pelos próprios autores, e (ii) um sistema facilitador para ajudar a leitura de um dado conteúdo da Web. Este último inclui tarefas de sumarização textual, simplificação, e apresentação do texto salientando as relações entre as idéias do texto. Quanto aos cenários de uso, esta tecnologia se destina a facilitar o acesso à informação dos analfabetos funcionais, principalmente e, de pessoas com outras deficiências cognitivas como surdes congênita e portadores de afasia e dislexia, na leitura de textos eletrônicos em português produzidos pelo governo ou por jornais de grande circulação; as crianças em fase de aprendizado de leitura; ou ainda adultos em fase de alfabetização.
      Membro: Sandra Maria Aluísio.
      desenvolvimento de uma tecnologia que foca uma área de pesquisa do processamento de língua natural, a simplificação textual, sendo disponibilizada em dois sistemas destinados a públicos alvos diferentes: (i) um sistema de autoria para ajudar autores a produzir textos simplificados que serão validados pelos próprios autores, e (ii) um sistema facilitador para ajudar a leitura de um dado conteúdo da Web. Este último inclui tarefas de sumarização textual, simplificação, e apresentação do texto salientando as relações entre as idéias do texto. Quanto aos cenários de uso, esta tecnologia se destina a facilitar o acesso à informação dos analfabetos funcionais, principalmente e, de pessoas com outras deficiências cognitivas
      Membro: Renata Pontin de Mattos Fortes.
    10. 2007-2007. CROWS - Construção e mapeamento de ontologias para a Web Semântica

      Membro: Sandra Maria Aluísio.
    11. 2007-2007. Terminologia de Biocombustíveis: descrição semântica e morfológica com vistas à sistematização

      Membro: Sandra Maria Aluísio.
    12. 2009-2009. Padrões do português popular escrito: o vocabulário do Jornal Diário Gaúcho. Fase 1
      Descrição e estudo de padrões do vocabulário de jornais populares voltados para um público de menor poder aquisitivo. Nesta etapa da pesquisa será considerado apenas o jornal popular DIÁRIO GAÚCHO, publicado em Porto Alegre-RS, produzido pelo grupo RBS. O foco principal da pesquisa é a caracterização do léxico e da feição da linguagem como um todo em um texto que é feito, em tese, de um modo mais simplificado, para ser compreendido com facilidade por pessoas de um determinado grupo social e econômico, com uma bagagem cultural mais ou menos tipificada e com um grau de escolaridade relativamente baixo. Esse jornal tem grande tiragem, cerca de 160 mil exemplares/dia, sendo que cada 01 exemplar é lido por 05 pessoas em média. È o único do gênero publicado na cidade e sua tiragem atesta a enorme aceitação por parte de seu público-alvo na cidade de Porto Alegre e em todo o entorno da região metropolitana. O número de leitores supera, de longe, o de jornais da mesma cidade dirigidos a públicos mais tradicionais distribuídos em todo o Estado do Rio Grande do Sul. Suas contínuas grandes tiragens e a grande adesão de seu público a quaisquer eventos promovidos pelo jornal demonstram, em tese, uma metodologia bem-sucedida de elaboração de texto dirigido para o tipo de leitor antes citado. A pesquisa utiliza como corpus a publicação do jornal ao longo de todo o ano de 2008, com contraponto de pequena amostra de 2009. Os enfoques iniciais da pesquisa são de cunho estatístico e contam com o apoio de pesquisadores de Lingüística Computacional/Processamento da Linguagem Natural (PLN) do Instituto de Informática da UFRGS e da Faculdade de Informática (FACIN) da PUC-RS. Esses pesquisadores da área da Computação desenvolvem estudos sobre observações de expressões multipalavra e sobre geração de ontologias a partir desse corpus. São também feitas observações e contrastes com padrões de vocabulário do jornal Zero Hora (ZH), publicado pela mesma empresa do Diário Gaúcho, o qua
      Membro: Sandra Maria Aluísio.
    13. 2013-2013. Portal Min@s: corpora de fala e escrita
      O projeto visa, por meio de um trabalho conjunto de especialistas em estudos da linguagem, linguística computacional e ciências da computação, desenvolver e implementar um portal integrado de corpora de fala e escrita com funcionalidades de uso de caráter inovador.
      Membro: Sandra Maria Aluísio.
    14. 2013-2013. Processamento Semântico de Textos em Português Brasileiro
      O objetivo geral do projeto de pesquisa, em parceria entre o ICMC-USP e a SAMSUNG, é avançar o estado da arte em processamento semântico de textos/documentos escritos em Português Brasileiro (PB), mais especificamente, permitir a anotação de papéis semânticos (SRL) e a desambiguação lexical de sentido (WSD) de verbos, e, com base nesses recursos e ferramentas, construir aplicações de mineração e sumarização de textos, com especial enfoque em opiniões sobre produtos encontradas na web. O projeto é coordenado pelos Profs. Thiago A. S. Pardo e Sandra M. Aluísio.
      Membro: Sandra Maria Aluísio.
    15. 2015-2015. ANAA-Dementia: Aplicação de testes neuropsicológicos automatizados para acompanhamento de cidadãos brasileiros durante o percurso de uma vida
      O objetivo do projeto é criar um avaliador neuropsicológico pessoal automatizado e acessível pela internet ou por dispositivos móveis, para detectar demências, tais como o comprometimento cognitivo leve (CCL). Esse indicador é considerado o estágio pré-clínico do mal de Alzheimer, em que a doença ainda é reversível.
      Membro: Sandra Maria Aluísio.
    16. 2019-2019. RASTROS: Um grande corpus com medidas de RASTReamento Ocular e normas de previsibilidade durante a leitura de estudantes do ensino Superior no Brasil
      Currently, eye tracking corpora are often used in studies of language structure processing costs to, for example, (i) evaluate models and metrics of syntactic difficulty, (ii) improve or evaluate computational models of simplification via sentential compression, and (iii) evaluate the quality of machine translation with objective metrics. However, there are only few of these corpora for a small number of languages, for example: English (Luke and Christianson, 2018; Cop et al., 2017), English and French (Kennedy et al., 2013), German (Kliegl et al.., 2004), Russian (Laurinavichyute et al., 2018), Hindi (Husain et al., 2015) and Chinese (Yan et al., 2010). For Portuguese, there is no large eye tracking corpus with predictability norms like those mentioned above. This is a gap that hinders the advance of research in the areas of Cognitive Psychology, Psycholinguistics and Natural Language Processing (NLP) in Portuguese. In this project, we have two objectives: (i) to create and make publicly available a large corpus with eye tracking movements of short paragraphs during silent reading in Portuguese, by undergraduate students in Brazil, together with predictability norms that estimate the predictability of orthographic form, morphosyntactic and semantic information for each word in the paragraph, via a Cloze test, and (ii) to contribute to the dissemination of research using the eye movement techniques in the Psycholinguistics and PLN research areas. The methodology for developing the RastrOS corpus follows the same steps of the Provo project (Luke and Christianson, 2018), which used: (i) short paragraphs of various genres; (ii) the reading of 55 paragraphs for the eye tracking test and 5 paragraphs for the Cloze test; and (iii) each word of the corpus being read by at least 40 students. For RastrOS, the 50 paragraphs of the corpus were taken from various sources in journalistic, literary and popular science genres, at a rate of 40% for newspaper articles, 20% for literary texts and 40% for popular science communication. The 50 paragraphs were selected from a corpus larger than 100 paragraphs to account for the greatest diversity of linguistic factors relevant for processing cost assessment, reflected in the reading process: structural complexity of the period (simple vs. compound periods); verbal transitivity; sentence types (active / passive / relative); mechanisms of construction of correlation relations, among others. RastrOS uses a highly accurate eye-tracker - the EyeLink 1000 Desktop. Stimulus presentations were done by Experiment Builder software, data processing has been done by Data Viewer. We are evaluating 4 semantic similarity methods: (i) LSA (Landauer e Dumais 1997) and (ii) BERT (Devlin et al., 2019) trained with the corpus brWaC (Wagner Filho et al., 2018), (iii) Word2vec (Mikolov et al., 2013) and (iv) FastText (Bojanowski, et al., 2017) trained with the corpus PUC-RS that includes brWaC, BlogSet-BR (Santos et al., 2018) and a Brazilian Portuguese Wikipedia dump from March 2019. The words are annotated with morphosyntactic categories of the PALAVRAS parser (https://visl.sdu.dk/) with human revision.
      Membro: Sandra Maria Aluísio.
    17. 2019-2019. LexPorBr Infantil
      LexPorBr Infantil: Compilação de um corpus tripartido (textos didáticos para serem lidos por crianças, textos ouvidos por crianças em filmes e series infantis e textos escritos por crianças em competições de redações) e disponibilização pública via interface online com métricas para pesquisas da área de psicolinguística, linguística computacional, dentre outras. Joint Project involving researchers of ICMC/USP, UFABC, UFPB.
      Membro: Sandra Maria Aluísio.
    18. 2020-2020. TaRSila -- Reconhecimento Automático de Fala e Síntese de Fala no Centro de ia (C4AI)
      The project TaRSila aims at growing speech datasets for Brazilian Portuguese language, looking to achieve state-of-the-art results for the following tasks: (a) automatic speech recognition (ASR) that automatically transcribes speech; (b) multi-speaker synthesis (TTS) that generates several voices from different speakers; (c) speaker identification/verification that selects a speaker from a set of predefined members (speakers seen during the training of the models --- called closed-set scenario --- or in open-set scenario in which the verification occurs with speakers not seen during the training of the models); and (d) voice cloning that uses a few minute/second voice dataset to train a voice model with synthesis methods, which can read any text in the target voice. In TaRSila, we are manually validating speech datasets of academic projects such as: (i) Nurc-Recife (OLIVEIRA JR, 2016); (ii) SP 2010 (MENDES, 2013); (iii) ALIP (GONÇALVES, 2019); and (iv) C-ORAL Brasil (RASO & MELLO, 2012). A collection of life-stories of the Museu da Pessoa (MuPe) is currently being negotiated to be part of our large corpus CORAA (COrpus de Aúdios Anotados) and NURC-SP is under preprocessing (audio-transcription alignment and automatic transcription) to start the human annotation and validation for the purpose of training ASR models. Regarding the tools, we aim to investigate recent deep learning methods for training robust ASR and TTS models for Portuguese. The project also foresees applications in semantic search from speech transcriptions, as well as sentiment analysis and automatic organization of speech datasets into topics. This project is part of the Natural Language Processing initiative (NLP2) of the Center for Artificial Intelligence (C4AI) of the University of São Paulo, sponsored by IBM and FAPESP (grant #2019/07665-4). The center is part of the FAPESP Engineering Research Centers Program and is committed to state-of-the-art research in Artificial Intelligence, exploring both foundational issues and applied research. This project was also funded by CEIA with support by the Goiás State Foundation (FAPEG grant \#201910267000527) (http://centrodeia.org/), Department of Higher Education of the Ministry of Education (SESU/MEC), Copel Holding S.A. (www.copel.com), and Cyberlabs Group (https://cyberlabs.ai/). CEIA was responsible for paying the annotation team composed of 63 students from October 2020 to November 2021
      Membro: Sandra Maria Aluísio.
    19. 2020-2020. SPIRA: Sistema de detecção Precoce de Insuficiência Respiratória por meio de análise de Áudio
      O objetivo deste estudo é desenvolver uma ferramenta que possa detectar precocemente as pessoas com insuficiência respiratória devido a COVID-19 usando dados de fala. Para tanto iremos coletar registros em áudio de pessoas infectadas bem como de pessoas normais, a fim de explorar diferenças associadas à saturação de O2 e à frequência respiratória que permitam distinguir os dois grupos. A ferramenta de classificação automática proposta será baseada em técnicas de inteligência artificial, processamento de sinais e aprendizado de máquina, e servirá inicialmente para facilitar a triagem de pacientes que precisam procurar auxílio médico-hospitalar. Numa segunda etapa, a ferramenta poderá ajudar sistemas de telemedicina a monitorar pacientes de forma contínua, permitindo o acompanhamento da evolução de pacientes internados. Website: https://spira.ime.usp.br/coleta/. Suporte: FAPESP.
      Membro: Sandra Maria Aluísio.
    20. 1993-1993. Projeto ReGra: Revisor Gramatical Automático para o Português do Brasil
      Construção de um revisor gramatical automático para o português. Desde 2000, disponível no MS-Office.
      Membro: Sandra Maria Aluísio.

Prêmios e títulos

  • Total de prêmios e títulos (1)
    1. 3o. Lugar no CTD-IE tese de doutorado, orientado Jean Piton-Gonçalves. Sociedade Brasileira de Informática na Educação / Sociedade Brasileira de Computação. 2013.
      Membro: Sandra Maria Aluísio.

Participação em eventos

  • Total de participação em eventos (20)
    1. 12th International Conference on Artificial Intelligence in Education. 12th International Conference on Artificial Intelligence in Education
    2. A Learning Environment for English for Academic Purposes based on Adaptive Tests and Task-based Systems. 7th Conference on Intelligent Tutoring Systems
    3. How to Learn the Many Unwritten ´Rules of the Game´ of the Academic Discourse: A Hybrid Approach Based on Critiques and Cases to Support Scientific Writing. IEEE International Conference on Advanced Learning Technologies 2001
    4. Analysis of the rhetorical structure of computer science abstracts in Portuguese. CORPUS LINGUISTICS 2003
    5. A Case-Based Approach for Developing Writing Tools Aimed at Non-native English Users. ICCBR 1995
    6. An Innovative Computer Assisted Proficiency Test of English for Academic Purposes. 3rd Annual Computer Assisted Assessment Conference
    7. . International Joint Conference 2006 - IBERAMIA/SBIA and SBRN
    8. Building a large dictionary of abbreviations for named entity recognition in Portuguese historical corpora. LATECH 2008 - LREC 2008
    9. Congress Member. IBERAMIA-SBIA 2000
    10. Using a comparable corpus to investigate lexical patterning in English abstracts written by non-native speakers. CompCorp 2008 - LREC 2008
    11. A Nontrivial Sentence Corpus for the Task of Sentence Readability Assessment in Portuguese. Coling 2018
    12. Enriching Complex Networks with Word Embeddings for Detecting Mild Cognitive Impairment from Speech Transcripts. ACL 2017
    13. Automatic Generation of a Lexical Resource to support Semantic Role Labeling in Portuguese. NAACL HLT 2015
    14. A two-tiered approach to detecting English article usage: an application in scientific paper writing tools. 6th International Conference Recent Advances in Natural Language Processing
    15. A Large Corpus of Product Reviews in Portuguese: Tackling Out-Of-Vocabulary Words. 9th edition of the Language Resources and Evaluation Conference
    16. Using Cross-linguitic Knowledge to Build VerbNet-style Lexicons: Results for a (Brazilian) Portuguese VerbNet. PROPOR 2014 : The 11th International Conference on the Computational Processing of Portuguese
    17. Assigning Wh-Questions to Verbal Arguments: Annotation Tools Evaluation and Corpus. The Seventh Conference on International Language Resources and Evaluation (LREC)
    18. Towards Brazilian Portuguese Automatic Text Simplification Systems. DocEng 2008
    19. Propbank-Br: a Brazilian Treebank annotated with semantic role labels. Eight International Conference on Language Resources and Evaluation (LREC'12), Nicoletta Calzolari, Khalid Choukri, Thierry Declerck, Mehmet Uğur Doğan, Bente Maegaard, Joseph Mariani, Jan Odijk, Stelios Piperidis (editors)
    20. Towards Brazilian Portuguese Automatic Text Simplification Systems. DOCENG: ACM Symposium on Document Engineering

Organização de eventos

  • Total de organização de eventos (12)
    1. . V Workshop em Processamento Computacional do Português Escrito e Falado, 2000.. . 2000. Organizacao
    2. . 4th Workshop in Information and Human Language Technology (TIL 2006). SBC - Part of International Joint Conference IBERAMIA/SBIA/SBRN. 2006. Organizacao
    3. . IV Encontro de Corpora. USP FFLCH e ICMC. 2004. Organizacao
    4. . V Encontro de Corpora. USP - ICMC e UFSCar. 2005. Organizacao
    5. . 1º Workshop em Tecnologia da Informação e da Linguagem Humana (TIL 2003). NILC-USP-ICMC. 2003. Organizacao
    6. . XI Encontro de Linguística Computacional e VI Escola Brasileira de Linguística Computacional. SBC, FAPESP (proc. nro. 2012/06361-2) e CAPES (proc. nro. 4564/2012-31). 2012. Organizacao
    7. . STIL 2013. SBC. 2013. Organizacao
    8. . 14o Workshop de Teses e Dissertações (WTD 2013). Programa de Pós-Graduação em Ciências de Computação e Matemática Computacional do ICMC/USP. 2013. Organizacao
    9. . The 11th International Conference on the Computational Processing of Portuguese - PROPOR 2014. SBC. 2014. Organizacao
    10. . The 14th edition of the International Conference on the Computational Processing of Portuguese (PROPOR 2020). Comissão Especial de Processamento de Linguagem Natural. 2020. Organizacao
    11. . VI Jornada de Descrição do Português - JDP 2019. Brazilian Special Interest Group on Natural Language Processing (CE?PLN). 2019. Organizacao
    12. . III Encontro de Corpora. Unicamp - USP. 2003. Organizacao

Lista de colaborações



(*) Relatório criado com produções desde 1970 até 2023
Data de processamento: 10/05/2023 08:54:02