TechTarget
Por Sean Michael Kerner
Um grande modelo de linguagem (LLM) é um tipo de algoritmo de inteligência artificial (IA) que usa técnicas de aprendizado profundo e conjuntos de dados massivamente grandes para entender, resumir, gerar e prever novos conteúdos. O termo IA generativa também está intimamente ligado aos LLMs, que são, na verdade, um tipo de IA generativa que foi arquitetada especificamente para ajudar a gerar conteúdo baseado em texto.
Ao longo de milênios, os humanos desenvolveram línguas faladas para se comunicar. A linguagem está no centro de todas as formas de comunicação humana e tecnológica; fornece as palavras, a semântica e a gramática necessárias para transmitir ideias e conceitos. No mundo da IA, um modelo de linguagem serve a um propósito semelhante, fornecendo uma base para comunicar e gerar novos conceitos.
Os primeiros modelos de linguagem de IA têm suas raízes nos primeiros dias da IA. O modelo de linguagem ELIZA estreou em 1966 no MIT e é um dos primeiros exemplos de um modelo de linguagem IA. Todos os modelos de linguagem são treinados primeiro em um conjunto de dados e, em seguida, usam várias técnicas para inferir relacionamentos e, em seguida, gerar novo conteúdo com base nos dados treinados. Os modelos de linguagem são comumente usados em aplicativos de processamento de linguagem natural (NLP) em que um usuário insere uma consulta em linguagem natural para gerar um resultado.
Um LLM é a evolução do conceito de modelo de linguagem em IA que expande drasticamente os dados usados para treinamento e inferência. Por sua vez, fornece um aumento maciço nas capacidades do modelo de IA. Embora não haja um número universalmente aceito de quão grande o conjunto de dados para treinamento precisa ser, um LLM normalmente tem pelo menos um bilhão ou mais parâmetros. Parâmetros são um termo de aprendizado de máquina para as variáveis presentes no modelo no qual foi treinado que podem ser usadas para inferir novos conteúdos.
Os LLMs modernos surgiram em 2017 e usam redes neurais transformadoras, comumente chamadas de transformadores. Com um grande número de parâmetros e o modelo do transformador, os LLMs são capazes de entender e gerar respostas precisas rapidamente, o que torna a tecnologia de IA amplamente aplicável em muitos domínios diferentes.
Alguns LLMs são chamados de modelos de fundação, um termo cunhado pelo Stanford Institute for Human-Centered Artificial Intelligence em 2021. Um modelo de fundação é tão grande e impactante que serve como base para otimizações adicionais e casos de uso específicos.
Como funcionam os modelos de linguagem grandes?
Os LLMs adotam uma abordagem complexa que envolve vários componentes.
Na camada fundamental, um LLM precisa ser treinado em um grande volume - às vezes chamado de corpus - de dados que normalmente têm tamanho de petabytes. O treinamento pode ter várias etapas, geralmente começando com uma abordagem de aprendizado não supervisionado. Nessa abordagem, o modelo é treinado em dados não estruturados e dados não rotulados. O benefício do treinamento em dados não rotulados é que muitas vezes há muito mais dados disponíveis. Nesta fase, o modelo começa a derivar relações entre diferentes palavras e conceitos.
O próximo passo para alguns LLMs é o treinamento e o ajuste fino com uma forma de aprendizado autossupervisionado. Aqui, ocorreu alguma rotulagem de dados, ajudando o modelo a identificar com mais precisão os diferentes conceitos.
Em seguida, o LLM realiza o aprendizado profundo à medida que passa pelo processo de rede neural do transformador. A arquitetura do transformador permite que o LLM entenda e reconheça as relações e conexões entre palavras e conceitos usando um mecanismo de auto-atenção. Esse mecanismo é capaz de atribuir uma pontuação, comumente chamada de peso, a um determinado item (chamado de token ) para determinar a relação.
Depois que um LLM é treinado, existe uma base na qual a IA pode ser usada para fins práticos. Ao consultar o LLM com um prompt, a inferência do modelo AI pode gerar uma resposta, que pode ser uma resposta a uma pergunta, um texto recém-gerado, um texto resumido ou uma análise de sentimento.
Para que são usados os modelos de linguagem grandes?
Os LLMs tornaram-se cada vez mais populares porque têm ampla aplicabilidade para uma variedade de tarefas de PNL, incluindo as seguintes:
- Geração de texto. A capacidade de gerar texto sobre qualquer tópico no qual o LLM foi treinado é um caso de uso principal.
- Tradução. Para LLMs treinados em vários idiomas, a capacidade de traduzir de um idioma para outro é um recurso comum.
- Resumo do conteúdo. Resumir blocos ou várias páginas de texto é uma função útil dos LLMs.
- Reescrevendo o conteúdo. Reescrever uma seção de texto é outro recurso.
- Classificação e categorização. Um LLM é capaz de classificar e categorizar o conteúdo.
- Análise de sentimentos. A maioria dos LLMs pode ser usada para análise de sentimento para ajudar os usuários a entender melhor a intenção de um conteúdo ou uma resposta específica.
- IA conversacional e chatbots. Os LLMs podem permitir uma conversa com um usuário de uma maneira que normalmente é mais natural do que as gerações anteriores de tecnologias de IA.
Entre os usos mais comuns da IA conversacional está um chatbot, que pode existir em várias formas diferentes, onde um usuário interage em um modelo de consulta e resposta. Um dos chatbots de IA baseados em LLM mais amplamente usados é o ChatGPT, que é baseado no modelo GPT-3 da OpenAI.
Quais são as vantagens dos modelos de linguagem grandes?
São inúmeras as vantagens que os LLMs proporcionam às organizações e usuários:
- Extensibilidade e adaptabilidade. Os LLMs podem servir como base para casos de uso personalizados. O treinamento adicional em cima de um LLM pode criar um modelo ajustado para as necessidades específicas de uma organização.
- Flexibilidade. Um LLM pode ser usado para muitas tarefas e implantações diferentes em organizações, usuários e aplicativos.
- Desempenho. LLMs modernos são tipicamente de alto desempenho, com a capacidade de gerar respostas rápidas e de baixa latência.
- Precisão. À medida que o número de parâmetros e o volume de dados treinados crescem em um LLM, o modelo do transformador é capaz de fornecer níveis crescentes de precisão.
- Facilidade de treinamento. Muitos LLMs são treinados em dados não rotulados, o que ajuda a acelerar o processo de treinamento.
Quais são os desafios e limitações dos grandes modelos de linguagem?
Embora haja muitas vantagens em usar LLMs, também existem vários desafios e limitações:
- Custos do desenvolvimento. Para serem executados, os LLMs geralmente requerem grandes quantidades de hardware caro de unidade de processamento gráfico e conjuntos de dados massivos.
- Custos operacionais. Após o período de treinamento e desenvolvimento, o custo operacional de um LLM para a organização anfitriã pode ser muito alto.
- Viés. Um risco com qualquer IA treinada em dados não rotulados é viés, pois nem sempre é claro que o viés conhecido foi removido.
- Explicabilidade. A capacidade de explicar como um LLM foi capaz de gerar um resultado específico não é fácil ou óbvia para os usuários.
- Alucinação. A alucinação de IA ocorre quando um LLM fornece uma resposta imprecisa que não é baseada em dados treinados.
- Complexidade. Com bilhões de parâmetros, os LLMs modernos são tecnologias excepcionalmente complicadas que podem ser particularmente complexas para solucionar problemas.
- Fichas de falha. Prompts projetados de forma maliciosa que causam o mau funcionamento de um LLM, conhecidos como tokens de falha, fazem parte de uma tendência emergente desde 2022.
Quais são os diferentes tipos de modelos de linguagem grandes?
Há um conjunto de termos em evolução para descrever os diferentes tipos de grandes modelos de linguagem. Entre os tipos comuns estão os seguintes:
- Modelo zero-shot. Este é um modelo amplo e generalizado treinado em um corpo de dados genérico capaz de fornecer um resultado bastante preciso para casos de uso geral, sem a necessidade de treinamento adicional. O GPT-3 é frequentemente considerado um modelo zero-shot.
- Modelos ajustados ou específicos do domínio. O treinamento adicional em cima de um modelo zero-shot como o GPT-3 pode levar a um modelo específico de domínio bem ajustado. Um exemplo é o OpenAI Codex, um LLM específico de domínio para programação baseado em GPT-3.
- Modelo de representação da linguagem. Um exemplo de um modelo de representação de linguagem é o Bidirectional Encoder Representations from Transformers (BERT), que faz uso de aprendizado profundo e transformadores adequados para NLP.
- Modelo multimodal. Originalmente, os LLMs foram ajustados especificamente apenas para texto, mas com a abordagem multimodal é possível lidar com texto e imagens. Um exemplo disso é o GPT-4.
O futuro dos grandes modelos de linguagem
O futuro do LLM ainda está sendo escrito pelos humanos que estão desenvolvendo a tecnologia, embora possa haver um futuro em que os LLMs também escrevam a si mesmos. A próxima geração de LLMs provavelmente não será inteligência artificial geral ou senciente em qualquer sentido da palavra, mas eles melhorarão continuamente e ficarão "mais inteligentes".
Os LLMs continuarão a ser treinados em conjuntos de dados cada vez maiores, e esses dados serão cada vez mais bem filtrados para precisão e possível viés. Também é provável que os LLMs do futuro façam um trabalho melhor do que a geração atual quando se trata de fornecer atribuições e melhores explicações sobre como um determinado resultado foi gerado.
Permitir informações mais precisas para conhecimento específico do domínio é outra direção futura possível para os LLMs. Há também uma classe de LLMs baseada no conceito conhecido como recuperação de conhecimento - incluindo o REALM (Retrieval-Augmented Language Model) do Google - que permitirá o treinamento e a inferência em um corpus de dados muito específico, da mesma forma que um usuário hoje pode especificamente pesquisar conteúdo em um único site.
Também há um trabalho em andamento para otimizar o tamanho geral e o tempo de treinamento necessários para os LLMs, incluindo o LLaMA (Large Language Model Meta AI) da Meta, que é menor que o GPT-3, embora seus patrocinadores afirmem que pode ser mais preciso.
O que é provável é que o futuro dos LLMs permaneça brilhante, pois a tecnologia continua a evoluir de maneira a ajudar a melhorar a produtividade humana.
Fonte:https://www.techtarget.com/whatis/definition/large-language-model-LLM
Nenhum comentário:
Postar um comentário