Saltar para o conteúdo

LLaMA

Origem: Wikipédia, a enciclopédia livre.

LLaMA (Large Language Model Meta AI) é um grande modelo de linguagem (LLM) lançado pela Meta AI em fevereiro de 2023. Os desenvolvedores do LLaMA relataram que o desempenho do modelo de 13 bilhões de parâmetros na maioria dos benchmarks NLP excedeu o do muito maior GPT-3 (com 175 bilhões de parâmetros) e que o maior modelo era competitivo com modelos de última geração, como PaLM e Chinchilla. Considerando que os LLMs mais poderosos geralmente são acessíveis apenas por meio de APIs limitadas (se é que existem), a Meta lançou os modelo do LLaMA para a comunidade de pesquisa sob uma licença não comercial. Uma semana após o lançamento do LLaMA, seus pesos vazaram para o público no 4chan via BitTorrent.

Em 18 de julho de 2023, em parceria com a Microsoft, a Meta anunciou o Llama 2, a próxima geração do LLaMA. A Meta treinou e lançou o Llama 2 em três tamanhos de modelo, variando de 7 bilhões a 70 bilhões de parâmetros.[1]

A LLaMA usa a arquitetura transformadora, a arquiteira padrão para modelagem de idiomas desde 2018.

Existem pequenas diferenças arquitetônicas. Comparado com GPT-3, LLaMA

  • usa a função de ativação SwiGLU [2] em vez de ReLU;
  • usa incorporações posicionais rotativas [3] em vez de incorporações posicionais absolutas;
  • usa a normalização da camada quadrática média [4] em vez da normalização da camada padrão. [5]

Conjunto de dados de treinamento

[editar | editar código-fonte]

Os desenvolvedores do LLaMA concentraram seus esforços em dimensionar o desempenho do modelo aumentando o volume de dados de treinamento, em vez do número de parâmetros, argumentando que o custo dominante para LLMs é fazer inferência no modelo treinado em vez do custo computacional do processo de treinamento.

O LLaMA foi treinado em 1,4 trilhão de tokens, extraídos de fontes de dados publicamente disponíveis, incluindo:

O LLaMA foi anunciado em 23 de fevereiro de 2023, por meio de uma postagem no blog e um artigo descrevendo o treinamento, a arquitetura e o desempenho do modelo . O código usado para treinar o modelo foi divulgado publicamente sob a licença GPL 3 de código aberto. O acesso aos pesos do modelo foi gerenciado por um processo de inscrição, com acesso a ser concedido "caso a caso a pesquisadores acadêmicos; aqueles afiliados a organizações governamentais, da sociedade civil e acadêmica; e laboratórios de pesquisa da indústria em todo o mundo ".

Em 2 de março de 2023, [6] um torrent contendo os pesos do LLaMA foi carregado, com um link para o torrent compartilhado no quadro de imagens do 4chan e posteriormente se espalhando pelas comunidades online de IA. Nesse mesmo dia, foi aberto um pull request no repositório principal do LLaMA, solicitando a inclusão do link magnético na documentação oficial. [7] [8] Em 4 de março, uma solicitação pull foi aberta para adicionar links aos repositórios HuggingFace contendo o modelo. [9] [7] Em 6 de março, a Meta entrou com pedidos de remoção para remover os repositórios HuggingFace vinculados na solicitação pull, caracterizando-o como "distribuição não autorizada" do modelo. HuggingFace atendeu aos pedidos. [10] Em 20 de março, a Meta entrou com uma solicitação de remoção do DMCA por violação de direitos autorais contra um repositório contendo um script que baixava o LLaMA de um espelho, e o GitHub atendeu no dia seguinte. Desde 25 de março, o Facebook não respondeu à solicitação pull contendo o link magnético. [8]

As reações ao vazamento variaram. Alguns especularam que o modelo seria usado para fins maliciosos, como spam mais sofisticado. Alguns celebraram a acessibilidade do modelo, bem como o fato de que versões menores do modelo podem ser executadas de forma relativamente barata, sugerindo que isso promoverá o florescimento de desenvolvimentos de pesquisa adicionais. Vários comentaristas, como Simon Willison, compararam o LLaMA ao Stable Diffusion, um modelo de texto para imagem que, ao contrário dos modelos comparativamente sofisticados que o precederam, foi distribuído abertamente, levando a uma rápida proliferação de ferramentas, técnicas e software associados.

Reprodução do conjunto de dados

[editar | editar código-fonte]

Em 17 de abril de 2023, a Together lançou um projeto chamado RedPajama para reproduzir e distribuir uma versão de código aberto do conjunto de dados LLaMA. O conjunto de dados tem aproximadamente 1,2 trilhão de tokens e está disponível publicamente para download.

O Centro de Pesquisa em Modelos Fundamentais (CRFM) do Stanford University Institute for Human-Centered Artificial Intelligence (HAI) lançou o Alpaca, uma receita de treinamento baseada no modelo LLaMA 7B que usa o método "Self-Instruct" de ajuste de instrução para adquirir capacidades comparáveis ao modelo text-davinci-003 da série OpenAI GPT-3 a um custo modesto. [11] [12] Vários projetos de código aberto continuam esse trabalho de ajuste fino do LLaMA com o conjunto de dados Alpaca.

  1. «Meta e Microsoft apresentam a próxima geração de lhamas». Meta. 18 de julho de 2023. Consultado em 21 de julho de 2023 
  2. Shazeer, Noam (1 de fevereiro de 2020). «GLU Variants Improve Transformer». arXiv:2104.09864Acessível livremente [cs.CL] 
  3. Su, Jianlin; Lu, Yu (1 de abril de 2021). «RoFormer: Enhanced Transformer with Rotary Position Embedding». arXiv:2104.09864Acessível livremente [cs.CL] 
  4. Zhang, Biao; Sennrich, Rico (1 de outubro de 2019). «Root Mean Square Layer Normalization». arXiv:1910.07467Acessível livremente [cs.LG] 
  5. Lei Ba, Jimmy; Kiros, Jamie Ryan (1 de julho de 2016). «Layer Normalization». arXiv:1607.06450Acessível livremente [stat.ML] 
  6. «/g/ - /aicg/ - AI Chatbot General - Technology - 4chan». 5 Mar 2023 
  7. a b VK, Anirudh (6 de março de 2023). «LLaMA do Meta vazou para o público, graças ao 4chan». Analytics India Magazine. Consultado em 17 de março de 2023 
  8. a b «Economize largura de banda usando um torrent para distribuir com mais eficiência por ChristopherKing42 · Pull Request #73 · facebookresearch/llama». GitHub (em inglês). Consultado em 25 de março de 2023 
  9. «Faça o download de pesos de huggingface para nos ajudar a economizar largura de banda por Jainam 213 · Pull Request #109 · facebookresearch/llama». GitHub (em inglês). Consultado em 17 de março de 2023 
  10. Cox, Joseph (7 de março de 2023). «O poderoso modelo de linguagem grande do Facebook vaza online». vício (em inglês). Consultado em 17 de março de 2023 
  11. Taori, Rohan; Gulrajani, Ishaan; Zhang, Tianyi; Dubois, Yann; Li, Xuechen; Guestrin, Carlos; Liang, Percy; Hashimoto, Tatsunori B. (13 de março de 2023). «Alpaca: um modelo forte e replicável de acompanhamento de instruções». Stanford Center for Research on Foundation Models 
  12. Wang, Yizhong; Kordi, Yeganeh. «Self-Instruct: Aligning Language Models with Self-Generated Instructions». arXiv:2212.10560Acessível livremente [cs.CL]