LLaMA
LLaMA (Large Language Model Meta AI) é um grande modelo de linguagem (LLM) lançado pela Meta AI em fevereiro de 2023. Os desenvolvedores do LLaMA relataram que o desempenho do modelo de 13 bilhões de parâmetros na maioria dos benchmarks NLP excedeu o do muito maior GPT-3 (com 175 bilhões de parâmetros) e que o maior modelo era competitivo com modelos de última geração, como PaLM e Chinchilla. Considerando que os LLMs mais poderosos geralmente são acessíveis apenas por meio de APIs limitadas (se é que existem), a Meta lançou os modelo do LLaMA para a comunidade de pesquisa sob uma licença não comercial. Uma semana após o lançamento do LLaMA, seus pesos vazaram para o público no 4chan via BitTorrent.
Em 18 de julho de 2023, em parceria com a Microsoft, a Meta anunciou o Llama 2, a próxima geração do LLaMA. A Meta treinou e lançou o Llama 2 em três tamanhos de modelo, variando de 7 bilhões a 70 bilhões de parâmetros.[1]
Arquitetura
[editar | editar código-fonte]A LLaMA usa a arquitetura transformadora, a arquiteira padrão para modelagem de idiomas desde 2018.
Existem pequenas diferenças arquitetônicas. Comparado com GPT-3, LLaMA
- usa a função de ativação SwiGLU [2] em vez de ReLU;
- usa incorporações posicionais rotativas [3] em vez de incorporações posicionais absolutas;
- usa a normalização da camada quadrática média [4] em vez da normalização da camada padrão. [5]
Conjunto de dados de treinamento
[editar | editar código-fonte]Os desenvolvedores do LLaMA concentraram seus esforços em dimensionar o desempenho do modelo aumentando o volume de dados de treinamento, em vez do número de parâmetros, argumentando que o custo dominante para LLMs é fazer inferência no modelo treinado em vez do custo computacional do processo de treinamento.
O LLaMA foi treinado em 1,4 trilhão de tokens, extraídos de fontes de dados publicamente disponíveis, incluindo:
- Páginas da Web raspadas por CommonCrawl
- Repositórios de código-fonte aberto de código-fonte do GitHub
- Wikipédia em 20 línguas diferentes
- Livros de domínio público do Projeto Gutenberg
- O código-fonte LaTeX para artigos científicos carregados no ArXiv
- Perguntas e respostas dos sites do Stack Exchange
LANÇAMENTO
[editar | editar código-fonte]O LLaMA foi anunciado em 23 de fevereiro de 2023, por meio de uma postagem no blog e um artigo descrevendo o treinamento, a arquitetura e o desempenho do modelo . O código usado para treinar o modelo foi divulgado publicamente sob a licença GPL 3 de código aberto. O acesso aos pesos do modelo foi gerenciado por um processo de inscrição, com acesso a ser concedido "caso a caso a pesquisadores acadêmicos; aqueles afiliados a organizações governamentais, da sociedade civil e acadêmica; e laboratórios de pesquisa da indústria em todo o mundo ".
Em 2 de março de 2023, [6] um torrent contendo os pesos do LLaMA foi carregado, com um link para o torrent compartilhado no quadro de imagens do 4chan e posteriormente se espalhando pelas comunidades online de IA. Nesse mesmo dia, foi aberto um pull request no repositório principal do LLaMA, solicitando a inclusão do link magnético na documentação oficial. [7] [8] Em 4 de março, uma solicitação pull foi aberta para adicionar links aos repositórios HuggingFace contendo o modelo. [9] [7] Em 6 de março, a Meta entrou com pedidos de remoção para remover os repositórios HuggingFace vinculados na solicitação pull, caracterizando-o como "distribuição não autorizada" do modelo. HuggingFace atendeu aos pedidos. [10] Em 20 de março, a Meta entrou com uma solicitação de remoção do DMCA por violação de direitos autorais contra um repositório contendo um script que baixava o LLaMA de um espelho, e o GitHub atendeu no dia seguinte. Desde 25 de março, o Facebook não respondeu à solicitação pull contendo o link magnético. [8]
As reações ao vazamento variaram. Alguns especularam que o modelo seria usado para fins maliciosos, como spam mais sofisticado. Alguns celebraram a acessibilidade do modelo, bem como o fato de que versões menores do modelo podem ser executadas de forma relativamente barata, sugerindo que isso promoverá o florescimento de desenvolvimentos de pesquisa adicionais. Vários comentaristas, como Simon Willison, compararam o LLaMA ao Stable Diffusion, um modelo de texto para imagem que, ao contrário dos modelos comparativamente sofisticados que o precederam, foi distribuído abertamente, levando a uma rápida proliferação de ferramentas, técnicas e software associados.
Reprodução do conjunto de dados
[editar | editar código-fonte]Em 17 de abril de 2023, a Together lançou um projeto chamado RedPajama para reproduzir e distribuir uma versão de código aberto do conjunto de dados LLaMA. O conjunto de dados tem aproximadamente 1,2 trilhão de tokens e está disponível publicamente para download.
Formulários
[editar | editar código-fonte]O Centro de Pesquisa em Modelos Fundamentais (CRFM) do Stanford University Institute for Human-Centered Artificial Intelligence (HAI) lançou o Alpaca, uma receita de treinamento baseada no modelo LLaMA 7B que usa o método "Self-Instruct" de ajuste de instrução para adquirir capacidades comparáveis ao modelo text-davinci-003 da série OpenAI GPT-3 a um custo modesto. [11] [12] Vários projetos de código aberto continuam esse trabalho de ajuste fino do LLaMA com o conjunto de dados Alpaca.
Referências
[editar | editar código-fonte]- ↑ «Meta e Microsoft apresentam a próxima geração de lhamas». Meta. 18 de julho de 2023. Consultado em 21 de julho de 2023
- ↑ Shazeer, Noam (1 de fevereiro de 2020). «GLU Variants Improve Transformer». arXiv:2104.09864 [cs.CL]
- ↑ Su, Jianlin; Lu, Yu (1 de abril de 2021). «RoFormer: Enhanced Transformer with Rotary Position Embedding». arXiv:2104.09864 [cs.CL]
- ↑ Zhang, Biao; Sennrich, Rico (1 de outubro de 2019). «Root Mean Square Layer Normalization». arXiv:1910.07467 [cs.LG]
- ↑ Lei Ba, Jimmy; Kiros, Jamie Ryan (1 de julho de 2016). «Layer Normalization». arXiv:1607.06450 [stat.ML]
- ↑ «/g/ - /aicg/ - AI Chatbot General - Technology - 4chan». 5 Mar 2023
- ↑ a b VK, Anirudh (6 de março de 2023). «LLaMA do Meta vazou para o público, graças ao 4chan». Analytics India Magazine. Consultado em 17 de março de 2023
- ↑ a b «Economize largura de banda usando um torrent para distribuir com mais eficiência por ChristopherKing42 · Pull Request #73 · facebookresearch/llama». GitHub (em inglês). Consultado em 25 de março de 2023
- ↑ «Faça o download de pesos de huggingface para nos ajudar a economizar largura de banda por Jainam 213 · Pull Request #109 · facebookresearch/llama». GitHub (em inglês). Consultado em 17 de março de 2023
- ↑ Cox, Joseph (7 de março de 2023). «O poderoso modelo de linguagem grande do Facebook vaza online». vício (em inglês). Consultado em 17 de março de 2023
- ↑ Taori, Rohan; Gulrajani, Ishaan; Zhang, Tianyi; Dubois, Yann; Li, Xuechen; Guestrin, Carlos; Liang, Percy; Hashimoto, Tatsunori B. (13 de março de 2023). «Alpaca: um modelo forte e replicável de acompanhamento de instruções». Stanford Center for Research on Foundation Models
- ↑ Wang, Yizhong; Kordi, Yeganeh. «Self-Instruct: Aligning Language Models with Self-Generated Instructions». arXiv:2212.10560 [cs.CL]