网站介绍
Gemma是什么
Gemma是由谷歌DeepMind和谷歌的其他团队开发的一系列轻量级、先进的开放AI模型,基于与Gemini模型相同的技术,旨在帮助开发者和研究人员构建负责任的AI应用。Gemma模型系列包括两种权重规模的模型:Gemma 2B 和 Gemma 7B,提供预训练和指令微调版本,支持多种框架,如JAX、PyTorch和TensorFlow,以在不同设备上高效运行。6月28日,第二代模型Gemma 2已发布。

Gemma的官方入口
- Gemma的官网主页:https://ai.google.dev/gemma?hl=zh-cn
- Gemma的Hugging Face模型:https://huggingface.co/models?search=google/gemma
- Gemma的Kaggle模型地址:https://www.kaggle.com/models/google/gemma/code/
- Gemma的技术报告:https://storage.googleapis.com/deepmind-media/gemma/gemma-report.pdf
- 官方PyTorch实现GitHub代码库:https://github.com/google/gemma_pytorch
- Gemma的Google Colab运行地址:https://colab.research.google.com/github/google/generative-ai-docs/blob/main/site/en/gemma/docs/lora_tuning.ipynb
Gemma的主要特性
- 轻量级架构:Gemma模型设计为轻量级,便于在多种计算环境中运行,包括个人电脑和工作站。
- 开放模型:Gemma模型的权重是开放的,允许用户在遵守许可协议的情况下进行商业使用和分发。
- 预训练与指令微调:提供预训练模型和经过指令微调的版本,后者通过人类反馈强化学习(RLHF)来确保模型行为的负责任性。
- 多框架支持:Gemma支持JAX、PyTorch和TensorFlow等主要AI框架,通过Keras 3.0提供工具链,简化了推理和监督微调(SFT)过程。
- 安全性与可靠性:在设计时,Gemma遵循Google的AI原则,使用自动化技术过滤训练数据中的敏感信息,并进行了一系列安全评估,包括红队测试和对抗性测试。
- 性能优化:Gemma模型针对NVIDIA GPU和Google Cloud TPUs等硬件平台进行了优化,确保在不同设备上都能实现高性能。
- 社区支持:Google提供了Kaggle、Colab等平台的免费资源,以及Google Cloud的积分,鼓励开发者和研究人员利用Gemma进行创新和研究。
- 跨平台兼容性:Gemma模型可以在多种设备上运行,包括笔记本电脑、台式机、物联网设备和云端,支持广泛的AI功能。
- 负责任的AI工具包:Google还发布了Responsible Generative AI Toolkit,帮助开发者构建安全和负责任的AI应用,包括安全分类器、调试工具和应用指南。

Gemma的技术要点
- 模型架构:Gemma基于Transformer解码器构建,这是当前自然语言处理(NLP)领域最先进的模型架构之一。采用了多头注意力机制,允许模型在处理文本时同时关注多个部分。此外,Gemma还使用了旋转位置嵌入(RoPE)来代替绝对位置嵌入,以减少模型大小并提高效率。GeGLU激活函数取代了标准的ReLU非线性激活,以及在每个Transformer子层的输入和输出都进行了归一化处理。
- 训练基础设施:Gemma模型在Google的TPUv5e上进行训练,这是一种专为机器学习设计的高性能计算平台。通过在多个Pod(芯片集群)上进行模型分片和数据复制,Gemma能够高效地利用分布式计算资源。
- 预训练数据:Gemma模型在大量英语数据上进行预训练(2B模型大约2万亿个token的数据上预训练,而7B模型则基于6万亿个token),这些数据主要来自网络文档、数学和代码。预训练数据经过过滤,以减少不想要或不安全的内容,同时确保数据的多样性和质量。
- 微调策略:Gemma模型通过监督式微调(SFT)和基于人类反馈的强化学习(RLHF)进行微调。这包括使用合成的文本对和人类生成的提示响应对,以及基于人类偏好数据训练的奖励模型。
- 安全性和责任:Gemma在设计时考虑了模型的安全性和责任,包括在预训练阶段对数据进行过滤,以减少敏感信息和有害内容的风险。此外,Gemma还通过了一系列的安全性评估,包括自动化基准测试和人类评估,以确保模型在实际应用中的安全性。
- 性能评估:Gemma在多个领域进行了广泛的性能评估,包括问答、常识推理、数学和科学问题解答以及编码任务。Gemma模型与同样规模或更大规模的开放模型进行了性能对比,在MMLU、MBPP等18个基准测试中,有11个测试结果超越了Llama-13B或Mistral-7B等模型。
- 开放性和可访问性:Gemma模型以开源的形式发布,提供了预训练和微调后的检查点,以及推理和部署的开源代码库。这使得研究人员和开发者能够访问和利用这些先进的语言模型,推动AI领域的创新。
常见问题
Gemma一词的含义是什么? Gemma在拉丁语中的意思是“宝石”。 Gemma是开源的吗? Gemma是开源开放的大模型,用户可在Hugging Face查看和下载其模型。 Gemma模型的参数量是多少? Gemma目前提供20亿和70亿参数量的模型,后续还会推出新的变体。流量统计
- 7天
- 30天
- 90天
- 365天
页面浏览量
独立访客数
链接点击量
猜你喜欢
书生大模型
书生大模型是什么书生大模型是上海人工智能实验室推出的系列AI模型,基于强大的推理能力、多模态理解和高效的信息处理,推动A...挖错网
挖错网是什么挖错网是AI内容审核校对平台,一键检测内容自动纠错,支持文本、图片、音频、视频等多种形式的内容审核。挖错网支...AI Prompt Generator
AI Prompt Generator是什么AI Prompt Generator是一个多功能的在线AI提示生成器工具,...LangGPT
LangGPT是什么LangGPT是一种新型的提示词设计工具,提出了一种结构化和可复用的提示词编写方法论,帮助用户编写高...豆包大模型
豆包大模型是什么豆包大模型是字节跳动推出的AI大模型家族,包括豆包PixelDance、豆包Seaweed 视频生成、...团象
团象是什么团象(原MitataAI)是AI内容检测与优化的平台。团象提供多种工具,如AIGC检测、降重和文本相似性检测等...Llama 3
Llama 3是什么Llama 3是Meta公司最新开源推出的新一代大型语言模型(LLM),包含8B和70B两种参数规模...Proofig
Proofig是一个检测科研图像是否造假或抄袭的AI工具,致力于通过先进的人工智能和计算机视觉技术,确保科研图像的真实性...MiracleVision奇想智能
MiracleVision奇想智能是什么MiracleVision奇想智能是由美图秀秀公司推出的自研AI视觉大模型,不仅...Ollama
Ollama是一个用于在本地计算机上运行大型语言模型的命令行工具,允许用户下载并本地运行像Llama 2、Code Ll...PromptPerfect
PromptPerfect 是一款专业好用的提示词优化工具,可帮助用户一站式设计、开发、优化和部署提示词,支持优化 GP...腾讯混元大模型
腾讯混元是什么腾讯混元是腾讯公司推出的多功能大语言模型,具备强大的自然语言处理和生成能力。支持多种应用场景,如对话交互、...
- 关注我们
-
扫一扫二维码关注我们的微信公众号
- 网址推荐
- 热门标签
-
- 游戏(4562)
- 街机游戏合集(4329)
- 街机游戏(4329)
- 在线游戏集合(4329)
- 小霸王游戏(4329)
- 街机在线(4329)
- nes合集游戏(4328)
- 在线小游戏网站(4328)
- 游戏榜(4328)
- 红白机游戏盒(4328)
- GBA(1796)
- 街机(555)
- 动作冒险(400)
- 青檬花园(374)
- 角色扮演(354)
- 小游戏(346)
- 动作(341)
- 汉化(332)
- SFC(328)
- 运动比赛(321)
- 深度导航(309)
- 免费(294)
- 射击(292)
- AIGC导航(277)
- 创意(265)
- 国内精选服务商(255)
- 中文(247)
- 冒险(240)
- 工具达人(239)
- AI写作工具(232)
- 探索发现(221)
- 有趣网站(220)
- 平台(219)
- 摸鱼网站(219)
- 网络创意(219)
- 脑洞网站(219)
- 格斗(212)
- 人工智能(199)
- 视频(198)
- 翻译(187)
- 动漫(161)
- 的(153)
- Video(152)
- 数字人(151)
- 数据分析(145)
- 在线工具(139)
- ppt(138)
- 文生图(134)
- logo(134)
- 网页游戏(130)