ChatGPT/AI 第2页

MARS5-TTS：支持140多种语言的开源AI语音克隆工具

FGJ博客发布于 2024-09-02

MARS5-TTS是由CAMB.AI推出的一款开源AI声音克隆工具。其设计旨在提供超逼真的语音生成效果，支持包括体育解说和动漫配音在内的复杂韵律场景。该工具的强大功能源自于其12亿参数模型和超过15万小时的训练数据，能够在140多种语言间进行高质量的文本到语音转换。通过简洁的文本...

FGJ博客发布于 2024-09-01

LMMs-Eval是一个专为多模态人工智能模型设计的评估框架，旨在提供标准化、全面和成本效益高的性能评估解决方案。它涵盖超过50个任务和10种模型，通过透明且可复现的评估流程，帮助研究者和开发者深入理解模型的能力。LMMs-Eval包含两个重要组件：LMMs-Eval Lite，...

FGJ博客发布于 2024-09-01

一、MooER概述 MooER是由摩尔线程研发的首个基于国产全功能GPU训练的开源音频理解大模型。该模型具备多项功能，包括中文和英文的语音识别、语音翻译等，在全行业中具有显著的应用价值。MooER在Covost2中译英测试中取得了25.2的BLEU分数，接近工业级效果。这一成果表...

FGJ博客发布于 2024-09-01

StockBot，是一款基于Llama3的AI金融助手，旨在通过提供实时的股票信息、财务数据、新闻及互动图表，帮助用户在多种资产市场中提升投资效率。该工具能利用自然语言与用户进行交流，为其提供定制化的金融分析和数据可视化。 StockBot的主要功能实时AI聊天支持用户可以通...

标签：AI / StockBot

FGJ博客发布于 2024-08-31

HeadGAP是由字节跳动与上海科技大学联合开发的一款3D头像生成模型。该技术能够在不需要大量图片的情况下，仅依据少量图像（甚至一张）快捷而高效地生成逼真的3D头像。其采用了一个包含先验学习和个性化创建阶段的框架，基于大规模多视角动态数据集提取3D头部的先验信息。通过高斯Spla...

FGJ博客发布于 2024-08-30

Bark是Suno AI推出的一款开源文本到音频模型，具有生成自然逼真语音的能力，支持多种语言及丰富的音频类型。除了语音，Bark还可以生成音乐、背景噪音等其他音频元素，甚至可以模拟非语言交流的声音，如笑声和哭泣。该模型提供了预训练的版本，方便用户进行研究和商业应用。 Bark的...

标签：AI / Bark / Suno AI

FGJ博客发布于 2024-08-30

GPT Pilot是一款创新的AI编程工具，旨在模仿人类开发者的工作流程，为用户提供从零开始构建应用程序的支持。它能够编写代码、调试程序、开展用户讨论，甚至请求代码审查，成为真正的AI开发伙伴。该工具支持多种使用方式，包括VS Code扩展、命令行工具和Docker容器，帮助开发...

FGJ博客发布于 2024-08-29

Imagine Yourself 是Meta公司推出的个性化AI图像生成模型，突破了传统方法的局限，无需对每个用户进行单独调整，通过单一模式即可满足不同用户需求。模型采用合成配对数据生成和并行注意力架构，有效提高图像质量和多样性，同时保持身份保护和文本对齐。在复杂提示词处理上，其...

FGJ博客发布于 2024-08-28

Sapiens是Meta实验室推出的AI视觉模型，专为理解图片和视频中的人类动作设计。支持二维姿势预估、身体部位分割、深度估计和表面法线预测等任务，采用视觉转换器架构。模型参数从3亿到20亿不等，原生支持1K高分辨率推理，易于针对不同任务调整。即使在标注数据稀缺的情况下，Sapi...

FGJ博客发布于 2024-08-28

eSearch是一款开源的跨平台AI桌面应用，集成了截屏、OCR识别、搜索翻译、贴图、以图搜图和屏幕录制等功能。eSearch基于Electron框架开发，适用于Linux、Windows和macOS系统。用户可以通过快捷键快速截取屏幕，进行文字识别，搜索翻译，或录制屏幕操作。e...