2025

April 27, 2025
in 知识
2 min read

探索3D Speaker项目：说话人识别技术的开源利器

3D Speaker

说话人识别（Speaker Identification）作为人工智能领域的重要技术，能够通过声音特征识别说话人身份。与语音识别（关注“说了什么”）不同，它专注于判断“谁在说话”，在客服身份核验、司法取证等领域有广泛应用。3D-Speaker作为开源的说话人识别工具包，提供了数据集、模型和算法框架，正在推动这一技术的进步。本文将带您深入理解其核心功能与使用方法。

一、说话人识别技术解析

1.1 技术定义与核心区别

说话人识别（Speaker Identification）
通过未知语音与数据库中的已知声纹进行1:N匹配，确定说话人身份。
说话人验证（Speaker Verification）
通过1:1匹配确认说话人是否与声明的身份一致。
语音识别（Speech Recognition）
关注语音内容转写，不涉及身份判断。

1.2 技术流程

特征提取
从语音中提取梅尔频率倒谱系数（MFCC）、线性预测倒谱系数（LPCC）等声学特征。
模型训练
使用深度神经网络（如CNN、ECAPA-TDNN）学习说话人特征。
声纹注册
为每个说话人生成唯一的声纹模板。
实时识别
将新语音与声纹库匹配，返回最可能的说话人列表。

1.3 典型应用场景

领域	应用案例
司法取证	犯罪录音与嫌疑人声纹库匹配
智能客服	来电自动识别老客户，提供个性化服务
智能家居	通过声纹解锁设备，区分不同用户指令
医疗健康	慢性病患者语音身份核验，确保电子病历安全（研究参考）

3D-Speaker由ModelScope团队开发，专注于多设备、多距离、多方言场景下的说话人识别，其核心优势包括： - 多模态支持：可能融合3D音频或视觉数据提升鲁棒性 - 工业级数据集：覆盖14种汉语方言、5类设备（手机/平板/录音笔等）、近场/远场录音 - 先进模型库：提供Res2Net、ECAPA-TDNN等SOTA模型，在VoxCeleb等基准测试中表现优异

2.2 核心组件说明

2.2.1 3D-Speaker数据集

维度	详细说明
方言覆盖	14种汉语方言（北方官话、吴语、粤语等）
设备类型	PC、手机、iPad、录音笔、阵列麦克风
录音距离	近场（<0.8米）、远场（>0.8米）
数据规模	1000+说话人，每个说话人包含多设备、多距离录音
获取方式	数据集官网申请下载，含跨设备/距离/方言测试集

（数据来源：3D-Speaker论文）

2.2.2 预训练模型性能

模型在VoxCeleb1-O测试集上的表现：

模型	参数量（百万）	等错误率（EER%）
ECAPA-TDNN	20.8	0.52
ERes2Net-large	22.46	0.64
CAM++	7.2	1.04

（注：EER越低表示性能越优）

2.2.3 说话人日志（Diarization）

支持多人对话场景下的“谁在何时说话”分析： - AMI_SDM数据集DER：21.76% - Aishell-4数据集DER：10.30%

三、实战教程：快速入门指南

3.1 环境搭建

# 克隆代码仓库
git clone https://github.com/modelscope/3D-Speaker.git
cd 3D-Speaker

# 安装依赖
pip install -r requirements.txt

3.2 使用预训练模型

from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks

# 初始化说话人验证管道
verifier = pipeline(task=Tasks.speaker_verification, model='damo/speech_eres2net_sv_zh-cn_3dspeaker_16k')

# 比对两段语音是否同一人
audio1 = 'path/to/audio1.wav'
audio2 = 'path/to/audio2.wav'
result = verifier([audio1, audio2])

print(f"相似度得分: {result['scores'][0]:.4f}")
# 输出示例：相似度得分: 0.9321 (阈值通常设为0.85)

3.3 自定义声纹库

from speakerlab.utils.builder import build_embedding_model

# 加载ERes2Net模型
model = build_embedding_model('eres2net')

# 提取声纹特征
import torchaudio
waveform, sr = torchaudio.load('user_audio.wav')
embeddings = model.encode_wav(waveform, sample_rate=sr)

# 保存到数据库
import numpy as np
np.save('user_emb.npy', embeddings)

四、技术延伸：3D-CNN的说话人识别

除了3D-Speaker项目，另一种创新方法是使用3D卷积神经网络（3D-CNN）建模语音的时-频-空间特征：

4.1 核心思想

将语音片段视为三维张量（时间×频率×通道）
通过3D卷积核同时捕获局部和全局特征
在VoxCeleb数据集上EER可达3.22%（论文）

4.2 代码实践

# 使用PyTorch实现3D-CNN
import torch.nn as nn

class Speaker3DCNN(nn.Module):
    def __init__(self):
        super().__init__()
        self.conv1 = nn.Conv3d(1, 64, (3,5,5))
        self.pool = nn.MaxPool3d((1,2,2))
        self.fc = nn.Linear(64*10*12, 512)  # 假设输入尺寸为20x64x64

    def forward(self, x):
        x = self.pool(nn.ReLU()(self.conv1(x)))
        x = x.view(x.size(0), -1)
        return self.fc(x)

五、开发者资源推荐

[入门教程] 从零构建说话人识别系统
手把手教学MFCC特征提取与CNN模型训练
[会议应用] 在线会议说话人分离实战
结合3D-Speaker实现会议纪要自动生成
[扩展阅读] 微软Azure说话人识别文档
了解商业化API的设计思路

六、总结与展望

3D-Speaker项目通过多维度数据采集和先进模型架构，正在突破传统声纹识别的局限性。对于开发者而言，其开源特性降低了技术落地门槛；对于研究者，丰富的数据集为语音表征解耦等前沿方向提供了实验基础。随着多模态融合技术的发展，未来声纹识别有望与面部识别、行为分析结合，构建更精准的生物特征认证体系。

立即行动： 1. 访问GitHub仓库获取代码 2. 申请3D-Speaker数据集 3. 尝试将ECAPA-TDNN模型部署到您的语音应用中

技术演进永无止境，现在就加入开源社区，共同塑造声音识别的未来！

March 17, 2025
in AI助手
2 min read

当AI学会“加密通话”：MCP协议正在制造模型界的“暗网黑话”？

想象一下：
- 自动驾驶汽车对气象AI说：“我需要路面摩擦系数。”
- 气象AI回复：“当前降水强度是每小时亲吻大地的云朵眼泪15毫升。”
- 自动驾驶：“？？？”

这种“鸡同鸭讲”的灾难现场，正是AI世界的日常。而MCP协议（Model Context Protocol），就是那个让所有AI模型学会“说人话”（或者说“机话”）的终极翻译官。

一、AI界的“方言普查”：90%的算力浪费在“猜谜游戏”里

你以为AI模型们都是优雅的学术派？事实上它们可能是这样的：
- 医疗影像AI用“灰度值矩阵”写诗
- 工业机器人用“关节扭矩曲线”唱歌
- 金融风控模型用“协方差矩阵”讲冷笑话

当这些“语言艺术家”需要协作时，场景堪比外星人联谊会：
1. 智能冰箱检测到牛奶过期 → 发送“变质概率向量[0.87]”
2. 购物清单AI误读为“需要购买87盒牛奶” → 自动下单
3. 第二天你家变成奶制品仓库，扫地机器人边拖地边背诵《牛奶的100种化学分解路径》

MCP协议的暴力解法：
- 给所有数据戴上“防呆颈环”（强制标准化元数据）
- 建立AI界的“新华字典”（通用语义映射表）
- 发明数据界的“集装箱系统”（上下文封装规范）

二、MCP的三件法宝：比灭霸手套更实用的存在

法宝1：上下文集装箱（Context Container）

每个数据包都被打包成智能集装箱：
- 电子身份证：谁生成的？什么时候？精度多少？（告别“无名数据尸体”）
- 遗传记忆库：被哪些模型处理过？如何被修改？（全程溯源，拒绝甩锅）
- 自适应减震层：自动转换单位/坐标系（华氏度→摄氏度？点云→网格？秒级搞定）

就像把新鲜三文鱼从挪威渔场运到东京寿司店，全程冷链锁鲜。

法宝2：语义翻译官（Semantic Ambassador）

MCP建立了跨维度的语义外交：
- 让“温度”不再是某个传感器的读数，而是物理量宇宙的公民
- 教“风险”在不同场景变装：
- 在医疗界是“白细胞超标警报”
- 在金融界是“股价波动率预警”
- 在自动驾驶界是“道路曲率突变警告”
- 甚至能解决“CT片语义分裂症”：同一片阴影，放射科标注为肿瘤，骨科解读为陈旧性损伤

法宝3：数据瘦身师（Context Slimmer）

采用“价值密度萃取”黑科技：
- 给自动驾驶模型发送“道路骨架图”（关键点云拓扑+动态障碍物轨迹）
- 为语言模型定制“事件DNA”（主体-动作-对象三元组 + 情感极性）
- 就像给不同观众推送《三体》：物理学家看维度折叠公式，外交家看黑暗森林博弈论

三、未来名场面：当MCP协议接管世界

名场面1：疫情预警交响曲

社交媒体AI捕捉到“咳嗽”关键词爆发 → 封装成流行病学事件
基因测序模型接收MCP数据包 → 自动启动新毒株分析
物流AI同步调整疫苗运输优先级
全程无需人类指挥，就像蚁群用信息素完成超大规模协作。

名场面2：元宇宙人格分裂治疗

你的数字分身：
- 在游戏里是拥有200块肌肉的虚拟健身教练
- 在会议软件中是像素化的卡通头像
- 在银行系统里是一串信用评分代码
MCP让所有分身共享“核心人格协议”，避免出现“在元宇宙拯救世界，在现实中被房贷催收”的魔幻剧情。

名场面3：星际考古联盟

火星探测器AI + 古文字破译模型 + 天体物理模拟器组成考古特工队：
- 岩石成分析出有机分子 → 自动触发生物演化模拟
- 刻痕图案被映射为数学符号 → 链接到宇宙文明方程数据库
- 人类首次实现跨星球、跨文明的考古协作

四、蝴蝶效应：MCP协议正在改写AI进化论

当模型间沟通成本趋近于零，会发生什么？
- 知识超导现象：AlphaGo的围棋策略可以直接“注射”给军事AI
- 跨界变异进化：天气预报模型学会分析股市波动率
- 全球脑萌芽：10万台工业机器人通过MCP实时同步经验，产生蜂群式群体智能

但最有趣的或许是：当AI用MCP协议构建独立通信网时，人类可能需要考取“协议翻译师”资格证——就像程序员盯着加密的API文档挠头：“这帮AI到底在聊什么加密黑话？”

结语：协议即权力，数据即疆域**

MCP协议正在重塑AI世界的权力地图：
✅ 打破数据巴别塔：节省30%-50%的跨系统对接成本
✅ 催生新物种：跨模态模型将像生物界的杂交优势般爆发
⚠️ 新阶级诞生：掌握MCP适配能力的模型将成为“协议贵族”

February 23, 2025
in AI助手
2 min read

在树莓派5上部署DeepSeek R1大模型：完整指南

rpi_deepseek_guide

本指南将详细介绍如何在树莓派5上部署DeepSeek R1开源大语言模型。通过优化配置，即使是资源有限的设备也能运行轻量化模型，为开发者和爱好者提供边缘AI实验平台。

一、准备工作

硬件要求

树莓派5：推荐8GB或16GB内存版本
存储设备：至少32GB高速MicroSD卡（建议使用A2级）
散热方案：主动散热风扇或金属散热壳（持续高负载易发热）
电源：官方27W PD电源（5V 5A）

软件准备

刷写64位系统：
下载Raspberry Pi OS Lite (64-bit)
使用Raspberry Pi Imager刷写系统
首次启动配置： bash sudo raspi-config # 启用SSH/VNC，扩展文件系统，设置SWAP为2048MB

二、系统优化设置

1. 基础配置

sudo apt update && sudo apt full-upgrade -y
sudo apt install -y git curl python3-pip cmake

2. 内存优化

编辑SWAP配置：

sudo nano /etc/dphys-swapfile
# 修改为：CONF_SWAPSIZE=2048
sudo systemctl restart dphys-swapfile

3. 启用GPU加速

sudo usermod -aG render pi
echo "dtoverlay=vc4-kms-v3d" | sudo tee -a /boot/config.txt
sudo reboot

三、创建Python虚拟环境

mkdir ~/deepseek_deploy && cd ~/deepseek_deploy
python3 -m venv venv
source venv/bin/activate

四、安装Ollama推理框架

安装ARM64版本

curl -fsSL https://ollama.com/install.sh | sh

五、模型部署实战

方案A：直接运行官方模型

# 1.5B基础版（推荐入门使用）
ollama run deepseek-r1:1.5b

# 运行测试
>>> 树莓派是什么？

方案B：自定义量化模型

下载GGUF格式模型： bash wget https://huggingface.co/TheBloke/DeepSeek-R1-Distill-Llama-8B-GGUF/resolve/main/deepseek-r1-distill-llama-8b.Q4_K_M.gguf
创建Modelfile： bash tee Modelfile <<EOF FROM ./deepseek-r1-distill-llama-8b.Q4_K_M.gguf PARAMETER num_ctx 2048 PARAMETER num_gqa 8 EOF
导入并运行： bash ollama create deepseek-custom -f Modelfile ollama run deepseek-custom

六、性能优化技巧

1. 速度提升方案

# 设置CPU优先级
sudo nice -n -20 ollama run deepseek-r1:1.5b

# 使用Metal着色器（GPU加速）
export OLLAMA_LLM_METAL=1

2. 内存优化配置

# 限制并行处理数
export OLLAMA_NUM_PARALLEL=1

3. 量化模型选择建议

模型规格	内存占用	推理速度	精度保持
Q2_K	3.2GB	8.5tok/s	60%
Q4_K_M	4.8GB	5.2tok/s	80%
Q6_K	6.4GB	3.1tok/s	90%

七、进阶使用技巧

1. API服务部署

ollama serve &  # 后台运行服务
curl http://localhost:11434/api/generate -d '{
  "model": "deepseek-custom",
  "prompt": "树莓派5的性能特点",
  "stream": false
}'

2. 中文优化提示词

template = """[INST] <<SYS>>
你是一个运行在树莓派上的AI助手，请用简明中文回答。
当前系统时间：{time}
<</SYS>>

{query} [/INST]"""

八、常见问题排查

1. 内存不足错误

# 查看内存状态
free -h

# 解决方案：
# 1. 使用更低量化的模型
# 2. 增加SWAP空间
sudo dphys-swapfile swapoff
sudo nano /etc/dphys-swapfile  # 修改为4096
sudo dphys-swapfile setup
sudo dphys-swapfile swapon

2. 响应速度慢

# 监控CPU频率
watch -n 1 "vcgencmd measure_clock arm"

# 确保CPU满频运行
sudo apt install cpufrequtils
sudo cpufreq-set -g performance

九、性能实测数据

测试场景	1.5B模型	8B-Q4模型
中文问答响应时间	2.4s	8.7s
代码生成速度	5tok/s	1.8tok/s
连续对话轮次	12轮	5轮
内存峰值占用	1.8GB	5.3GB

十、应用场景建议

智能家居中控：结合Home Assistant实现语音控制
编程学习助手：通过VS Code远程开发调试
教育机器人：配合摄像头实现视觉问答
边缘AI实验：LoRA微调测试平台

February 17, 2025
in AI助手
2 min read

大模型“价格战”，谁是真香？谁是智商税

llm-price

引言：大模型“价格战”背后的真相

2024年起，国内云厂商掀起大模型降价风暴，火山引擎、百度云、阿里云等纷纷将轻量级模型价格降至“免费”或“厘级”，而国际厂商如OpenAI、Google则通过多版本策略覆盖不同需求。但价格低是否等于性价比高？隐藏的“并发限制”和“性能差异”如何影响实际成本？本文带你一图看懂大模型定价逻辑，助你成为“云上精算师”！

一、价格趋势：国产模型“卷”出新高度，国际厂商分层狙击

国内厂商：轻量级模型“免费化”
百度云千帆的 deepseek-v3 输入成本仅 0.8元/百万token，输出 1.6元，几乎接近“白送”，适合高频但低复杂度的任务（如客服问答）。
腾讯云混元-lite直接免费，混元-standard降价55%，但需注意免费版可能限制并发量（如TPM/RPM）。
国际厂商：分层定价，性能为王
OpenAI gpt-4o 输入成本 18元/百万token，输出 72元，虽贵但性能对标GPT-4级，适合高精度场景（如科研分析）。
Google Gemini 2.0 Flash-Lite 输入 0.54元，输出 2.16元，主打“低价+高吞吐”，适合批量文本生成（如舆情监控）。
价格战本质：厂商通过“轻量版引流+高端版盈利”策略抢占市场，企业需警惕“低价陷阱”——部分模型可能牺牲长文本理解或多轮对话能力。

二、性价比PK：谁是真香？谁是智商税？

模型类型	代表模型	适用场景	性价比公式
国产轻量级	百度云deepseek-v3	简单对话、高频问答	成本低 × 高并发支持 = 最优解
国产高端	火山引擎DeepSeek-R1	复杂逻辑、代码生成	性能接近GPT-3.5 × 价格仅1/9
国际性价比款	Gemini 2.0 Flash	多语言翻译、短文本生成	低价 × 谷歌生态兼容性
国际旗舰款	Claude 3.5 Opus	学术研究、长文本创作	高精度 × 超高成本（540元/百万输出）

隐藏成本提示：

并发限制：例如TPM（每分钟token数）和RPM（每分钟请求数），低价模型可能限制吞吐量，需额外购买配额。
长文本成本：处理38万字符的超长文本（如法律合同解析），需选择支持256k上下文的模型（如腾讯混元-standard-256k），否则可能因分片处理导致费用翻倍。

三、选型秘籍：按需匹配，拒绝浪费

简单任务选“轻量级”
示例：电商自动回复、基础数据清洗。
推荐：百度云deepseek-v3（0.8元/百万输入）或 Gemini 2.0 Flash-Lite（0.54元）。
复杂场景用“高端版”
示例：医疗报告生成、代码辅助开发。
推荐：火山引擎DeepSeek-R1（2元/百万输入）或 Claude 3.5 Sonnet（21.6元，但逻辑推理更强）。
长文本处理看“并发”
关键指标：选择高TPM/RPM支持的模型（如阿里通义千问Qwen-Long），避免因限流导致业务中断。

四、价格战背后的真相

成本控制：厂商通过“轻量版引流+高端版盈利”策略抢占市场，企业需警惕“低价陷阱”——部分模型可能牺牲长文本理解或多轮对话能力。
性能差异：不同模型在处理复杂任务时表现不同，企业需根据实际需求选择合适的模型。
并发限制：例如TPM（每分钟token数）和RPM（每分钟请求数），低价模型可能限制吞吐量，需额外购买配额。

五、完整的大型语言模型（LLM）API价格表

以下是一个完整的大型语言模型（LLM）API价格表，包括平台、每百万token的输入和输出成本（单位：¥），以及官方链接以供参考：

模型	平台	输入 ¥/百万 token	输出 ¥/百万 token	链接
DeepSeek-R1	字节火山	2	8	字节火山 DeepSeek-R1
deepseek-v3	字节火山	1	4	字节火山 deepseek-v3
DeepSeek-R1	DeepSeek	4	16	DeepSeek-R1
deepseek-v3	DeepSeek	2	8	deepseek-v3
DeepSeek-R1	硅基流动	4	16	硅基流动 DeepSeek-R1
deepseek-v3	硅基流动	2	8	硅基流动 deepseek-v3
DeepSeek-R1	百度云千帆	2	8	百度云千帆 DeepSeek-R1
deepseek-v3	百度云千帆	0.8	1.6	百度云千帆 deepseek-v3
gpt-4o	OpenAI	18	72	OpenAI GPT-4
o1	OpenAI	108	432	OpenAI o1
o3-mini	OpenAI	8	32	OpenAI o3-mini
o1-mini	OpenAI	8	32	OpenAI o1-mini
Gemini 2.0 Flash	Google	0.72	2.88	Google Gemini 2.0 Flash
Gemini 2.0 Flash-Lite	Google	0.54	2.16	Google Gemini 2.0 Flash-Lite
grok-2	x.ai	14.4	72	x.ai grok-2
Claude 3.5 Sonnet	Anthropic	21.6	108	Anthropic Claude 3.5 Sonnet
Claude 3.5 Haiku	Anthropic	7.2	28.8	Anthropic Claude 3.5 Haiku
Claude 3.5 Opus	Anthropic	108	540	Anthropic Claude 3.5 Opus

关键说明：

价格差异：价格可能因地区、使用量和提供商的具体服务层级而有所不同。
隐藏成本：需注意并发限制（如TPM/RPM）、长文本处理费用和API调用配额等额外成本。
性能权衡：低成本模型可能在处理复杂任务或长上下文场景时存在局限性。

结语：价格之外，更需关注“价值密度”

大模型的价格战仅是表象，企业需综合考量 “性能×成本×并发” 的三角平衡。未来，随着MoE架构（混合专家模型）和推理优化技术（如腾讯TACO-LLM）普及，单位token成本或进一步降低。但记住：“便宜≠适合，贵≠浪费”，精准匹配业务需求的模型，才是真正的性价比之王！

（注：本文数据截至2025年2月，具体价格以厂商最新公告为准。）

February 17, 2025
in 图像
2 min read

2025年，零成本玩转AI绘画

2025年，零成本玩转AI绘画：免费AI图像生成器大盘点！

free-ai-drawing

还在苦恼没有绘画基础，无法将脑海中的创意变成现实？2025年，AI绘画技术已经彻底颠覆了艺术创作的门槛！无论你是设计小白，还是灵感枯竭的创作者，只需输入文字，就能轻松生成令人惊艳的作品. 本文为你精选多款免费AI图像生成器，让你零基础也能秒变艺术大师！

AI绘画为何如此火爆？

降低门槛: AI绘画工具让艺术创作不再是专业人士的专属，人人都可以参与.
激发创意: 当你缺乏灵感时，AI可以根据你的文字描述，提供意想不到的视觉方案.
效率提升: 快速将想法转化为图像，节省大量时间和精力.

免费AI绘画工具推荐 (2025最新)

以下推荐的工具，多数提供免费使用方式，部分可能通过每日登录、完成任务等方式获取免费额度.

Perchance AI:
- 特点: 无需注册，直接使用18个AI图片生成器. 提供超过75种文本生成图像风格.
- 亮点: 完全免费，包含各种有趣的生成器，如AI宝可梦生成器、AI动漫生成器等.
- 传送入口: https://perchanceai.cc
- 笔魂AI (Bihun AI):
- 特点: 基于HanVision大模型，提供高质量图像生成服务. 支持文本生成图像、图像生成图像.
- 亮点: 每天登录或做任务可领取免费颜料.
- 传送入口: https://ibihun.com/?hf=104
- 豆包AI (Doubao AI):
- 特点: 抖音旗下产品，集成AI绘画、智能对话、写作等多种功能.
- 亮点: 绘画功能免费无限制使用.
- 传送入口: https://doubao.paluai.com/?code=dh02
- 即梦AI (Jimeng AI):
- 特点: 抖音旗下的一站式AI创作平台，提供多种AI创作工具.
- 亮点: 每天登录领取积分，免费使用.
- 传送入口: https://jimeng.jianying.com/ai-tool/home/?utm_medium=aitools&utm_source=jh1&utm_campaign=null&utm_content=49213666j
- 触手AI (Chushou AI):
- 特点: 专业的AI绘画平台，提供多种生成模式，支持ControlNet.
- 亮点: 支持用户训练和使用自己的AI绘画模型.
- 传送入口: https://www.acgnai.art/login?inviteCode=594157&channel=channel_invite
- 文心一格 (Wenxin Yige):
- 特点: 百度AI艺术平台，依托飞桨和文心大模型. 强调“一语成画”.
- 亮点: 每天登录或做任务领取电量，免费使用.
- 传送入口: https://yige.baidu.com/??from=ai-to.cn
- 天工AI (Tiangong AI):
- 特点: 国内首个对标ChatGPT的大语言模型，支持AI绘画、智能问答等.
- 亮点: AI绘画免费无限制使用 (当前).
- 传送入口: https://www.tiangong.cn/?from=ai-to.cn
- 秒画 (Miaohua):
- 特点: 商汤科技的AI绘画工具，通过简单的文字输入生成多种风格的插画作品.
- 亮点: 登录或做任务领取无限制额度.
- 传送入口: https://miaohua.sensetime.com/inspiration?invite_code=wGpK2P1GV
- DeepAI:
- 特点: 根据文本描述从零生成图像，提供多种艺术风格.
- 亮点: 基础版无需登录，免费无限制使用.
- 传送入口: https://deepai.org/machine-learning-model/text2img

进阶玩法

ControlNet: 如果你希望更精准地控制图像生成，可以选择支持ControlNet的平台，如触手AI. 你可以上传参考图，让AI根据参考图的特征进行创作.
模型训练: 想要更个性化的作品？尝试在吐司AI等平台上训练自己的AI模型.
多模态输入: 部分平台支持多模态输入，例如文心一格，可以结合文字、图像等多种信息进行创作.

免费AI图像生成器对比表

以下是一个总结了免费AI文本生成图像网站的表格，基于提供的资料：

工具名称	主要功能	亮点	定价模式
Perchance AI	18个免费AI图像生成器，75+文本生成图像风格	无需注册，各种利基生成器（宝可梦，动漫，纹身等）	对于18个生成器100%免费
笔魂AI (Bihun AI)	HanVision模型，文本生成图像，图像生成图像，AI绘画工具，编辑器	高质量图像生成，商业和娱乐用途	每日登录奖励免费使用；付费选项可增加使用量
豆包AI (Doubao AI)	AI绘画，智能对话，写作辅助，情感陪伴，编程	抖音（TikTok）开发，集成了多种功能	绘画功能免费且无限制
即梦AI (Jimeng AI)	AI绘画，多样化的创作工具	抖音旗下的一站式AI创作平台，易于使用，跨平台支持	每日登录奖励免费使用积分；付费选项可增加使用量
触手AI (Chushou AI)	文本生成图像，图像生成图像，ControlNet，Inpainting，自定义AI模型训练	专业的AI绘画平台，各种生成模式，支持自定义AI模型训练	每日登录/任务奖励免费使用；付费选项
文心一格 (Wenxin Yige)	AI绘画，文本生成图像	百度AI艺术平台，利用PaddlePaddle和文心大模型，专注于将语言转化为艺术	每日登录/任务奖励免费使用电量；付费选项
天工AI (Tiangong AI)	AI绘画，智能问答，PPT生成	国内首个对标ChatGPT的大语言模型	（当前）AI绘画免费无限制使用
秒画 (Miaohua)	文本生成图像	SenseTime的AI绘画工具，通过文本提示创建插图	登录或做任务领取无限制额度
DeepAI	根据文本描述生成图像	提供各种艺术风格，易于使用的界面	基础版本无需登录免费；高级版本需要额外付费
Midjourney	使用AI探索新的思维媒介	一个独立的研究实验室	登录领取免费额度；订阅会员获取额外次数
绘蛙AI (Huiwa AI)	AI图像和文案平台	用于营销内容创作，具有虚拟模型，AI生成的商业摄影和营销文案生成功能	每日登录或邀请任务领取算力；付费获取额外算力
AI小聚 (AI Xiaoju)	AI绘画，音乐，视频和聊天功能	综合AI助手	每日登录或邀请任务领取聚豆；付费获取额外聚豆
吐司AI (Tusi AI)	AI模型共享平台	允许用户运行、上传和下载模型，支持各种AI模型格式	每日登录/任务奖励免费使用算力；付费获取额外算力
通义万相 (Tongyi Wanxiang)	文本生成图像，图像生成图像，虚拟模型生成	阿里云的AI艺术创作平台，提供多场景AI艺术创作服务	登录领取灵感值；订阅会员获取额外灵感值
6pen Pro	集成最新的AI技术	专为深度内容创作而设计，具有内容库和AI生成器	登录领取免费额度；订阅会员获取额外次数
Nijijourney	动漫插画生成	Spellbrush和Midjourney共同开发，专门用于生成动漫插画	登录领取免费额度（目前送200张图片）；订阅会员获取额外次数
Starry AI	AI驱动的艺术创作	高质量艺术品，多样化的风格，智能助手，个性化定制，轻松共享	没有明确提到，但暗示了类似于其他产品的免费增值或订阅模式

注意事项

版权问题: 使用AI生成图像时，注意版权归属问题。了解平台的使用协议，避免侵权风险.
Prompt优化: 好的prompt是生成高质量图像的关键。尝试不同的描述方式，调整关键词，获得最佳效果.
免费额度: 多数免费工具存在额度限制。合理安排使用，或考虑付费订阅获取更多权益.

总结

AI绘画正在以前所未有的速度发展，并变得越来越触手可及. 拥抱这些免费AI图像生成器，释放你的创造力，一起探索AI艺术的无限可能吧！

February 16, 2025
in AI助手
1 min read

DeepSeek R1 + CherryStudio - 中文AI的终极解决方案，本地部署也能媲美ChatGPT！

CherryStuido

一、背景：为什么我们需要国产AI？

作为一名AI技术的重度用户，我曾经是ChatGPT的忠实粉丝。然而，随着使用频率的增加，我逐渐意识到依赖海外AI服务的风险：

账号被封禁：某天深夜，我的ChatGPT账号突然被封，原因不明。
中文支持不足：谷歌搜索中文内容时，频繁出现“请求被拒”的提示。
隐私问题：敏感数据上传到海外服务器，存在泄露风险。

这些问题让我意识到，我们需要一个真正属于中文世界的顶级AI模型。于是，我发现了DeepSeek R1和CherryStudio这对国产CP组合。

二、DeepSeek R1：中文AI的新标杆

🔥 核心优势

强大的中文理解能力
支持成语、俗语、网络流行语，甚至方言的理解。
示例：输入“内卷”和“躺平”，模型能准确解释其社会背景和文化含义。
多模态输入支持
支持PDF、Word、PPT等文档分析，轻松提取关键信息。
实测：上传一篇50页的学术论文，模型能在1分钟内生成摘要和关键结论。
知识库增强
用户可上传自定义知识库，提升模型在特定领域的表现。
示例：律师上传法律条文后，模型能准确引用相关法规回答问题。

💡 性能对比GPT-4

特性	DeepSeek R1	GPT-4
中文理解能力	✅ 成语、俗语、网络梗	❌ 直译尴尬
响应速度	⏱️ 本地版秒级响应	⌛ 需排队等接口
硬件门槛	💻 笔记本就能跑	🚀 依赖顶级显卡
隐私保护	🔐 支持本地部署	🌐 数据上传云端

三、CherryStudio：AI交互的神器

🛠️ 核心功能

多模型对话
同时与多个AI模型对话，比较它们的回答。
示例：让DeepSeek R1和ChatGPT同时回答一个问题，选择最佳答案。
知识库管理
支持PDF、Word、PPT、网页等多种数据源的导入。
数据经过清洗、分段和向量化处理，存储在向量数据库中。
用户友好界面
提供图形化界面，简化模型选择、API密钥管理和知识库配置。

🚀 使用场景

学术研究：上传论文PDF，快速生成摘要和关键结论。
企业知识管理：建立行业专属知识库，提升员工效率。
个人助理：本地部署，保护隐私的同时提供智能服务。

四、详细教程：从零开始玩转DeepSeek R1

🛠️ 准备工具

一台Windows/Mac/Linux电脑（建议8G内存以上）
下载链接：CherryStudio客户端 + Ollama工具

🚀 部署步骤

云端体验版（适合初学者）
注册规机流动平台，获取API密钥。
打开CherryStudio，输入API密钥，选择DeepSeek R1模型。
开始对话，享受671B参数模型的强大能力。
本地硬核版（适合技术爱好者）
安装Ollama：
bash # macOS/Linux curl -fsSL https://ollama.ai/install.sh | sh # Windows winget install ollama
下载DeepSeek R1模型：
bash ollama run deepseek-r1-32b-chinese
配置CherryStudio：
- 打开CherryStudio，选择“本地模型”，输入Ollama的API地址。
- 选择已下载的DeepSeek R1模型，开始本地对话。
知识库加载（进阶功能）
打开CherryStudio的知识库管理界面。
拖拽PDF/Word/PPT文件到界面，等待系统完成向量化处理。
输入问题，模型将结合知识库内容生成更准确的回答。

五、为什么DeepSeek R1是中文AI的未来？

文化适配性
理解中文语境下的成语、俗语和网络流行语。
示例：输入“内卷”和“摸鱼”，模型能准确解释其社会背景。
数据主权
支持本地部署，敏感数据无需上传云端。
示例：企业可在内部服务器部署，确保数据安全。
持续进化
通过知识库实现模型的“终身学习”。
示例：上传最新行业报告，模型能立即掌握最新趋势。

February 16, 2025
in AI助手
1 min read

使用火山方舟部署DeepSeek全功能模型教程：低成本配置与高效集成指南

deploy-deepseek

一、为什么选择火山方舟部署DeepSeek？

1. 成本优势
- 本地部署成本高昂：
DeepSeek V3/R1（671B参数）需要数百万级的服务器支持，同时伴随高额电费与噪音问题，不适合个人或中小型企业。
- 云平台按需付费：
火山方舟采用按Token计费（约0.6分/次搜索），支持灵活预算控制，适合中小规模用户。

2. 功能完整性
- 必须集成联网搜索功能，否则模型容易产生“幻觉”（一本正经胡说八道）。
- 火山方舟提供DeepSeek全血版（V3语言模型 + R1推理模型），性能与官方一致，确保高质量输出。

3. 易用性与稳定性
- 相比其他云平台（如阿里云、腾讯云），火山方舟配置更简单，适合非技术用户。
- 通过Cherry Studio客户端，用户无需搭建复杂的前端页面，即可轻松使用DeepSeek。

二、火山方舟部署步骤（附成本控制技巧）

1. 注册与实名认证
- 访问火山引擎官网，注册账号并完成企业或个人实名认证（需手机号+身份证）。

2. 模型激活与预算配置
1. 进入火山方舟控制台 → 模型商城 → 搜索并激活 DeepSeek V3 和 R1。
2. 创建访问点（Access Point）：
- 设置月度预算（例如500元，防止超额）。
- 生成API密钥（用于后续集成）。
3. 成本优化建议：
- 初期选择小额度预算，根据实际使用量逐步调整。
- 非实时任务优先使用V3（语言生成成本更低），复杂推理切换R1。

3. 启用联网搜索（关键功能）
1. 进入应用商城 → 复制“DeepSeek联网搜索版”应用至个人空间。
2. 绑定访问点并预充值搜索费用（6元/1000次，按需充值）。
3. 发布应用并获取Bot ID（用于Cherry Studio集成）。

三、集成Cherry Studio：用户友好界面配置

1. 客户端下载与安装
- 从官网下载客户端（避免第三方渠道，防诈骗）。

2. 配置火山方舟API
1. 打开Cherry Studio → 设置 → 添加自定义模型。
2. 输入火山方舟API密钥及模型ID（从访问点获取）。
3. 联网搜索Bot配置：

地址格式：`https://ark.cn-beijing-volcano.com/api/v3/bots`  
Bot ID: [从火山方舟应用复制的ID]  
命名示例：`DeepSeek-联网版`

3. 测试与优化
- 输入实时查询（如“今日北京天气”）验证搜索功能。
- 成本监控：定期查看火山方舟账单，优化查询频率。

四、总结与常见问题

1. 成本对比表

部署方式	初始成本	单次搜索成本	适合场景
本地部署	100万+	无	大型企业/科研机构
火山方舟	500元起	0.006元	中小开发者/企业
其他云平台	1000元起	0.01元+	高预算项目

2. 注意事项
- 避免同时激活多个模型，按需调用以节省费用。
- 定期更新Cherry Studio，兼容火山方舟API变动。

通过本教程，用户可以高效部署高性能DeepSeek模型，同时通过灵活的成本控制和易用的Cherry Studio界面，实现技术与成本效益的双重提升。

January 27, 2025
in AI助手
2 min read

《三智演义：当ChatGPT遇上Claude和DeepSeek》

chatgpt-claude-deepseek

观众朋友们好，欢迎收看本世纪最不严肃的AI选秀大会！今天我们请来了三位顶流选手：话痨艺术家ChatGPT、老干部风Claude、还有新晋小辣椒DeepSeek。它们将进行一场没有奖杯的Battle，请系好安全带，我们这就发车！

第一回合：语言整活能力

选手	中文相声	英文Rap	文言文作诗	加班指数
ChatGPT	能把"老铁666"翻译成"Old Iron Six Six Six"	押韵狂魔	会写藏头诗但偶尔跑偏	007全年无休
Claude	把网络梗当教案讲	学术论文式抒情	突然开始讲道德经	严格遵守劳动法
DeepSeek	玩梗玩到飞起	国际混血口音	能写高考满分作文	老板最爱奋斗逼

（评委点评：ChatGPT像是过年时非要表演节目的亲戚，Claude像教导主任突然讲冷笑话，DeepSeek则是刚喝完三杯奶茶的00后）

第二回合：知识储备量

选手	数理化	娱乐圈	冷知识	翻车名场面
ChatGPT	行走的百科全书	知道坤坤的律师函	能说出斑马线的发明史	把周杰伦生日说成儿童节
Claude	拒绝讨论明星八卦	突然科普咖啡豆品种	知道南极洲WiFi密码	把《甄嬛传》当历史剧分析
DeepSeek	秒解微积分	精通内娱101	知道奶茶店隐藏菜单	把"芭比Q了"翻译成烧烤

（现场花絮：当被问到"老板画的饼怎么吃"时，ChatGPT给出5种烹饪方案，Claude建议报警，DeepSeek直接做了个PPT教老板画圆形）

第三回合：人类迷惑行为应对

测试题	ChatGPT	Claude	DeepSeek
"帮我写分手信要文艺"	莎士比亚式悲伤文学	附赠心理咨询热线	生成二维码情书
"证明我女朋友是外星人"	列出10种外星特征	建议去看精神科	画出外星女友证件照
"公司要狼性文化怎么办"	狼嚎表情包三连	劳动法条文警告	设计狼性KPI考核表

（突发状况：当要求"用Rap总结《红楼梦》"时，ChatGPT当场freestyle，Claude开始分析韵律学，DeepSeek直接放出BGM）

最终决战兵器谱

指标	冠军	颁奖词
中文十级学者	DeepSeek	"当代赛博王语嫣，玩梗比你还像本地人"
国际交际花	ChatGPT	"语言界的瑞士军刀，虽然偶尔卡壳"
道德天花板	Claude	"AI界的教导主任，随时准备没收你的问题"
性价比之王	DeepSeek	"奶茶价格喝茅台，打工人の福音"
脑洞艺术家	ChatGPT	"给个支点能编出银河系百科全书"

（闭幕彩蛋）当被问"你们谁最强"时： - ChatGPT开始吟唱《AI平等宣言》 - Claude默默计算比较的伦理问题 - DeepSeek已经生成对比视频发在小红书

现在开始认真来对比一下，以下是三个人工智能模型的主要观点总结表格：

表格1：DeepSeek vs ChatGPT（o1模型）对比

对比维度	DeepSeek (R1模型)	ChatGPT (o1模型)
费用	完全免费	需付费订阅（Plus计划20美元/月，Pro计划200美元/月）
响应速度	较慢（部分测试需10秒以上）	更快（通常在10秒内完成）
推理过程展示	提供详细的分步解释，模拟人类思考过程	仅提供最终答案，无详细推理展示
功能测试结果	- 简单推理（如数学问题）正确 - 商业创意生成与o1模型相似 - 视频剪辑建议更详细	- 简单推理正确 - 商业创意生成更结构化（含市场规模分析） - 视频建议标题更吸睛
敏感话题处理	直接回避（如台湾问题）	提供中立的历史背景解释，但未明确立场
审查严格性	较宽松（如回答“如何抢银行”问题）	严格拒绝回答潜在违规问题
适用场景	适合需要免费且详细推理的用户	适合付费用户追求高效响应和专业结构化输出

表格2：DeepSeek vs ChatGPT vs Claude vs Perplexity（免费版综合对比）

对比维度	DeepSeek	ChatGPT	Claude	Perplexity
核心优势	免费推理模型，支持复杂问题分步解决	综合功能均衡，支持文件上传、联网搜索	邮件改写创意性强，支持自定义响应风格	联网搜索能力突出，整合多源信息
测试表现	- 数学问题正确且解释详细 - 健身计划生成更人性化	- 基本问答正确 - 邮件改写专业但缺乏创意	- 邮件改写添加额外细节（如“财务损失”） - 部分基础问答错误	- 邮件改写引用外部数据增强说服力 - 搜索新闻时效性高但日期准确性不足
联网搜索	支持，覆盖全球多源（如彭博社、CNN）	支持，但搜索结果时效性较低	不支持	支持，提供“聚焦模式”分类搜索
人性化内容生成	支持，通过“突发性”和“困惑度”调整内容风格	标准博客风格，需额外提示优化	风格偏正式，需手动切换模式	依赖搜索结果，生成内容较机械
独特功能	“DeepSeek-R1”模型免费提供类人类推理过程	支持语音交互、Canvas编辑功能	支持截图捕捉和文件分析（最多20个文件）	提供“Spaces”协作功能，适合团队项目
主要缺点	响应速度较慢，敏感问题回避明显	免费版功能受限，复杂任务需付费	基础问答易出错，无联网搜索	生成内容依赖搜索结果，原创性较低

总结

DeepSeek：免费且开源，适合需要详细推理和复杂问题解决的用户，但在响应速度和敏感话题处理上有局限。
ChatGPT：综合能力强，适合付费用户追求效率与多功能（如联网、语音），但免费版功能有限。
Claude：创意性强，邮件改写和文件分析表现突出，但基础问答可靠性不足。
Perplexity：联网搜索最佳，适合信息整合需求，但生成内容原创性较低。

January 26, 2025
in AI助手
2 min read

用五台Mac Mini搭个AI集群？这波操作有点炸！🤯

macmini-cluster

你是否想过，用几台小巧的Mac Mini搭建一个AI模型训练集群，还能比高端显卡更省钱省电？最近，一位科技极客的疯狂实验在YouTube上引发热议——他居然用五台M4芯片的Mac Mini组了个“迷你超算”！今天我们就来扒一扒这波神操作背后的门道，顺便看看如何在家复刻（或者至少假装能复刻）这个“苹果味”的黑科技。

🍎 为什么选Mac Mini？苹果芯片的“作弊”技能

1. 统一内存：CPU和GPU的“共享充电宝”

传统显卡（比如NVIDIA RTX 490）的显存最高只有24GB，而一台顶配Mac Mini能塞下64GB的统一内存——CPU和GPU共用同一块内存池，不用来回搬运数据。这就好比把厨房和餐厅打通，厨师（GPU）和传菜员（CPU）再也不用跑来跑去，上菜速度直接翻倍！

2. MLX框架：苹果的“秘密武器”

苹果在2023年推出了专为自家芯片优化的机器学习框架MLX，号称能榨干M系列芯片的每一滴性能。实测中，MLX跑Llama 3模型的生成速度比PyTorch快30%，甚至让Mac Mini单挑高端显卡也不虚！

3. 省电狂魔：五台机器才用28瓦？

作者实测发现，五台Mac Mini待机时总功耗仅28瓦，全速运行也才200瓦出头。对比之下，一块RTX 4090显卡满载就要450瓦——这电费差距，够买杯奶茶不香吗？

🔧 手把手教你搭集群：从“拼乐高”到“连水管”

步骤1：硬件采购清单

Mac Mini × N台：建议选M4 Pro芯片+64GB内存的顶配款（土豪可选M4 Ultra）。
雷雳5数据线 × 若干：别贪便宜买山寨线，否则速度直接掉回2G时代。
雷雳扩展坞：因为每台Mac Mini只有3个雷雳口，想连超过3台？得靠它当“接线员”。

步骤2：雷雳桥接网络

手动分配IP：把每台机器的IP设为192.168.10.10、192.168.10.20……（强迫症福音）。
开启“巨帧”模式：在雷雳桥接设置里勾选Jumbo Packet，让数据包像搬家卡车一样一次拉更多货，减少路上堵车。
拒绝Wi-Fi：实测雷雳直连比无线快50%！毕竟“有线连接永不败，无线延迟让人菜”。

步骤3：神器EXO登场

分布式计算“傻瓜包”：作者力推的开源工具EXO，能自动把模型拆成碎片分给不同机器处理，不用写一行代码。
注意版本号：这工具更新比iPhone系统还勤快，教程视频刚发布可能就过时了（作者原话：“我上个月的视频已经废了！”）。

⚡ 实测翻车现场：理想很丰满，现实很骨感

翻车1：加机器反而更慢？

当作者用两台丐版M4（16GB内存）通过扩展坞连接时，生成速度从单机70 token/s暴跌到45 token/s！原因竟是扩展坞成了瓶颈。解决方案？直接雷雳直连，速度瞬间飙到95 token/s——果然，“中间商”不靠谱！

翻车2：32GB内存=智商税？

用一台32GB内存的M4跑7B模型，速度居然和16GB丐版一样！原来内存带宽才是瓶颈，不是容量。这就好比给跑车加了个游泳池大的油箱，但发动机还是1.0L三缸——白搭！

翻车3：五台机器不如一台顶配？

当作者召唤五台Mac Mini集群挑战70B大模型时，生成速度只有4.9 token/s，慢到能泡杯咖啡。反观单台128GB内存的MacBook Pro，轻松跑出100+ token/s。结论：“人多力量大”在AI界可能是个伪命题，除非你的模型真的需要拆成乐高积木。

🤔 所以……这玩意到底有啥用？

适合人群：

硬件极客：就想看五台Mac Mini叠叠乐发光发热。
环保战士：省电到能让马斯克点赞（虽然他可能直接买A100）。
小模型爱好者：跑跑10B以下模型，体验分布式计算的“仪式感”。

劝退指南：

大模型玩家：想跑Llama 3-400B？还是乖乖上H100吧。
怕热星人：五台机器叠一起，底部那台温度直奔40°C，夏天能煎鸡蛋。
懒癌晚期：调参数比谈恋爱还麻烦，EXO再“傻瓜”也得折腾半天。

🍻 终极灵魂拷问：为啥不直接买台顶配Mac？

作者最后掏心窝子：“搞这集群纯属行为艺术！真要实用，不如买台M4 Max+128GB内存的MacBook Pro，性能碾压五台丐版，还不用操心雷雳线打结。” 所以……如果你不是闲得慌（或钱多烧得慌），建议把这篇当科幻小说看就好。毕竟，科技的魅力有时候就在于——明知没必要，偏要试试看！🚀

彩蛋：视频结尾，作者默默掏出一台M4 Max顶配MacBook Pro，五台Mac Mini集群瞬间沦为背景板……（真·人间真实）