印度AI能否逆袭?25万美元挑战全球巨头,1.9万块GPU豪赌引爆科技圈!这场语言迷宫中的突围战,震撼还是徒劳?

Inside India’s scramble for AI independence

【印度AI突围战:语言迷宫中的创新长征】

当中国AI公司深度求索(DeepSeek)今年初发布对标国际顶尖水平的大模型时,印度创业者们陷入复杂情绪。20岁的CognitiveLab创始人阿迪亚·科拉维感到振奋:”他们用更少资源实现突破,我们为什么不能?”而Soket AI Labs创始人阿布舍克·乌珀瓦尔看着自己耗资仅25万美元开发的10亿参数多语言模型Pragna-1B,更多是苦涩——这款为减轻印度”语言税”(支持22种官方语言的额外成本)设计的模型,最终因资源匮乏止步于概念验证阶段。

结构性困境与闪电行动
印度AI发展面临三重挑战:
1. 研发投入悬殊:2024年印度研发支出仅占GDP的0.65%(254亿美元),远低于中国的2.68%(4762亿美元)和美国3.5%(9623亿美元)
2. 语言迷宫:印地语等本土语言仅占网络内容1%,且存在字符边界模糊等自然语言处理难题
3. 基础设施薄弱:全国GPU总量不及硅谷中型公司储备,90%芯片依赖进口

【破局时刻!】2025年1月,在DeepSeek-R1发布10天后,印度电子信息技术部(MeitY)紧急启动”印度AI使命”计划,通过公私合作调配1.9万块GPU(含1.3万块H100),并宣布2025年底前开发6个大模型。最引人注目的是由Sarvam AI承担的700亿参数本土化模型项目,该团队已获得4096块H100的算力支持。

草根创新者的逆袭
低成本突破:乌珀瓦尔团队开发”平衡分词技术”,使12.5亿参数模型达到70亿参数模型的效能,特别在印地语和古吉拉特语任务中表现突出
语音优先战略:Gnani AI等公司将技术转化为22种方言的语音API,服务农村非英语用户
数据突围:开放平台OpenHathi-Hi-v0.1基于400亿token印地语数据训练,成为最大开源印地语模型

125亿美元豪赌
印度正通过多管齐下破解困局:
资金池:未来五年预计吸引120亿美元投资,含12.5亿美元的”印度AI使命”专项
算力网:建设成本仅500万美元的超算中心(欧美需1000万+)
人才回流:类似贝尔实验室的Lossfunk等项目开始吸引海归科学家

【争议焦点】
1. 开源之争:Sarvam选择闭源模式引发质疑,政策专家阿姆兰·莫汉蒂指出:”真正主权应植根于开放”
2. 路径选择:印孚瑟斯董事长南丹·尼勒卡尼主张”不做大模型跟风者,专注应用层创新”,引发行业激辩

延伸思考
1. 在算力霸权时代,发展中国家能否通过算法优化实现”轻量级超车”?
2. 多语言国家开发AI时,政府应如何平衡商业利益与语言文化遗产保护?

阅读 Technology Review 的原文,点击链接

Simon