| |
首页 淘股吧 股票涨跌实时统计 涨停板选股 股票入门 股票书籍 股票问答 分时图选股 跌停板选股 K线图选股 成交量选股 [平安银行] |
股市论谈 均线选股 趋势线选股 筹码理论 波浪理论 缠论 MACD指标 KDJ指标 BOLL指标 RSI指标 炒股基础知识 炒股故事 |
商业财经 科技知识 汽车百科 工程技术 自然科学 家居生活 设计艺术 财经视频 游戏-- |
天天财汇 -> 汽车百科 -> 为什么特斯拉坚持用纯视觉智驾? -> 正文阅读 |
|
[汽车百科]为什么特斯拉坚持用纯视觉智驾? |
[收藏本文] 【下载本文】 |
为什么特斯拉坚持用纯视觉智驾? 关注问题?写回答 [img_log] 自动驾驶 智能驾驶 汽车提问大赛 智能驾驶辅助 智能驾驶研习社 为什么特斯拉坚持用纯视觉智驾? |
我认为特斯拉是利用比技术本身高一个层次的客观规律,做了一次对自动驾驶技术发展路线进行预判的冒险,或者说是赌博。 在大概2015年左右,自动驾驶的各种客观技术条件都已经齐备,自动驾驶由科学幻想变为现实只差工程实施了。所谓技术路线齐备,事实上意味着实现某种功能,不止一条技术路线。 2015年左右的时候,世界上已经在做与自动驾驶相关的事情的,走在最前面的,其实是自动化行业。在港口自动卸货的机器,医院实验室里运送样本的机器人,早就作为具有极高溢价的产品用了若干年了。它们的技术路线很大程度上,是基于与另一个学科——测绘学的交叉。因为这些机器需要能够识别路线和障碍,制定规则,规划路线就行了。对空间进行建模就是最重要的步骤。测绘行业中对空间的测量,在那个时代,激光雷达因为有极佳的鲁棒性,是绝对的霸主。所以自动化机器自然而然地用上了激光雷达作为空间测量的技术工具。汽车,在工程师眼里,也就是个大号的自动化设备,把空间探测好,写规则,完事儿。 但是在当时,测绘行业正在被另一项技术血洗——摄影测量。这技术其实是搞计算机图形学的一帮人折腾出来的,原理很简单,就是如果我们能判断两张照片的共同的点的位置和两次拍摄的机器的相对距离,就能把共同点的坐标给求出来。简单的三角函数计算。那几年,基于卷积计算的早期的人工智能技术兴起,找照片的同名点,突然从人工繁重的劳动变成自动化的,大规模的摄影测量变成可能。尤其是与那时刚兴起来的无人机技术,北斗卫星技术结合,把地形图航测市场搞得天翻地覆。虽然当时激光雷达技术也在飞速发展,结合slam技术,更快速的激光测量产品也层出不穷,但永远无法回避的一个问题是,成本。 比方说我要测量一个地形,我既有激光雷达的无人机,也有摄影测量的无人机。但是无人机是有几率坠机的。激光雷达在当时动辄百万,没人敢飞。很多时候,更倾向于有人机结合激光雷达的配合,这就进一步提高了测绘的难度与成本。而摄影测量,只要你堆足够多的照片,反正控制网精度是由rtk控制的,所以大力出奇迹,无论是精度还是成本,摄影测量往往都能够碾压激光雷达的技术路线。 还有,摄影测量能提供更多的信息:纹理信息。激光只有反射度,没有颜色。比方说我要判断这个地方是树,摄影测量可以用绿色来区分,而激光就只能写一个算法,去确认这一团点云是不是树木。 这些优势和劣势的比较,在自动驾驶这个赛道,同样是存在的。但是自动驾驶有另外两个关键要求:一是数据需要能够实时提供;二是如果是基于规则的空间判断,需要穷尽规则。 啥意思呢,一就是说,在路上的空间数据,你要马上能够给我,你别说你回去要解算个半个小时再给我,撞死一路人了。 二就是说,你要告诉我所有我可能遇到的情况,如果碰到有些情况我规则库里没有,那就完蛋了。 在2015年的时候,对一,图像技术不太可能在像车辆这种移动平台上实现,因为实时的把照片上的像素计算出坐标来,需要巨大的算力、也就是巨大的能耗和体积;但激光雷达本来就是测距,所以可以立马给出探测物体的坐标来;对二,激光雷达技术因为没有纹理数据,很多时候连情况都区分不出来,更别提判断了,所以规则根本写不出来;但照相技术有纹理信息,原理上来说,只要人能够在马路上安全地开车,就不存在照相技术穷尽不了的规则(稍后工程师就怂了,这是后话)。 所以,在那个时候,所有理性的团队,都马上会产生一个想法:我把这俩的优势结合起来不就行了?激光雷达测距,照相提供素材,两者做个匹配,完美。当时甚至有做自动驾驶的人出来说,5年以后自动驾驶将会成为现实。 比尔盖茨,无论这个人到底咋样,有时候说出来的话还是有道理的。他说,普通人往往会对1年以后的技术发展感到乐观,对5年以后的技术发展感到悲观。意思是说,大部分人都难以理解技术的长期发展的节奏。 像前面说到的,当大家看到希望,热钱疯狂涌入自动驾驶的之后,很快,工程师们就怂了。 第一件需要认怂的事情,是激光雷达的价格和寿命。我就说一件事情:当年热钱涌入自动驾驶的时候,美国的瓦伦代是车载激光雷达的翘楚,已经在测绘行业内玩儿了十来年了,本来游刃有余。他们的激光头是英国一家作坊生产的,伺服电机又是另一家公司,在美国组装,然后写了软件卖,赚的盆满钵满。当热钱涌入需求量激增的时候,瓦伦代根本就顶不住大工业的压力:市场供不应求,价格虚高,结果供货商垮了,大量质量不达标的产品出现在市场上,新产品用不了多久就迅速坏掉,瓦伦代的售后服务随之垮掉了。苹果公司恰好冲进来造车,一笔订单定了十万台瓦伦代的产品,导致市场上长时间激光雷达缺货,所有与瓦伦代绑定的研发工作都停滞了。更何况,瓦伦代的产品,十五万人民币起步,像现在这样安装三台激光雷达,光雷达成本就45万,根本不可能在民用汽车上普及——我相信这是马斯克放弃激光雷达的最直接的原因。 在国内,则是另一番景象。其实大疆在相当早期的时候,就开始收购激光雷达的公司和技术;华为也看到了瓦伦代的扑街,开始投资激光雷达。还有就是一些原来就在搞激光器或者自动控制的企业,抓住了这波热钱,开始搞激光雷达,譬如说速腾聚创啊,何赛这些。很快啊,精度比瓦伦代更高、质量更好、速度更快、关键是价格更便宜——不是更便宜,是价格是瓦伦代的几十分之一,的产品就出来了。这些企业直接把瓦伦代和给瓦伦代供货的那几家作坊公司送去了西天。这才有了从小鹏开始的、华为炒起来的国内激光雷达装车的狂潮。 但是解决了激光雷达的价格和寿命问题吗?激光雷达再便宜,一个也要大几千、上万。一个系统上三台,加上控制系统,怎么也得五六万。有些人感觉华为一个智驾贵6万很贵,人家华为还真没赚你钱。寿命解决了吗?你想想,激光器本质上是一个灯,这个灯还是高发射能量、高机械精度的,它会不会衰减?会不会失效?小鹏现在就已经开始遭遇速腾聚创的激光雷达寿命耗尽精度变差需要大规模更换的事情了。行,华为可能质量好一些,能好多少呢?反正,咱拭目以待。 与此同时,自动驾驶的工程师们遇到了另外一个比激光雷达寿命严重得多的问题:人类的道路过于复杂,规则写不完。 一开始,自动驾驶的厂商还试图把写规则这件事情,一部分交给高精度的地图。由于高精地图的制作这件事情本身,也是一个工作量巨大且耗费成本的工作,这才出现了所谓“开城”一说。这样,一来自动驾驶的生命线其实掌握在高精地图厂商的手里;二来,这高精地图的成本,不是花一次就完结的,每个城市都要进行道路基础设施的维护和建设,高精地图需要更新。为了担负高精地图的维护成本,自动驾驶就得搞包月制度。这进一步加大了自动驾驶普及的难度。 后来,工程师们惊讶地发现,就算TM有了高精地图,规则还是TM写不完。这时候,王传福跳出来说了段话,他说,“自动驾驶就是忽悠钱的,不可能搞出来。”虽然很快他就会为说了这句话后悔并导致一直到现在都没能爬出来的比亚迪智能化危机,但是作为一个严肃的工程师,在当时,他说的是正确的,是真理。只不过这个真理被一片论文推翻了。 对,就是那篇著名的“attention is all you need”,大模型时代开始了。 我虽然不敢下定论说,大模型对图像更加友好、对激光雷达束手无策,但是起码在今天的车载算力环境下——哦,我补充一下,从2021年开始,英伟达成立了自动驾驶的部门,然后把最新的GPU给车规化了。这玩意儿的出现,一下子解决了图像数据的实时性问题。而大模型,这种基于对实际场景的训练、而不是手写规则的方法,几乎只能对图像起作用——刚才说的一、实时性问题;二、规则写不完的问题,似乎都能被图像方案解决。智能驾驶的整个技术路线都在向视觉化演进。 事实上,在2025年的今天,我敢说,虽然大家都对纯视觉的fsd口诛笔伐,但是无论哪家自动驾驶车企,除了还在吭哧吭车挂三个激光雷达不停的路测写规则说自己是L4企业的真骗子,无论产品上挂了多高级的激光雷达,无论是华为还是小鹏,还是理想还是其他什么momenta的,他们都在向非基于规则的大模型+视觉方案的方向上演进。 回到我开头所说的,特斯拉并不是说要坚持纯视觉智驾,他们的工程师在判断这件事情的时候,一定是这种逻辑:1、全自动驾驶一定要普及,才能真正实现;2、东西太贵了不可能普及;3、东西容易坏不可能普及;4、东西需要定期花大价钱维护的不可能普及;5、如果人只需要视觉参与交通就够了,那么汽车不需要比视觉更多的信息也可以参与交通。 简单来说,就是,做人工智能,就是要模仿人,模仿人的生活,人的行为,不是模仿蝙蝠。人本身没有进化出雷达来,说明人在自己的生活中,就不需要雷达。虽然人也可以扛着雷达到处跑,获得更强的感知能力,但雷达很贵、很沉、要维护,所以没必要让每个人在日常生活中,都扛着雷达。 我不知道这是不是你们所说的第一性原理,但我觉得这种分析一定是在具体技术路线的上面一层的。 不好意思一下写挺长,看到这里的话就点个赞吧。 送礼物 还没有人送礼物,鼓励一下作者吧 |
有一片沙滩。 有人愿意花十年时间,投入几百亿研究沙子,然后用整个沙滩上取之不尽沙子来打造芯片,点沙成金。 有人只想快速变现赚钱,他们既没有几百亿也等不了十年,就只能在沙滩上捡贝壳卖钱。 为了让人相信贝壳比芯片值钱,后者就花大钱推广贝壳,然后把芯片贬低成沙子。 久而久之,在后者受众眼里,那些芯片的成本就是一堆沙子。 贝壳当然比沙子值钱。 于是那些花大钱买芯片的人都成了傻子。 直到有一天大家都用上了电脑和手机。 两个结论: 1.“室外光子密度下限”远高于“雷达点云密度上限”。 2.成本不变,“CMOS成像方案的信噪比提升速度”高于“雷达点云密度提升速度”。 就跟星舰不用碳纤维钛铝合金,而去用不锈钢的逻辑是一样的。前者在这片沙滩上看到的不是贝壳和沙子,而是真空管和晶体管,是雷达点云密度和光子密度。 根据我的理解,所谓“自动驾驶”大致分为“对外部信息的获取”和“对自身行为的规划”两部分。 而“纯视觉”和“雷达”两个方案主要涉及“对外部信息的获取”这部分。 试着以第一性原理去分析。 “广义上的亮度”与“单位面积上的光子密度”成正比。 而即便是在漆黑的夜晚,哪怕人的肉眼几乎无法看见任何东西,理论上室外的光子密度依然远高于最先进的激光雷达能够达到的点云密度上限好几个数量级。 雷达是把激光或者毫米波投射到物体上再反射回来,检测到物体的“外形”和“距离”两大信息,从而构建出一个3D点云。 而cmos是通过捕获从车灯路灯,天上的太阳和星星发出来的光射到物体上再反射到摄像头,生成一帧帧2d图像,再通过不同角度的摄像头的图像组合,推测出物体的“外形”和“距离”两大信息,最后生成一个3D场景。 虽然成像精度也取决于摄像头的动态范围,曝光长度,光电转换效率,还有光的波长等因素,但可以说“单位面积上的光子密度”决定了cmos成像精度的上限。 关键就在于cmos感光成像方案在捕获光子信号时会产生噪点,而且对3D空间的感知高度依赖于AI大模型和多目摄像头3D重建算法的支持。 而现在主流的雷达对3D空间的感知方案更加成熟稳定,技术门槛更低,相比摄像头,更容易构建出一个粗糙,低帧率但相对可靠的3D空间。 相比这种高识别率却粗糙的3D空间模型,高清彩色图像提供的信息必然远多于前者,还能能最大限度利用马斯克在AI上的多年积累,让车载电脑不但能“看到”整个环境,不仅仅能让你识别到障碍物,还能更好的去“理解”眼前的一切。 这是个活人还是人形立牌? 如果是活人,他现在是打算横穿马路吗?我是否需要减速? 如果他打算横穿马路,那这个人到底是交警还是路人? 他的手势到底是让我快走还是让我调头? 我该不该听他的? 越是对自己视觉处理能力没信心,才会越强调雷达方案提供的下限保障。 但是当你有信心确保自己的视觉处理能力下限能够超越雷达方案的上限,你追求的就不再是“如何轻松辨别出障碍物”,而是“如何理解这个场景里的一切,帮助我更好的做出决策”,那你自然就不再需要雷达了。 咱们国内的“高科技”企业,基本都是对欧美那些经过大量试错最终得到市场检验的行业,在国内进行排外式的复刻(大疆和抖音可能是唯二的例外)。 而且由于环境特殊,高科技行业里经常能看到大量打着对标欧美前沿领域旗号的“民族企业”,但凡你稍加了解,很容易发现其实就是靠炒作营销来骗补贴。 根据这个逻辑,你会发现咱们的很多“高科技”企业在各种技术路线中,往往不优先考虑未来的发展上限。 咱们的创业者想的往往是如何最快速度达到60分及格,先确保一个稳定的下限,然后就开启萨哈夫模式卖货赚钱,营销预算甚至高于研发预算,在前期的优势环节跟对手的劣势进行各种对比,后期利用信息差依然能大赢特赢,直到被上限更高的对手全面超越,然后黯然退场,选择卷款跑路或者换一条赛道继续赢。 尤其可以观察马斯克涉及的那几条赛道,电车和FSD就不说了,什么paypal啊,星舰啊,星链啊,筷子夹火箭啊,脑机接口啊,机器人啊,你都能在国内找到一堆正在“弯道超车”的亲戚。 咱们一直在用前期英雄错位“碾压”对手的后期英雄,只考虑前期场面好看,方便你吹牛逼骗补贴骗投资,而完全不考虑最后比赛输赢。 什么“弯道超车”啦,“遥遥领先”啦,其实都是这种语境下的宣传口号。 别看现在那些“新势力”一个个说自己如何朝着L5智驾努力,万一那一天特斯拉真的率先推出L4,L5智驾,承诺由特斯拉承担全程事故责任,国内这帮车企大概率会180度调头,联合抵制一切超过L3的智驾,开始宣扬“自动驾驶不安全”“辅助驾驶永远只能辅助人类”的口号。 得不到这个市场,那就必须毁了它。 稍有一些常识,就知道本质上并不是“雷达比摄像头安全”。 而是“通过雷达点云重建3D空间”比“通过算法分析光子重建3D空间”更简单,相关技术更成熟,前期的研发投入,算力中心等基建投入更少。 学自行车肯定比考驾照简单,还不用花钱培训,可能你已经往前骑行3天了,人家才刚刚考上驾照。 但人家开车3小时就能追上你,然后远远把你抛在身后。 回到这个问题,“为什么特斯拉坚持用纯视觉智驾?” 我想说如果基于cmos成像方案的摄像头画面清晰程度,取决于将光子转化为电子过程中的信噪比。 那么两者的应用前景基本取决于: 在成本不变的情况下,未来“人类前沿领域在相同光子密度下成像信噪比的提升速度”,与“人类前沿领域对激光雷达和相控阵雷达点云密度的提升速度”哪个更快。 至少根据当前的技术发展,以及未来可预见的趋势来看,“CMOS成像方案的信噪比提升速度”显然是要快于“激光雷达和相控阵雷达点云密度提升速度”的。 我的判断依据是,前者可以通过“制程工艺”,“材料学”和“AI算法”等方式对收集端进一步迭代提升。 而后者已经能看到比如“转速”“散热”“最大帧率”等发射端的根本限制。 在“对外部信息的获取”上,“雷达”等于是主动抛弃了大自然里免费的海量光学信息,抛弃了整片沙滩上取之不尽的沙子,把信息量上限局限到了自身的发射端,也就是那几个贝壳上。 那么马斯克更看好纯视觉,而非雷达的态度,也就不难理解了。 时间,将是纯视觉方案最好的伙伴。 |
马一龙很喜欢第一性原理,但偏偏在特斯拉的智驾这方面,如果从第一性原理出发,那么纯视觉方案就是个纯纯的cjb。 原因很简单——人靠纯视觉开车是因为人的传感器TMD就只有眼睛! (而且也有回答提到了,人实际上开车靠的还是某种程度上的传感器融合,而不只是眼睛——耳朵的听觉,乃至触觉和前庭感受到的车的动态变化,都会被大脑融合成为你开车时“感觉”的一部分。我个人就受此影响,平时喜欢关着窗开车,结果偶尔遇到需要开窗的时候,窗一降下来大幅增加的风噪就会影响我对周边环境的判断) 你都是辆车不是个人了,想加什么波段什么分辨率的传感器都行,我管你激光雷达毫米波超声波随便加,结果这时候反而不搞尽可能多波段全方位的传感器融合,非要倒回去学人用眼睛观察来开车,这不是犯蠢是什么? 说难听点,这个思路进一步极端化就是试图造个具备和人一样感知能力的人形机器人,然后让它坐到驾驶座上去代替人开车,纯纯的脱裤子放屁。 如果按照马一龙的这套理论,那民航客机就不应该装气象雷达、TCAS,航司也不需要为了全天候出勤率选装什么HUD什么增强视景,反正以前靠传统仪表目视飞行不也一样活得好好的? 纯视觉方案是有更大的前景和发展空间没错,但这话反过来说也就是纯视觉方案的AI还不够完善。以当前的算力水平,机器视觉还显得很“蠢”,要真正独当一面还有很大难度,而且事实证明AI的训练和迭代速度远没有许多看好特斯拉的人想的那样快——都这么多年了,特斯拉还是经常把广告牌上的车看成真车,对着落日开车还是能以为前面一直挂着个黄灯的红绿灯。这种情况下搭配其他传感器融合来交叉纠错,才是合理且能够最大限度避免误判、确保安全性的选择——实验室里AI视觉判断失误就失误了,改代码重新跑就是,在路上自驾看走了眼可没有给你救的机会。 人类中心主义是错误的,不是说我们人类是这样看待世界的,那我们造的AI就一定要走和我们一样的路线来看待世界。人人都知道人形机甲作为作战平台不靠谱,咋的换了个领域就觉得模仿人类的技术路线才是唯一正道了? |
因为激光雷达贵啊,特斯拉很抠的,看看他的毛坯内饰就明白了,怎么可能给你用好东西,好在特斯拉教育用户的技术还是很先进的,可以一定程度上弥补车机的缺陷。 |
我公司有人专门做激光摄影测量的。有这么一个产品。就是通过拍照片计算空间距离。这玩意实时性真的一般。它最大的优势就是可以多目标追踪。理论上可以无穷多目标追踪。我不知道特斯拉这个频率是多少啊。就是一秒钟拍多少照片,同时要把这些图像数据处理掉。 开车尤其高速开车,一秒钟定生死。120公里时速的时候一秒钟33米。你觉得1000hZ能不能反应路况?一张照片500万像素。你自己去算算这需要多大的数据处理量。 我肯定不会买纯视觉的智驾,因为我公司有搞纯视觉空间距离测量的产品。 |
因为激光雷达挺贵的,先进且便宜的激光雷达是东大造的。 PS:上次想用纯视觉被动传感器胜过主动传感器的团队是瓜岛战役时(1942.8-1943.2)的日本帝国海军。 |
表面上是坚持用,实际上国内大多数车企已经在偷摸的搞纯视觉了,原因有这么几个 1,成本低,这个成本低不仅仅是对用户买单的成本低,更多的是跨平台升级能力,激光雷达现在无法回避的一个问题是兼容性,当平台升级后,过往的数据不再产生任何价值,而视觉产生的训练数据可以从卖第一辆车用到今天; 2,符合人类驾驶习惯,激光雷达虽然可以在一些极端天气产生数据,但从人类驾驶的角度上说,现阶段极端天气下没有人会放心快速穿梭在缓行的高速上; 3,跨平台能力,引进特斯拉机器人是国内一直想做的事情,同时很遗憾自ai day之后特斯拉不再透露任何技术细节,特别是端到端的。目前特斯拉的纯视觉应用在海上回收平台、机器人和自动驾驶上,激光雷达要求的大算力和电力,在现阶段的技术水平下很难复制到人形机器人上。 最近特斯拉开的发布会,其实给国内车企的压力并不是技术多么先进,而是告诉所有车企,原来汽车制造业可以这么玩儿,高度智能化的生产线造车只是产品之一。 -----就激光雷达数据对升级不友好的说法回复下----- 激光雷达生成的主要数据是三维点云,它通过激光束发射和反射的时间差来精确测量距离,形成环境的3D模型。这种点云数据的精度、分辨率、范围等都直接取决于激光雷达的硬件性能。 在新能源汽车快速迭代的今天,难以回避几个问题: 1,硬件升级问题: 激光雷达的分辨率:激光雷达的测量角度和分辨率会影响每秒钟可以生成多少个点,硬件升级后,新的传感器可能会产生更多或更少的点云数据,导致旧数据与新数据在精度和覆盖范围上不匹配。激光雷达的测量范围:不同型号的激光雷达有不同的最大探测距离(比如从几十米到上百米),新旧设备的数据覆盖范围可能差异显著,导致无法在同一平台上使用。 2,平台升级问题: 当硬件(如激光雷达)或软件平台升级时,数据的格式、精度或采集方式可能会发生变化。具体表现为: 传感器升级:如果从低分辨率激光雷达升级到高分辨率设备,生成的点云数据会更加密集和精细,过去的数据可能在新的模型或训练中无法满足需求。这时,过往的数据可能就不再适用。数据格式和算法变化:平台升级时,数据处理算法可能会发生变化。假设旧平台基于某种数据格式或预处理方法,而新平台采用了新的数据处理方式,之前收集的激光雷达数据可能需要重新转换或完全不可用。 3,升级车型后传感器位置的改变和校准差异问题: 在车辆上,激光雷达的安装位置、角度等物理参数非常重要。如果在升级中这些参数发生了变化,旧的数据与新设备的数据可能无法直接对比或结合。比如说: 安装位置差异:如果旧激光雷达装在车顶,而新系统装在车前部,探测角度和点云的分布都会发生改变,造成数据的不一致。校准问题:激光雷达与其他传感器(如相机、IMU等)需要精确的空间对齐。如果硬件平台变化,激光雷达的校准方式也可能不同,导致旧数据与新传感器难以匹配。 当然,这其中还有包括雷达海量数据的存储问题、数据实时性、创建高精地图等一系列问题,但总体来说激光雷达的数据受硬件影响非常大,且不同代际的激光雷达之间的数据格式、精度、范围等可能会出现显著差异,使得旧数据在平台升级后难以复用。这种局限性增加了激光雷达系统在长期跨平台使用中的难度,而视觉数据由于与硬件关系不如激光雷达那么紧密,可能更具跨平台的适应性。 所以我认为这也是目前所有厂商悄悄的在搞纯视觉的重要原因。 ========== 更新 ========== 再多说一个很反智的问题,国内长期的言论是——因为激光雷达当初贵,但后来国内厂商把价格打下来了。但这个反智言论只说了一半,另外一半呢? 特斯拉是目前国内国产率最高的车(超过95%),没有之一,而特斯拉出名的对供应商压榨及红利能力(例如要求再周边建厂,以及成为特斯拉供应商股价就会大涨)。所以 请问,特斯拉是没钱还是没渠道采购激光雷达? 特斯拉能开发出更复杂的纯视觉,没有开发能力开发出来视觉+激光雷达? 再来,虽然外面都说马斯克是开源教主,但说到底他是个企业家,说话从来都是说一半,比如他说不看好换电,但不说为什么,今天,换电面临着能源站电池版本兼容问题、硬件故障问题(别谈啥国家专利,硬件螺栓磨损就是个硬伤),纯视觉和雷达之争也是一样,所以这哥们说啥也只说一半,剩下的大家细品。 ========== 更新2025.04.02 ========== 截至上次更新,再从最近的新闻补充几个点去说纯视觉 首先是宇树科技的机器人,从动力结构上来说,宇树科技的机器人已经完爆美国的波士顿动力,在电驱领域机器人无疑是世界第一,但目前机器人还是处于编程状态/遥控器控制,包括春晚的舞蹈演出。在现有尺寸下,如果进一步提高机器人的能力(包括无人机),只有纯视觉方案,装配耗电惊人的激光雷达是不现实的。 第二个是最近发生的一些新闻,例如有些车型事故前0.1秒自动退出智驾甩锅,我认为目前的发布会都是遥遥领先过了头,因为这些发布会一直在灌输一个观点——你可以放心的将你的小命交给电脑和某些算法,这些能力可以替代人对安全的本能责任。人性才是安全组成的重要环节,每个驾驶员应该对风险的保持敬畏和对责任的担当。 最后就是最新发布的fsd了,从tesla发布开始,租车行一车难求,带有fsd功能的车5k/8k一天的租金,被无数自媒体拿去评测,这充分说明了某种现实扭力场的存在,毕竟在此之前,不管什么牌子的国产车,从出生那天开始就吊打特斯拉,但我们偏偏要去跟差生比成绩,没事儿跟朝鲜人比生活质量? 从FSD的表现上来说,我认为除了城中村不理想、中国道路规则不熟悉之外,在没有得到更多道路训练数据的情况下,仅依赖网络视频训练成这样,已经非常不错了。 最后,最近某些车型搞的智驾比赛,结果全国前三名全部事故的新闻就不去谈了。 送礼物 还没有人送礼物,鼓励一下作者吧 |
如果纯视觉能做到,那当然是纯视觉好。 关键是国内公司技术能力有限,所以才用激光什么的想拣个便宜。 哪知道,特斯拉还真的搞出来了,这就尴尬了。 所以,也别吹华为智架了,跟特斯拉比,差了几个层次。 我估计华为智架团队肯定在大力研究纯视觉方案了——必须得转向正确道路! 其实,纯视觉的优势非常明显,尤其是用自动生成的场景循环训练,可谓是点睛之笔。我看到特斯拉居然这么训练,我就知道,这波华为输了。 马斯克在技术上的认知确实厉害。 |
当年,觉得成本贵,所以用纯视觉。 没想到没过几年,国内激光雷达降到白菜价,国内普遍雷达加视觉,特斯拉算法再牛逼,你怎么玩?一个 2d 一个 3d,国产自动驾驶完全就是降维打击。 |
有个国内单位发了一篇论文,是关于空战格斗中通过视觉识别敌机翼面变化判断下一步机动态势的。 要不问问他们为什么不考虑雷达呢? |
自从小米被集火之后,我才从新闻中看到特斯拉的智驾跟其他的很不同。 某厂吹嘘的2.99999是遇到紧急情况,直接把方向盘撒手不管了。 特斯拉的是直接抢夺人的控制权。 不得不说,是挺牛逼了。 送礼物 还没有人送礼物,鼓励一下作者吧 |
因为纯视觉成本低。激光雷达最早的时候很贵,马斯克也没预料到这种东西降价这么快,激光雷达最早的时候一万美元一颗,现在只有几百 没有激光雷达恶劣天气就容易出事故,最近美国开始调查特斯拉,就是因为特斯拉恶劣天气下撞死人了 ===== 补充 |
![]() |
|
一开始因为激光雷达的成本问题,赌软件可以补感知的短板,就选了纯视觉路线, 之后就被这个技术路线绑架了 而竞争对手实现了激光雷达成本打骨折,而软件大家都没什么突破,尤其是孤注一掷选强算法的特拉斯吃亏最大。 最后的就这样了呗 人能开车是因为人有眼睛耳朵和脑子 现在的agi跟脑子都不是一个机制的,实际上也做不到人脑的功能,大模型幻觉导致这些模型做不到高可靠性,就是说人可能做不到特别精准的操作,但是很少会犯无厘头的低级错误,而自动驾驶模型可能绝大多数情况下都可以开的比人好,但很可能出现把前面的车当做云朵非常自信的加速撞上去的低级无厘头错误, 而摄像头,玩过相机的应该明白,现在的摄像头在感光动态,光圈,焦段都是比不过人眼的。具体来说,强光下,人眼适应后就可以看到暗部有什么,而摄像头就一片白,暗部看不到了。 |
为了省钱,但纯视觉有缺陷。 特斯拉是纯的纯视觉,只有双目和普通摄像头。 目前国内车企都额外配置了毫米波雷达。 先说下纯视觉的原理,双目摄像头拍摄两张图片,进行分割,再将分割出的segment进行匹配(应该是整体匹配而非边缘匹配),推算出各segment的位置,后面还会对segment进行物体识别。 问题出在匹配,面对重复纹理,可能会错配,导致误认为是远景。 比如你前面的卡车拉着一棵树,树叶细密茂盛,然后就被错认为天边的云彩,直接撞上去了。 |
他要是非要坚持第一性原理,为什么还要好几个环视摄像头,就车前两个不行吗???说白了就是吹牛逼圆不回来了 |
其实即使按照第一性原理,纯视觉依然是不可行的,因为人开车并不是靠纯视觉,而是多模态融合,比如听力需要有一定水平 |
![]() |
|
加雷达也有教徒高价买,不加雷达也有教徒高价买,这雷达不白加了吗? |
什么第一性原理、什么理论上谁上限更高下限更高先不说,说什么? 不看广告,看疗效。 众所周知,特斯拉fsd前段时间正式进入国内了,马上,被专业的不专业的n多车评人做了测试上传了视频,获得了“88分,因为只能扣12分”的全网嘲讽,fsd属于是最弱档自动驾驶的结论甚嚣尘上。 但是,但是,我注意到,都是嘲讽fsd不识别中国的交通灯信号和某些标线,而不是嘲笑判断周边物体性质和距离出错! 请问鄙视纯视觉方案的融合方案党,激光雷达、超声波雷达的作用是什么?难道不是判断周边物体性质和距离而不是识别信号灯和标线吗?在判断物体性质和距离方面,fsd的表现已经与有雷达的各种智驾至少是同一级别了(其实是更优秀),也就是说,没有雷达和有雷达在实际表现上并没有显著区别, 要这雷达有何用? 融合方案党上网都不带cpu吗[惊喜] (至于识别信号灯和标线,只要给基于端到端的fsd喂足够多的饲料,也就是视频,它就能快速提高水平) |
我以前是激光雷达派,但现在已经转为纯视觉派。大家要想明白一个问题:智驾的核心在于端到端大模型,视觉+激光雷达的大模型训练结果不是1+1>2,事实上是1+1<1。 假设有一个驾龄几十年、稳如老狗的老司机为你开车,你觉得够不够?你是否觉得这个老司机必须配一个激光雷达? 绝大多数人的答案显而易见吧:够了,没必要。纯视觉方案的端到端大模型训练的理想结果,就是产生这个AI老司机。此时已经足够满足智驾的需求。 但是,视觉+激光雷达的方案,并不是绝大多数人理解的“老司机/机长,增加一个传感器辅助判断”,实际上是“人体里长出一个新的器官,大脑得从零开始学习如何与这个新器官的神经信号兼容”。这是两种完全不同的概念。 纯视觉方案训练端到端大模型,有海量的人类驾驶的高质量视频数据。而激光雷达的数据通常是在一个模拟的交通环境里跑出来,数量少、质量低且不说,更麻烦的是无谓地大量增加了端到端大模型的训练难度。逻辑上的悖论是:在拥有海量高质量人类驾驶视频的情况下,纯视觉方案的端到端大模型目前还不能让人满意,那么加入了激光雷达的点云图后,不仅大量增加了训练量,还因为两种传感器的数据打架导致大模型算法的复杂性。 简单说,如果算力和算法足够,直接用纯视觉训练出一个AI老司机就行了;如果算力和算法不足,那视觉+激光雷达更加事倍功半。 判断力是否需要激光雷达,标准并不是传感器自身的性能,而是训练端到端大模型的难度。 |
销量不会说慌 能发射思想钢印还要雷达做甚 源神给你安装了4个轮子都是心善 |
指标激光雷达(LiDAR)视觉摄像头(Camera)帧率10~20 Hz(主流)30~60 Hz(主流)硬件延迟20~100 ms10~50 ms系统延迟100~300 ms(含处理)50~200 ms(含处理)数据特性3D点云,直接测距2D图像,需算法推断深度环境适应性抗光照干扰,雨雾敏感依赖光照,夜间需补光适用场景用于高精度定位(如与高精地图匹配)、低光照下的障碍物检测。 低帧率可能漏检高速移动物体(需融合其他传感器)。高帧率适合实时跟踪动态目标(如车辆、行人)。 依赖算法(如双目视觉或神经网络)估计深度,计算复杂度高。 比起视觉,激光雷达延迟高帧率低,对快速移动物体识别不好 |
国产也想,只是做不到,没这个顶级技术,所以会跟以往一体化压铸技术普及前一样,先喷自己现有的很棒,然后赶紧抄袭使命追赶,最后说自己超越世界第一遥遥领先 相信我,端到端是最后的结果,殊途同归,现在会喷端到端不好,几年后追赶上了就忘记当年自己坚持激光雷达喷端到端的过去 这就是天朝企业这几年最缺的东西,也是邓公说的:解放思想,实事求是。大把钱都花在蒙住眼睛上 另外也要补充到,除了技术方案,现在智驾算力、模型、数据三者缺一不可,所以flower厂不能让自己的X介出现负面,让牛马不买X介,量不够无法有更多数据来训练,其他新势力同理 |
以我非常有限的了解: 一开始做自动驾驶用的是第三方的解决方案,但是很快就不用了,自研一开始就定下了纯视觉路线,现在很多人都说是马斯克用了第一性原理,但我想还有一些不为外人所知的原因,总之是一次技术方向上的押注,不过在当时特斯拉还有更多更重要的难关要过,fsd只是list中非常靠后的一项。 等到上海建厂初步走上正轨,过了生死关的特斯拉开始投入大量资源到fsd了,因为都知道纯造车没啥前途,车厂的pe就是10左右,卖上天也不够sexy。但是fsd的难度大大超出预想,不得不开ai day招揽人才,当然这期间也有很多重大的突破比如:bev,占用网络等等,但是到v11的时候遇到了瓶颈,不管如何优化也无法取得满意的效果,现在看来这个瓶颈就是纯视觉的一大难关:测距能力的先天不足,而激光雷达却能很容易的解决这一难题,所以我猜测fsd内部肯定会有动摇,一个瘸子看到一根拐棍怎么可能没有想法。 不得不说运气站在了fsd这一边:chatgpt搞出来了scalinglaw,一个非常偶然的机会:简单说就是老马从fsd往x挖人的时候了解到了ai应用于智能驾驶中的可行性,很快的有了非常显著的效果,接下来就是fsd转向端到端的故事线了,直到v13。可以说fsd v12-v13验证了纯视觉路线的可行性,从学术研究走向了工程实践,剩下的部分我倒觉得没那么难了。 综上,从目前的结果来看,特斯拉坚持了纯视觉,但是过程并不是一帆风顺的,甚至可以说差点夭折,绝望和希望交织在一起的十年。 |
因为不用激光雷达成本更低,可以有效提高整车利润,特斯拉多可以多赚钱。 纯视觉智驾就是你开车用眼睛去看,风和日丽是没有没问题的,但是极端天气你的能见度低,必然就会忽视很多潜在危险。 这个时候加上激光雷达,相当于弥补人眼的局限性,安全性可以大大的提高。 |
因为语义神教文盲相信他们的宣传。 |
|
[收藏本文] 【下载本文】 |
上一篇文章 下一篇文章 查看所有文章 |
|
|
股票涨跌实时统计 涨停板选股 分时图选股 跌停板选股 K线图选股 成交量选股 均线选股 趋势线选股 筹码理论 波浪理论 缠论 MACD指标 KDJ指标 BOLL指标 RSI指标 炒股基础知识 炒股故事 |
网站联系: qq:121756557 email:121756557@qq.com 天天财汇 |