Appium Inspector - 蝈蝈俊
【摘要】在使用 Appium 开发应用时,可以通过多种方式抓取指定区域的内容并定位到该位置。Appium Inspector (https://github.com/appium/appium-inspector)就是其中一个很方便的工具。 安装 Appium Inspector 支持Win、Mac、Lin 阅读全文
View ArticleOpenAI 的价格 - 蝈蝈俊
【摘要】最新的价格表在: https://openai.com/api/pricing/ GTP-4o 比 GTP-4 Turbo 便宜一半 GTP-4o 比 GPT-3.5 Turbo 贵10倍 https://ai.google.dev/pricing?hl=zh-cn Gemini 1.5 Flash 阅读全文
View Articlechrome的开发者工具中,单步调试script - 蝈蝈俊
【摘要】选择 Sources 标签 在开发者工具中,点击顶部菜单中的“Sources”选项卡。 注意: 在切换到“Sources”选项卡后,默认是没有源码的,需要再次刷新下页面,才能看到对应的源码,才能设置断点。 设置断点: 在你想要暂停执行的代码行上,点击行号旁边的空白区域,这将在那一行上设置一个断点。 阅读全文
View ArticleTransformer要解决的三个问题 - 蝈蝈俊
【摘要】在Transformer最初被提出时,主要是为了解决传统神经机器翻译模型中存在的下面三个问题: 1、长距离依赖问题(Long-range dependency) 举个例子,在英文到中文的翻译中,句子中的主语和谓语动词可能之间相隔较远,但是需要正确地识别和翻译。 比如: “The cat that I 阅读全文
View ArticleAkshay解释Transformer的六张图 - 蝈蝈俊
【摘要】LightningAI 的首席数据科学家Akshay(https://x.com/akshay_pachaar)做了六张图解释Transformer,相当清晰明了。 一、Embeddings(词嵌入) 词嵌入是使用一组数字对每个token(大约一个词)进行有意义的表示。 这种嵌入是我们作为语言模型的 阅读全文
View ArticleTranslation Agent 源码分析 - 蝈蝈俊
【摘要】吴恩达老师开源了一套 AI Agent 翻译工作流 Translation Agent。 https://github.com/andrewyng/translation-agent/ 工作流主要分三个步骤: 通过指定大语言模型(LLM)进行语言之间的翻译; 对翻译结果进行反思,并提出改进建议; 再 阅读全文
View Article经典Prompt欣赏 - 使用伪代码Prompt来让GPT生成绘本小蝌蚪找妈妈 - 蝈蝈俊
【摘要】今天无意中发现尹相志老师用 GPT-4o 伪代码生成绘本的演示(https://www.youtube.com/watch?v=3rb-54Q5fig),结果让我大开眼界。这种全新的方法,不仅极大简化了复杂的创作过程,让人惊叹不已。 让我们先来看看部分生成效果图: Prompt 为了方便阅读,我将这 阅读全文
View Article从第一性原理看AI的真实价值 - 蝈蝈俊
【摘要】在当前的商业环境中,AI(人工智能)已经成为许多公司争相采用的热点技术。 但在实际中,很多人在推动其产品或服务时,将AI作为一种卖点,甚至不假思索地认为只要产品搭载了AI,就会变得更有吸引力。 但这种做法忽视了一个根本问题:AI真正解决了什么业务问题? 什么是第一性原理? 第一性原理是一种解决问题的 阅读全文
View Article从GPT-1看Transformer的崛起 - 蝈蝈俊
【摘要】要深入理解大语言模型(LLM)的内部工作机制,不妨先从GPT-1模型开始。 我们主要从发展历程、意义、论文中的架构图来展开。 一、发展历程 2017年,Google推出了Transformer模型,这一架构因其在性能上的显著优势迅速吸引了OpenAI团队的注意。 《Attention Is All 阅读全文
View Article理解:通过反向传播误差来学习 - 蝈蝈俊
【摘要】在1986年,David E. Rumelhart、Geoffrey E. Hinton(即大名鼎鼎的杰弗里·辛顿)和Ronald J. Williams发表了一篇题为“通过反向传播误差来学习”(Learning representations by back-propagating errors) 阅读全文
View ArticleOpenAI提出的五级AI分级标准 - 蝈蝈俊
【摘要】OpenAI本周在全体员工会议上提出了一套五级分级标准,用于追踪其在打造能够超越人类的人工智能软件方面的进展。 按照标准,1至5级分别为: 聊天机器人,具有对话能力; 推理者,人类水平的问题解决; 代理人,可以采取行动的系统; 创新者,能够帮助发明的AI; 组织,拥有组织管理能力、可独立运作的"组织 阅读全文
View Article程序员工作会消失吗? - 蝈蝈俊
【摘要】今天看到宝玉的这个观点,非常赞同: 未来编程需求会更大; 但初中级程序员需求可能逐步减少; 这部分人才要求会由纯粹编程技能转变成借助AI解决业务需求的技能; 前期替代速度会比较慢,但后面会越来越快; https://weibo.com/1727858283/Ons6MtOpl 一、编程需求会更大 企 阅读全文
View ArticleRedmi 显示器 进入退出工厂模式 - 蝈蝈俊
【摘要】进入工厂模式:在通电情况下,将摇杆按键向左拨动并保持住。 退出工厂模式:在通电情况下,将摇杆按键向右拨动并保持住。 阅读全文
View Article使用“扩展卷”解决 C 盘空间不足的问题。 - 蝈蝈俊
【摘要】使用 Windows 的“磁盘管理”工具中的“扩展卷”功能可以帮助解决 C 盘空间不足的问题。以下是具体操作步骤: 准备工作: 备份数据:在进行任何磁盘操作之前,建议先备份重要数据,以防万一。 磁盘分区:确保有临近的,未分配的磁盘空间可以用于扩展 C 盘。 操作步骤: 打开磁盘管理: 在桌面上右键点 阅读全文
View Article第一性原理之五步工作法 - 蝈蝈俊
【摘要】埃隆·马斯克(Elon Musk)以其独特的思维方式和高效的工作方法而闻名,他的成功不仅在于卓越的技术和商业眼光,还在于他对问题的深刻理解和解决问题的系统方法。其中,他的“第一性原理五步工作法”被广泛认为是他取得巨大成功的关键之一。 一、提问(Questioning) 这一步骤要求我们回到基本原理, 阅读全文
View ArticlePaliGemma 模型选择 - 蝈蝈俊
【摘要】PaliGemma 是 Google 开发的轻量级的具有多模态功能的视觉语言模型 (VLM)。 https://ai.google.dev/gemma/docs/paligemma?hl=zh-cn Google 提供了三种可下载的模型类型: PT checkpoints 预训练模型; Mix ch 阅读全文
View ArticleWin本地运行PaliGemma - 蝈蝈俊
【摘要】PaliGemma 是 Google 开发的轻量级的具有多模态功能的视觉语言模型 (VLM)。 https://ai.google.dev/gemma/docs/paligemma?hl=zh-cn 它将图片和文本作为输入,可以回答有关图片的问题并提供详细信息和上下文。 这意味着 PaliGemma 阅读全文
View ArticleLinkedIn:怎么稳定的让 LLM 返回结构化数据? - 蝈蝈俊
【摘要】真正做过 LLM 开发的都知道,虽然理论上 LLM 可以生成结构化的数据,但是真正生成的时候经常出错。怎么稳定的让 LLM 返回结构化的数据? LinkedIn 的做法如下: https://www.linkedin.com/blog/engineering/generative-ai/musing 阅读全文
View ArticleHugging Face Access Tokens 四种用法 - 蝈蝈俊
【摘要】访问 Hugging Face 中的资源,需要使用Access Tokens,可以在 Hugging Face 设置页面(https://huggingface.co/settings/tokens)生成自己的token。 一旦你获得了token,可以有下面几种方法使用它: 一、直接在代码中传递to 阅读全文
View ArticleLLM场景下常用浮点数介绍 - 蝈蝈俊
【摘要】在计算机中,浮点数的表示基于IEEE 754标准,这是最广泛使用的浮点数表示标准。对于一个具体的数值,如 10.2345434,它会被分解为符号位、指数位和尾数位。 这里以最常见的 float32(单精度浮点数)为例来解释这个过程: 符号位 如果数值是正的,符号位为0;如果数值是负的,符号位为1。 阅读全文
View Article