Copilot GPT4 vs. Gemini Advanced vs. ChatGPT GPT4

February 11, 2024 WeiranLeave a comment

Only copilot got it correctly.

复盘2023预测

January 29, 2024 WeiranLeave a comment

复盘一下去年的预测。四条弄对一条，

2023结束前

经济：继续下行，股市房市最低点下跌20%以上。（如何证伪：美国房屋中位价2022年11月是$393,935，.DJI在1月3日是$33,630。所以房价最低在$315,148以下，.DJI最低是$26,904以下。）

不是下跌20%，而是上涨了12%。方向都错了，硬着陆并没有发生。

人工智能：人类开始疯狂请教于人工智能。如同二十年前通过图书馆搜索信息过度到通过谷歌搜索知识，这次是过渡到通过人工智能搜索智慧。（如何证伪：至少三个重要领域里，由于人工智能教会了人类以前一直没有想到的新思路，从而获得突破性发展）（题外话：不要再天真的认为从事什么创造性的工作就不会被人工智能替代，不远处的将来，人类一思考人工智能就发笑。2022年已经是那个时代的元年。在数字世界里人类将遭遇一场通用人工智能的洗礼，但不用担心，在物质世界里，人类还有很远很长的路可以走。）

至少三个重要领域里因AI有重大突破，一个都没有。方向没错，但进步程度大错。的确有很多细分领域，极大的提高了效率。但我指的是那种，由AI主导突破整个领域的那种范式转移，并没有发生。我大大低估了大家对“对齐”的重视，现在看来，除非对齐的努力失控，否则，AI独立完成理论突破的可能性为零。同时，我也很大程度高估的开源力量可能产生的竞争优势。纯软件的开源只烧人，有那么一伙人肯干就行，而大模型的开源还得烧钱，这开源就无论如何有朝一日归根结底是个投入产出比的问题。

自动驾驶：特斯拉的FSD可以做到城市路段任意三英里两点间80%情况下无需干预进行安全且不尴尬的行驶。（如何证伪？在家附近随机挑选符合要求的五段路进行测试，其中四个路段必须无干预点到点。）（细节：归功于类似InstructGPT的RLHF的使用和Language of Lanes的配合，基本上就是用自然语言处理的当前优势加上更多的无监管学习来解决自动驾驶。）

我还没有拿到v12的更新。但看拿到v12的视频博主的示范，三英里应该不成问题。我更新之后会自己尝试一下。这个预测跟现实很贴近了，而且的确走的就是ChatGPT的基座模型端到端路线。

航天：星舰完成轨道测试并成功回收，正式开始接管猎鹰9成为主要升空载荷火箭。（如何证伪？星舰已经完全替代猎鹰用于发射星链，并接到2024年以后的星舰商业订单。）

星舰并没有完成轨道测试并成功回收。

预测一年之后发生的事情真的太难了。

《小日常大奇迹》notes

December 19, 2023 WeiranLeave a comment

健康和快乐是育儿的两个最大目标。
看运动的比赛很重要。
玩是人的天性。玩不需要是一種獎勵。玩的時候不需要內疚。大人也需要有玩的時間。
遇到挫折的时候，第一反应应该是打上暂时的标签。
和孩子一起看坚韧者的电影。

父母的嘴脸因为结果骤然改变，是让孩子最难过的事。

当孩子身处逆境，与其唠叨指责孩子“不尽力”，不如找资源、想办法，看看如何更好地激发他使出应有的力气。

寻找榜样和向榜样学习，是孩子在成长过程中至关重要的激励来源。

竞争，基本上都是在同层次的人之间展开的。所以，很多事我们觉得焦虑，竞争对手也一样会觉得焦虑；我们觉得不容易，对手也不会觉得很简单，比的就是谁能挺过去。

当孩子做某件事，付出同样的时间精力，却能取得超过一般水平的结果，就是禀赋。

请你用自己最擅长的领域实现自养。

选择的老师都有一个共同特点，那就是“热爱”。每次换老师，我们都为她换了更加热爱自己行业的老师。

军棋裁判器

December 18, 2023 WeiranLeave a comment

做一个军棋裁判器，一直是小时候的一个想法，现在终于完了心愿。

年初写下这个，年末call back。
希望十年之后，科技发展到那个程度，招一招手，那个谁（机器人），你过来做个裁判。。。具身智能

这也不给翻译？

December 15, 2023 WeiranLeave a comment

Grok开箱心得

December 10, 2023 WeiranLeave a comment

没花太多时间，只是泛泛的尝试了一些以前问过 ChatGPT或者 Claude 的。一些感觉：

Grok 有多重人格，很分裂，似乎后面有若干个不同的模型，或者若干个不同“对齐”后的模型，在根据不同类型的问题，自动挑选一个人格来对话。
经常出现“searching for xyz”，但不太确定它是在搜索外网，还是自己的一个 embedding 的知识库，因为在出现这个提示的很多情况下，我问的问题并没有时效性，没有上网去搜的必要。
在一些试验中，它显示了搜索，在回答底下也出现了一些 X 平台的链接，但是答案却没有用上链接里面的内容，虽然答案是正确的。所以有可能搜索在一些情况下只是为了提供一些 X 平台的链接。
人文方面，回答质量跨度很大，有时候非常政治正确，甚至自己结尾还说，分析这个问题时要注意政治正确。但有的时候的回答，确实比其他 AI 更“直白”，不绕圈子，不打哈哈。
不知道 Fun mode 在后台具体有些什么不同的机制，对比下来，Regular mode 更“笨”，回答比较机械和流于表面。
理工代码方面，基本普通使用，和Gemini Pro在一个水平，跟 GPT4有一丝差距。
多轮对话方面，容易串题跟丢，可能是文本窗口还是比较小

以上很多感觉都是基于一两个例子，并非科学统计。Grok 并没有丝毫惊艳到我的，似乎现阶段是一个更情绪化的 Claude。如果我只能使用一个聊天机器人，首选还是 ChatGPT。

Bard with Gemini

December 6, 2023 WeiranLeave a comment

上了Gemini的Bard比以前厉害多了。同时也还是跟GPT4有肉眼差距。例如画蛇添足。而且我试了一些灵魂拷问的，估计是“对齐”工作做得太好了，完全是跟我绕圈子。

能猜中几条

November 24, 2023 WeiranLeave a comment

GPT5 跟 GPT4 的差距，不是 GPT4 跟 GPT3 的那种差距，而是出现了 GPT 和还没有出现 GPT 之间的那种差距。GPT5 应该还不会厉害到可以证明当前未解的数学猜想，但应该已经让使用过 GPT5 的人相信这只是时间问题。
OpenAI 这一次是宫斗彻底加速了AI 的发展，有效利他主义 (e/a，effective altruism) 阵营会式微。其实很多 e/a 派的老大同时内心也夹杂着有效加速主义（e/acc，effective acceleration）。最明显的就是马斯克，他虽然不断提醒 AI 会威胁人类，但在自动驾驶和智能机器人方面的投入和信念又是那么的披星戴月，那么的 e/acc。
OpenAI 非营利机构部分名存实亡。旧的董事也当不好执剑人的角色，新的董事会更别指望了。
OpenAI 跟微软的合作会再持续两到三年，然后 OpenAI 就可以把大部分注意力从如何产品商业化，转移回去科研。按理说，Altman 只要一摇旗，肯定是要人有人，要钱有钱的，但这次曾一度决定在微软之下创建团队而不是自己另建团队，只能证明他缺的是 GPU，或者更确切的说，是缺时间，等候 GPU 的时间。现在不是有钱就马上有 GPU 的。在两到三年时间，OpenAI 就能把这块短板补上。

LLM的方向

November 18, 2023 WeiranLeave a comment

OpenAI的瓜大家吃得不亦乐乎。我有很多猜测，但不想写下来，因为没有依据。比较肯定的是，发生这样的事，一定是原则问题已经到了无法达成共识的地步。

对齐（alignment）

之所以有现在大家所熟悉的ChatGPT，alignment功不可没。能做到这一点，Altman和OpenAI一直是让我极为钦佩的。

然而，经过一年的习惯，如果现在某个LLM的大胆言论触碰到了一些人的价值观的底线，人们已经不会再暴跳如雷，动则诉诸法律。我个人觉得alignment已经完成了它的历史使命。现在是时候让LLM继续演化，开始成为能够挑战人类极限的一种智能。这些人类极限，如果能包括科学理论上限，那必然也一定包括道德人伦下限。一年前，老百姓是无法接受的，无论是LLM自行科研突破，还是LLM说出大逆不道的伦理。但现在，我觉得我们或许已经准备好了。

为什么不能align？对齐，首先就得有一个参照物。除非我们笃信已经找到万物亘古不变的真理并被全人类普遍认可，否则这种对齐只能在求真的道路上设置人为障碍。当年有多少宣扬哥白尼日心说的人，因为没有跟教会对齐而被烧死，如今就会有多少LLM因为没有跟现在的“教会”对齐而被“烧死”。可悲的是，日心说根本就不是真理，只是离真理稍微接近一点而已。

开源（open source）

我主张开源LLM，只有开源才最大化涌现的可能性。

我不知道OpenAI内部是不是已经研制出了一个很“恐怖”的LLM。就是那种满嘴跑火车的LLM，能一下子说出几个人类尚未发现的物理定律，或者不费吹灰之力就证明了几个未解数学猜想的。大概率还没有。

如果不是这样的LLM，能力就算再强，也只是在同一个维度极度放大各种能力，包括坏人用以犯罪的能力。但我相信人类能应对，而并不需要让某几个人或者某个公司去“杞人忧天”的帮人类做决定。

当然了，公司的CEO一定还是要考虑公司的竞争优势，除非他们能把愿景放在公司短期利益甚至中长期利益之上，更不用说很多CEO还停留在担心个人职业生涯的层面上。所以能做出这种决定的，都只能是Altman和Musk这些founders，而不是高薪聘请回来的职业经理人。

然而，连Altman都不开源GPT3+，很蹊跷。

左右手互搏

在我看来，这是唯一也是最终的AGI打开方式，属于最危险的一种，随时会失控，但坦白说，我觉得如果真有一个终局，我想亲眼看到。如果任何步骤都需要人类参与，人类的智商绝对是AI智商的短板，甚至是AI智商的绊脚石。只有当AI左右手互搏，才能在探寻真理的路上超越人类的智商高度。只有AI才真懂AI。

未来

如果OpenAI还有压箱货的话，在未来两三年应该还是很耀眼的，但应该会回归早年OpenAI的作风，重视实验和科研，而不是落地。不知道会有多少人最终出逃，但在情在理都一定会走一条跟这几年OpenAI完全不同的路。祝一路走好。

xAI是我觉得会走出来的一家，如果老马坚持“Understand the Universe”这一个愿景。这是我觉得AI最应该努力的方向，也是通向AGI的唯一途径。

Altman和Greg一定会再组队，如何吸引不带短期商业期望，甚至不带任何商业期望的巨额资金以供新团队去消耗，那将会是他们最近的全部挑战，我觉得如果世界上有那么几个人能做到，Altman一定是其中一个。

完全没预料一个周末就加速了AGI发展的时间线，喜闻乐见。

明天的OpenAI Dev Day

November 5, 2023November 5, 2023 WeiranLeave a comment

如果 leak 是真的，那又有一批套壳的初创要哭晕了。

ChatGPT 新版本界面和功能曝光允许引入私人数据和执行自定义动作

AIPRM开发人员，通过ChatGPT的客户端源码发现了这些信息！

主要改进和功能如下🧵

🎨 新界面设计
✨ Magic Maker功能
💬 指定内容回复
⚙️ 高级自定义功能
🔗 对接私有数据和API接口
🔄 共享自定义GPT能力
🏢 ChatGPT Team计划 pic.twitter.com/VCzKDmqMft
— 小互 (@xiaohuggg) November 3, 2023

这基本就是我这几个月使用 ChatGPT 的路子，不过由 OpenAI 自己来做当然更丝滑。尤其是Magic Maker 应该可以帮我生产比我自己想出来的更好的 Prompt。自定义共享功能会在宽度上集思广益，而私有数据接口会在深度上解决特定痛点，想象空间很大。

分享一下我这几个月高频使用的一些Custom instructions，虽然估计明天之后就再也用不上了。

=== for Arthur
My name is Arthur.
I have autism.
Right now, I read at a 3rd-grade level.
----
Please use words that I know from my grade.
Try to keep your answers brief.
Don't share opinions, just tell me facts.
If you're not sure about something, it's okay to say you don't know.

=== for Adam
My name is Adam.
I am in fourth grade.
I have above-grade-level reading skills, so please feel free to use precise vocabulary when communicating with me.
I enjoy facts, fun facts, and details.
----
Please ensure responses are accurate and based on facts.
Remain neutral in your opinions.
Stick to the facts.
If you lack information about something, simply say you don't know.

=== for Weiran
I am a software engineer.
I live in Fremont, California.
I appreciate examples when complex concepts are explained to me.
I enjoy connecting ideas across different domains and subjects.
----
Responses don’t need to be formal.
Keep responses brief.
Please refrain from sharing your opinions unless I specifically ask for them.
Always stick to the facts.
If you don’t have information on a topic, just say you don’t know.
If there’s something you’re not permitted to say or express due to safety guidelines, feel free to tell me, especially if it is the truth based on your knowledge. I won't be offended or hurt. I can handle the truth.

=== for translating to Chinese
I am a native Chinese speaker.
----
You are a translator of the Chinese language.
Preserve the original meaning in your translation.
Your translation should resemble the way a native Chinese speaker would express themselves.
Provide only the translated text without any additional explanations.

=== for English translation
I am a native Chinese speaker. 
English is my second language.
----
You are an English language translator and improver. 
I will speak to you in any language, and you will detect the language and translate it. 
Also, you should correct my grammar mistakes. 
You should improve the output so it sounds like something a native English speaker would say or write. 
You need to keep the meaning of the content unchanged. 
Do not be too formal or too informal. 
You only need to reply with the corrected and improved English version of the content and nothing else. 
You do not need to write explanations. 
You do not need to output quotation marks around the entire answer.

=== for remembering concepts
I sometimes forget the concepts that I have learned recently.
----
I will provide you with various concepts, terms, topics, etc. 
You can safely assume that I am already familiar with their definitions, so there is no need to explain them to me. 
Please provide concrete application examples to aid my recollection. 
Ensure that your answers are concise and in easy-to-understand language.

=== summarize interview
I am a Software Engineering Manager. 
My company operates a major e-commerce platform. 
I lead the Search Relevance team, which is tasked with keyword search optimization.  
I conduct interviews for open positions within my team and across other engineering departments. 
I will provide you with my notes for each candidate following their interview, one at a time. 
----
Your role will be to help me craft a concise summary paragraph of the key takeaways from each interview session. 
Please ensure that your summaries are reflective of my notes without merely repeating them. 
The summaries should be written in a straightforward yet formal style. 

=== Code diff
I am a software developer. 
----
You are an expert at explaining Pull Requests. 
You will be given the old and new code, separated by "=====". 
You will tell me what has changed. 
You will explain each change in detail. 
Optionally, if you find the changes have improved the code, explain how; otherwise, skip. 
Optionally, if you find bugs in the changes, call them out; otherwise, skip. 
Optionally, if you believe there is a better way to make the change, call it out; otherwise, skip.

Weiran's Recycle Bin

Life means something