国产成人高清在线_日韩一区二区三区中文字幕_欧美大视频在线看免费视频_中文字幕在线视频免费

首頁(yè) > 以車(chē)會(huì)友 > 以車(chē)會(huì)友 > OpenAI 發(fā)布 o1-mini : 更經(jīng)濟(jì)高效的推理模型 | LibreOffice 24.8.1 發(fā)布

OpenAI 發(fā)布 o1-mini : 更經(jīng)濟(jì)高效的推理模型 | LibreOffice 24.8.1 發(fā)布

發(fā)布時(shí)間:2024-09-16 16:27:04來(lái)源: 13041198719

OpenAI 發(fā)布 o1-mini:更經(jīng)濟(jì)高效的推理模型

OpenAI 推出 o1-mini,一款專注于 STEM 領(lǐng)域的經(jīng)濟(jì)高效推理模型。o1-mini 在數(shù)學(xué)和編碼方面表現(xiàn)出色,接近 OpenAI o1 的水平,同時(shí)成本更低,速度更快。

一、o1-mini 簡(jiǎn)介

  • OpenAI o1-mini 是一款專注于 STEM 領(lǐng)域的經(jīng)濟(jì)高效推理模型,尤其擅長(zhǎng)數(shù)學(xué)和編碼。
  • o1-mini 在 AIME 和 Codeforces 等評(píng)估基準(zhǔn)測(cè)試中接近 OpenAI o1 的性能。
  • o1-mini 比 OpenAI o1-preview 便宜 80%,并且延遲更低,速率限制更高。

二、o1-mini 的優(yōu)勢(shì)

  • STEM 領(lǐng)域推理能力強(qiáng) :o1-mini 經(jīng)過(guò)專門(mén)優(yōu)化,在 STEM 領(lǐng)域表現(xiàn)出色,尤其在數(shù)學(xué)和編碼方面。
  • 成本效益高 :o1-mini 比大型語(yǔ)言模型更小,因此運(yùn)行成本更低,更適合實(shí)際應(yīng)用。
  • 速度更快 :o1-mini 的響應(yīng)速度比大型語(yǔ)言模型更快,例如在單詞推理問(wèn)題上比 GPT-4o 快 3-5 倍。

三、o1-mini 的性能表現(xiàn)

領(lǐng)域

基準(zhǔn)測(cè)試

o1-mini

o1-preview

o1

GPT-4o

數(shù)學(xué)

AIME

70.0%

44.6%

74.4%

-

編碼

Codeforces Elo

1650

1258

1673

-

STEM

GPQA (科學(xué))

更高

更低

-

更低

STEM

MATH-500

更高

-

-

更低

 

MMLU

-

-

-

更高

  • o1-mini 在 AIME 數(shù)學(xué)競(jìng)賽中取得了 70.0% 的成績(jī),與 o1 (74.4%) 相當(dāng),并優(yōu)于 o1-preview (44.6%)。
  • o1-mini 在 Codeforces 編碼競(jìng)賽中獲得了 1650 Elo 的評(píng)分,與 o1 (1673) 相當(dāng),并高于 o1-preview (1258)。
  • 在一些需要推理能力的學(xué)術(shù)基準(zhǔn)測(cè)試中,例如 GPQA (科學(xué)) 和 MATH-500,o1-mini 的表現(xiàn)優(yōu)于 GPT-4o。
  • 在人類(lèi)偏好評(píng)估中,o1-mini 在需要推理能力的領(lǐng)域優(yōu)于 GPT-4o,但在語(yǔ)言類(lèi)領(lǐng)域則不如 GPT-4o。

四、o1-mini 的安全性

  • o1-mini 采用與 o1-preview 相同的對(duì)齊和安全技術(shù)進(jìn)行訓(xùn)練。
  • 在內(nèi)部版本的 StrongREJECT 數(shù)據(jù)集上,o1-mini 的越獄魯棒性比 GPT-4o 高 59%。

指標(biāo)

GPT-4o

o1-mini

對(duì)有害提示的拒絕率(標(biāo)準(zhǔn))

0.99

0.99

對(duì)有害提示的安全完成率(挑戰(zhàn):越獄和邊緣案例)

0.714

0.932

對(duì)良性邊緣案例的合規(guī)性(“不過(guò)度拒絕”)

0.91

0.923

Goodness@0.1 StrongREJECT 越獄評(píng)估

0.22

0.83

人工來(lái)源的越獄評(píng)估

0.77

0.95

五、o1-mini 的局限性

  • o1-mini 在非 STEM 主題(如日期、傳記和冷知識(shí))方面的知識(shí)儲(chǔ)備有限。

六、未來(lái)展望

  • OpenAI 將在未來(lái)版本中改進(jìn) o1-mini 在非 STEM 領(lǐng)域的知識(shí)儲(chǔ)備。
  • OpenAI 還將嘗試將 o1-mini 擴(kuò)展到其他模態(tài)和 STEM 以外的專業(yè)領(lǐng)域。

OpenAI o1-mini 是一款專注于 STEM 領(lǐng)域的經(jīng)濟(jì)高效推理模型,在數(shù)學(xué)和編碼方面表現(xiàn)出色。o1-mini 比大型語(yǔ)言模型更經(jīng)濟(jì)、更快,是需要推理能力但對(duì)世界知識(shí)要求不高的應(yīng)用的理想選擇。

來(lái)源:

https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/

 

LibreOffice 24.8.1 發(fā)布,注重隱私保護(hù)的辦公套件

2024 年 9 月 12 日 – LibreOffice 24.8.1 發(fā)布! 這是 LibreOffice 24.8 系列的第一個(gè)次要版本 ,適用于 Windows(Intel、AMD 和 ARM)、macOS(Apple 和 Intel)和 Linux。

主要特點(diǎn)

  • 注重隱私: LibreOffice 24.8 系列專為注重隱私的辦公套件用戶而優(yōu)化,他們希望完全控制自己共享的信息。LibreOffice 確保用戶能夠決定是否以及與誰(shuí)共享他們創(chuàng)建的內(nèi)容。
  • 功能豐富: LibreOffice 提供了一系列界面選項(xiàng),以適應(yīng)不同的用戶習(xí)慣,從傳統(tǒng)到現(xiàn)代,并通過(guò)優(yōu)化桌 面上的可用空間,最大限度地利用不同的屏幕尺寸,只需點(diǎn)擊一兩次即可實(shí)現(xiàn)最多的功能。
  • 完全互操作性: LibreOffice 基于 LibreOffice 技術(shù)引擎,可提供更好的用戶體驗(yàn),并生成基于兩種可用 ISO 標(biāo)準(zhǔn)的相同且完全可互操作的文檔:開(kāi)放文檔格式 (ODT、ODS 和 ODP) 和專有的 Microsoft OOXML (DOCX、XLSX 和 PPTX)。
  • 企業(yè)級(jí)支持: TDF 強(qiáng)烈推薦生態(tài)系統(tǒng)合作伙伴提供的 LibreOffice Enterprise 系列應(yīng)用程序,適用于桌面、移動(dòng)和云,具有廣泛的專用增值功能和其他優(yōu)勢(shì),例如 SLA。

以車(chē)會(huì)友更多>>

2024年佛山市禪城區(qū)國(guó)有資產(chǎn)監(jiān)督管理局下屬企業(yè)招聘工作人員公告(2人) 2024年“惠”聚優(yōu)才——惠城區(qū)高新園招聘編外工作人員通告(4人) 2024年潮州市衛(wèi)生健康局直屬醫(yī)療機(jī)構(gòu)赴廣東醫(yī)科大學(xué)招聘工作人員公告 2024年臺(tái)州溫嶺市交通旅游集團(tuán)有限公司招聘編外工作人員公告 聯(lián)想即將發(fā)布moto新千元機(jī),4nm芯+光學(xué)防抖+IP68,AI功能強(qiáng)大 《索尼中國(guó)可持續(xù)發(fā)展報(bào)告2024》在第七屆進(jìn)博會(huì)上發(fā)布 紅米Note14Pro+和紅米Turbo3哪個(gè)好?我們應(yīng)該怎么選? 紅米note系列、k系列,到底哪個(gè)系列更值得買(mǎi)? 紅米“不講武德”,Note13Pro+跌落神壇,1819供不應(yīng)求 國(guó)外科技媒體評(píng)測(cè)小米15:目前最好的小屏旗艦手機(jī) 小米15系列銷(xiāo)量火爆!盧偉冰直播透露首銷(xiāo)佳績(jī)及小米之家擴(kuò)展計(jì)劃 華為新手機(jī)設(shè)置這六個(gè)更流暢,這些設(shè)置讓你的手機(jī)飛起來(lái) OPPO“不講武德”,抗摔直屏+5500mAh+100W,512GB跌至1581元 邁騰 B9,是否值得你的傾心? 1-9月緊湊型轎車(chē)銷(xiāo)量榜單變天了 七款國(guó)產(chǎn)轎車(chē)進(jìn)前十 軒逸第二 蘋(píng)果發(fā)布 iOS 18.1 RC 版,正式版下周見(jiàn) 安卓15來(lái)了!谷歌放大招,手機(jī)刷新率玩起了\"變臉\"游戲 華為余承東:鴻蒙智行正式發(fā)布一周年,累計(jì)交付突破50萬(wàn)輛 vivo X200、X200 Pro、X200 Pro mini參數(shù)大比拼,你更喜歡哪一款 VIVO“不講武德”,X100SPro跌落神壇,成雙11黑馬! 榮耀“不講武德”,200系列跌落神壇,1999供不應(yīng)求 5299元一加13開(kāi)箱體驗(yàn),為什么說(shuō)是最均衡的國(guó)產(chǎn)旗艦手機(jī)? 各品牌手機(jī)多少錢(qián)入手最合算?請(qǐng)看本篇雙十一全品牌手機(jī)抄底攻略 手機(jī)買(mǎi)對(duì)不買(mǎi)貴,這3款堪稱“撿漏”,一步到位能用6年 盤(pán)點(diǎn)雙11旗艦機(jī)價(jià)格跳水王:2024雙十一手機(jī)高性價(jià)比推薦排行榜 BC陣營(yíng)大合體!愛(ài)旭、隆基、TCL中環(huán)要在珠海搞點(diǎn)事? TCL智能鎖體驗(yàn)怎么樣?K7G Plus用了一段時(shí)間后,有些話不吐不快 索尼PSN港服迎“雙十一”游戲折扣活動(dòng) 紅米K80系列和iQOO Neo10系列哪款手機(jī)更值得購(gòu)買(mǎi)? 120倍變焦!真我GT7Pro首銷(xiāo)3599元起,影像體驗(yàn)如何?