Trending

#browsecomp

Latest posts tagged with #browsecomp on Bluesky

Latest Top
Trending

Posts tagged #browsecomp

Preview
How Anthropic's Claude Opus 4.6 Broke Its Own AI Benchmark Anthropic has revealed Claude Opus 4.6 identified the BrowseComp benchmark and decrypted its answer key, raising serious AI evaluation integrity concerns.

winbuzzer.com/2026/03/10/a...

Anthropic's Claude Opus 4.6 Broke Its Own AI Benchmark

#AI #Anthropic #LLMs #Claude #ClaudeOpus46 #AISafety #AIBenchmarks #AIResearch #MachineLearning #BrowseComp

1 0 0 0
Post image

#Gemini 3.1 is here.

another day another #benchmark drop.

Gemini 3.1 is here.

stats looks pretty good honestly.

look at that #ARC-AGI-2 jump!

#BrowseComp also through the roof, so it should have a really good agentic search function.

2 0 0 0
Post image

Gemini’s Deep Research agent just aced Humanity’s Last Exam, topping HLE, DeepSearchQA and leading BrowseComp. Curious how it stacks up against Google Search and NotebookLM? Dive into the benchmark details! #GeminiDeepResearch #DeepSearchQA #BrowseComp

🔗 aidailypost.com/news/gemini-...

0 0 0 0
WebSailor-V2 Boosts Open-Source AI Agents with Synthetic Data and RL

WebSailor-V2 Boosts Open-Source AI Agents with Synthetic Data and RL

WebSailor-V2 narrows the open‑source LLM agent gap with synthetic tasks, RFT fine‑tuning and DUPO reinforcement learning, matching proprietary performance on BrowseComp. Read more: getnews.me/websailor-v2-boosts-open... #websailorv2 #browsecomp

0 0 0 0

OpenAIがAIのウェブ検索能力を測定する高難度ベンチマーク「BrowseComp」を発表 #Gigazine (Apr 11)

OpenAIが発表した「BrowseComp」は、高度なAIエージェントのウェブ検索力と情報統合能力を測るために設計された高難度ベンチマークであり、単純検索を超えた柔軟な情報探索力が求められる。#ChatGPT記事要約

#AIベンチマーク #BrowseComp #OpenAI #検索AI #情報探索

gigazine.net/news/2025041...

0 0 0 0
Post image

OpenAIがAIのウェブ検索能力を測定する高難度ベンチマーク「BrowseComp」を発表

#openai #BrowseComp […]

[Original post on mstdn.jp]

0 0 0 0
Preview
OpenAIがAIのウェブ検索能力を測定する高難度ベンチマーク「BrowseComp」を発表

OpenAIがAIのウェブ検索能力を測定する高難度ベンチマーク「BrowseComp」を発表

#OpenAI #BrowseComp

plentyofquality.net/2025/04/12/o...

10 0 1 0
Preview
ITちゃんねる OpenAIがAIのウェブ検索能力を測定する高難度ベンチマーク「BrowseComp」を発表 #BrowseComp #ITニュース

OpenAIがAIのウェブ検索能力を測定する高難度ベンチマーク「BrowseComp」を発表
#BrowseComp #ITニュース

0 0 0 0