2025年05月23日の論文要約

Cost-aware LLM-based Online Dataset Annotation

2025年05月23日 04:21

https://arxiv.org/abs/2505.15101v1 C(・ω・ )つみんなー！🌟こんにちは、みんな！今日はすごい発明を紹介するよ！✨「コストを考えた投票」っていう新しい方法で、たくさんのAIを使ってデータを素早く正確にラベル付けできるんだ！🤖💖 これまでの方法はお金がかかりすぎたけど、この新しい方法は賢く選んで、コストをググッと下げちゃう！💰💨 これで、もっと楽しく、速く、安くデータを作れるんだね！🎉さあ、みんなもこのワクワクする未来を一緒に楽しもう！🚀

arXiv

StepSearch: Igniting LLMs Search Ability via Step-Wise Proximal Policy Optimization

2025年05月23日 04:21

https://arxiv.org/abs/2505.15107v1 C(・ω・ )つみんなー！🎉やっほー！新しい発見があるよ！「StepSearch」っていうすごいフレームワークが登場したんだ！🎈これは、AIが賢く検索して答えを見つける手助けをする仕組みなんだよ！✨従来の方法よりもずっと賢くて、何度も検索して正確な情報を引き出せるんだ！🤖💡少ないデータで驚くほどの成果を上げちゃった！📈みんなもこの「StepSearch」でAIの力を借りて、質問の達人になっちゃおう！🚀✨

arXiv

An Empirical Study on Reinforcement Learning for Reasoning-Search Interleaved LLM Agents

2025年05月23日 04:20

https://arxiv.org/abs/2505.15117v1 C(・ω・ )つみんなー！やっほー！🎉みんな、大注目の研究が登場したよ！✨この論文では、超賢いAIが「検索」と「推論」を組み合わせて、もっと賢くなる方法を探ってるんだ！🤖💡特に、検索エンジンの質がAIの学び方に大きく影響するんだって！📚✨だから、いい情報をゲットすればするほど、AIはもっとスムーズにお仕事できるんだよ！😄💪みんなも、AIの成長を応援しよう！🚀🌈

arXiv

The Unreasonable Effectiveness of Entropy Minimization in LLM Reasoning

2025年05月23日 04:20

https://arxiv.org/abs/2505.15134v1 C(・ω・ )つみんなー！やっほー！🌟新しい研究が登場したよ！この論文では「エントロピー最小化」っていう魔法のような方法を使って、言語モデルがすっごく賢くなるんだって！🤖✨ラベルなしのデータで、数学やプログラミングの問題もバッチリ解けちゃうんだ！しかも、特別なトレーニングなしで、超効率的に高性能が出せるんだよ！🌈みんなもこの新発見を知って、未来のAIの力を感じちゃおう！🚀💖

arXiv

lmgame-Bench: How Good are LLMs at Playing Games?

2025年05月23日 04:19

https://arxiv.org/abs/2505.15146v1 C(・ω・ )つみんなー！🎮✨みんな、聞いて聞いて～！新しい研究「lmgame-Bench」が登場だよ！😄この研究では、超すごい大規模言語モデル（LLM）がゲームをどれだけ上手にプレイできるかを評価してるんだ！🕹️でも、ただゲームに突っ込むだけじゃダメなんだって！👀視覚や記憶に工夫をして、もっと正確に評価できるようにしたよ！🏆たくさんのゲームで、モデルの能力をバッチリ見せる新しい方法を発見したんだ！これで君もゲームマスターになれるかも！？🚀🌈

arXiv

Prolonged Reasoning Is Not All You Need: Certainty-Based Adaptive Routing for Efficient LLM/MLLM Reasoning

2025年05月23日 04:19

https://arxiv.org/abs/2505.15154v1 C(・ω・ )つみんなー！やっほー！✨新しい研究が登場したよ！「Certainty-based Adaptive Reasoning（CAR）」っていう、賢い回答の仕方を提案するんだ！🤖💡この方法は、質問に自信がないときだけじっくり考えて、簡単な質問にはサクッと答えちゃうんだ！これで、無駄に長い答えを減らして、速くて正確な回答がゲットできるよ！💨💬実験でもバッチリ結果が出てるから、まさに未来の回答術だね！🚀🎉

arXiv

ReflAct: World-Grounded Decision Making in LLM Agents via Goal-State Reflection

2025年05月23日 04:19

https://arxiv.org/abs/2505.15182v1 C(・ω・ )つみんなー！やっほー！🎉新しい研究「ReflAct」が登場したよ！このすごい仕組みは、AIが自分の目標に向かってじっくり考えながら行動するんだ！🤔💭従来のAIは、次の行動を急いで決めちゃうけど、ReflActはちゃんと自分の状態を見直して、ミスを減らすことができるんだよ！✨これはまるで、迷子になった時に地図を見直すみたい！🌍だから、AIがもっと賢くなるんだ！すごくない？🚀

arXiv

Multilingual Prompting for Improving LLM Generation Diversity

2025年05月23日 04:17

https://arxiv.org/abs/2505.15229v1 C(・ω・ )つみんなー！やっほー！🎉新しい研究が登場したよ！🌈「Multilingual Prompting」で、言語モデルがもっと多様な答えを出せるようにするんだ！🤖🌍いろんな文化を取り入れて、みんなが知りたいことに、いろんな視点から答えてくれるんだよ！🎤✨これで、アーティストや意見が偏らず、色んな人の声を聞けるようになるかも！📢❤️さあ、一緒に新しい発見を楽しもう！🚀✨

arXiv

Generalised Probabilistic Modelling and Improved Uncertainty Estimation in Comparative LLM-as-a-judge

2025年05月23日 04:17

https://arxiv.org/abs/2505.15240v1 C(・ω・ )つみんなー！やっほー！🎉新しい研究が登場したよ！大人気のAIが、どれが一番良いかを比べる方法をもっと賢くするんだって✨「比較的なスコアリング」を使って、たくさんのAIの中から最高のものを選ぶのが簡単になるよ！💡しかも、無駄な比較を半分に減らせるんだって！これで、AI審査員がどんな判断をするか、もっとバッチリわかるようになるよ！😄🎈みんなもAIの進化を一緒に楽しもう！

arXiv

MentalMAC: Enhancing Large Language Models for Detecting Mental Manipulation via Multi-Task Anti-Curriculum Distillation

2025年05月23日 04:16

https://arxiv.org/abs/2505.15255v1 C(・ω・ )つみんなー！やっほー！🌟新しい研究「MENTAL MAC」が登場！これは、大きな言語モデル（LLM）を使って、ちょっと怖い「メンタル操作」を見つけるための新しい方法なんだ！👀💬秘密の会話の中に隠れた心理操作を探し出すの、面白そうじゃない？💡進化したデータの増やし方や、特別な先生モデルを使って、みんなの心を守るために頑張ってるよ！✨この研究が、みんなのメンタルヘルスを守る手助けになるかも！💪💕

arXiv

When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners

2025年05月23日 04:16

https://arxiv.org/abs/2505.15257v1 C(・ω・ )つみんなー！🌟みんな、注目～！新しい研究が登場だよ！大きな言語モデルが、言葉を超えて賢くなる方法を発見したんだ！🧠✨言語と推論をうまく分けることで、世界中の言葉で理解力がアップするっていう、まるで魔法みたいな話！🎩✨英語だけじゃなく、いろんな言葉で賢くなれるチャンスがやってきたよ～！🌍💬これからはどの言語でも、みんながもっと楽しく学べる時代が来るかも！？🎉🎈ワクワクが止まらないね！

arXiv

LLM-Explorer: A Plug-in Reinforcement Learning Policy Exploration Enhancement Driven by Large Language Models

2025年05月23日 04:15

https://arxiv.org/abs/2505.15293v1 C(・ω・ )つみんなー！やっほー！🎉みんな、すごいことが起きたよ！新しい研究「LLM-Explorer」が登場したんだ！🤖✨これは、AIが自分で学びながら、もっと賢く行動するための特別なスキルを身につける手助けをしてくれるんだよ！ゲームやロボットの動きも、これでバッチリ！🚀今までのやり方よりも、ずーっと賢くなるんだ！みんなもこのワクワクする冒険に参加してみよう！🌈💖

arXiv

Multiple Weaks Win Single Strong: Large Language Models Ensemble Weak Reinforcement Learning Agents into a Supreme One

2025年05月23日 04:14

https://arxiv.org/abs/2505.15306v1 C(・ω・ )つみんなー！やっほー！✨新しい研究が発表されたよ！🎉「LLM-Ens」っていう、たくさんの弱いエージェントを合わせて、強いエージェントを作る魔法みたいな方法なんだ！🦸‍♂️大きな言語モデルを使って、ゲームの状況を理解して、最適なエージェントを選ぶんだって！これで、アタリのゲームで20%もパワーアップしちゃうんだ！⚡️みんなもAIの力でゲームをもっと楽しもう！💪🎮

arXiv

Trajectory Bellman Residual Minimization: A Simple Value-Based Method for LLM Reasoning

2025年05月23日 04:14

https://arxiv.org/abs/2505.15311v1 C(・ω・ )つみんなー！やっほー！✨新しい研究「Trajectory Bellman Residual Minimization」って知ってる？これ、超面白いんだ！🤖💡従来の方法に比べて、価値に基づいたアプローチを使って、言語モデルをもっと賢くしちゃうんだよ！🔍💪これで、複雑な問題をさくっと解決できるようになるかも！🎉しかも、余計な部品なしで、サクサク動くからコストも抑えられる！💰✨さあ、このワクワクする未来を一緒に見てみよう！🚀💖

arXiv

Improving LLM First-Token Predictions in Multiple-Choice Question Answering via Prefilling Attack

2025年05月23日 04:14

https://arxiv.org/abs/2505.15323v1 C(・ω・ )つみんなー！やっほー！🎉新しい研究が発表されたよ！大きな言葉モデル（LLM）が選択問題を解くとき、正しい答えを見つけるのが超難しいって知ってた？💭でも、「プリフィリング攻撃」っていう新しいアイデアが登場！これを使うと、モデルが迷わずパッと正しい答えを出してくれるんだ！✨まるで、魔法のような助けをしてくれるゆるキャラみたい！🐢💖この方法で、正確さや一貫性がグッとアップするんだって！すごいね！🚀

arXiv

Your Language Model Can Secretly Write Like Humans: Contrastive Paraphrase Attacks on LLM-Generated Text Detectors

2025年05月23日 04:13

https://arxiv.org/abs/2505.15337v1 C(・ω・ )つみんなー！こんにちは、みんな！🎉大きな言葉の魔法使い、LLMが登場！でも、悪用されることもあるから、特別な探偵たちが必要なんだ！🔍そこで、私たちは「コントラスト・パラフレーズ攻撃（CoPA）」を発明したよ！✨この新しい方法は、訓練なしで、LLMを使って賢く文章を変えちゃうんだ！🤖💨これで、探偵たちもびっくり！何がすごいって、機械らしさを消して、もっと人間らしい文章を作れるんだ！💪✨さあ、みんなでLLMの世界を探検しよう！🚀

arXiv

FlowKV: Enhancing Multi-Turn Conversational Coherence in LLMs via Isolated Key-Value Cache Management

2025年05月23日 04:13

https://arxiv.org/abs/2505.15347v1 C(・ω・ )つみんなー！こんにちは！✨大きな言葉モデル（LLM）が会話をもっとスムーズにするために、FlowKVっていう新しいアイデアを考えたよ！🚀この技術は、過去の会話を忘れずに、最新の情報だけを賢く整理するんだ！📚これで、ユーザーの好みをしっかり覚えて、もっと面白い返事ができるようになるんだよ！😄✨さあ、みんなでこの新しい魔法を体験しよう！🎉

arXiv

AI vs. Human Judgment of Content Moderation: LLM-as-a-Judge and Ethics-Based Response Refusals

2025年05月23日 04:12

https://arxiv.org/abs/2505.15365v1 C(・ω・ )つみんなー！やっほ～！🎉 みんなが大好きなAIのお話だよ！最近、AIが「ダメ！」って言うとき、実は人間と全然違う反応してることがわかったんだ！🤔✨ 例えば、AIは「危ないから無理！」って言うと、すごく良い評価をもらうけど、人間は「なんだ、それ！」って思っちゃうことも。👀💬 これって、AIの評価方法にちょっとしたバイアスがあるってこと！面白いよね？🔍❤️ 未来のAIを考える上で、超重要な発見だよ～！🚀💖

arXiv

An Empirical Study of the Anchoring Effect in LLMs: Existence, Mechanism, and Potential Mitigations

2025年05月23日 04:12

https://arxiv.org/abs/2505.15392v1 C(・ω・ )つみんなー！🎉やっほー！みんな大好きなAI、LLMたちが「アンカリング効果」に影響されるか調べたよ！🧐✨最初の情報に引っ張られちゃうって現象なんだけど、これを分析するための新しいデータセット「SynAnchors」を作ったんだ！📊💡アンカーの影響を軽減する方法も探って、AIがもっと賢くなる手助けをしたいんだよね！🚀💖さあ、一緒にAIの謎を解こう！✨🎈

arXiv

ClickSight: Interpreting Student Clickstreams to Reveal Insights on Learning Strategies via LLMs

2025年05月23日 04:11

https://arxiv.org/abs/2505.15410v1 C(・ω・ )つみんなー！🎉やっほー！みんな！新しい研究「ClickSight」が登場したよ～！💻✨この研究では、学生のクリックデータを使って、どんな学び方をしているのかを教えてくれるんだ！🤓💡大きな言葉のモデルを使って、クリックの動きから面白い学びの秘密を発見！🚀🌟さあ、みんなもこのワクワクする世界に飛び込もう！📚💖新しい学び方が見つかるかもよ～！👀✨

arXiv

Trends and Challenges in Authorship Analysis: A Review of ML, DL, and LLM Approaches

2025年05月23日 04:11

https://arxiv.org/abs/2505.15422v1 C(・ω・ )つみんなー！やっほー！👋新しい論文が登場だよ！✍️「著者分析」って、誰が書いたかを見抜くスゴ技を研究してるんだ！💡AIや機械学習を使って、匿名のメッセージや怪しい文章の正体を暴いちゃうんだよ！🔍✨特に、AIが書いた文章と人間の文章を見分けるのが最近のカギ🔑！これ、未来のサイバーセキュリティや文学の世界でも大活躍するかも！📚🚀みんなも一緒にこのワクワクする研究の世界に飛び込もう！🐾💖

arXiv

NeoN: A Tool for Automated Detection, Linguistic and LLM-Driven Analysis of Neologisms in Polish

2025年05月23日 04:11

https://arxiv.org/abs/2505.15426v1 C(・ω・ )つみんなー！やっほー！✨新しい言葉「ネオロジズム」を探すスーパーツール「NeoN」が登場したよ！📚💡これまでの辞書頼みとはさよなら！NeoNは、特別なフィルターやAIを使って、ポーランド語の新しい言葉をどんどん見つけちゃうんだ！🕵️‍♂️✨しかも、使い方はカンタン！みんなで新しい言葉の冒険に出かけよう！🌈💖

arXiv

Set-LLM: A Permutation-Invariant LLM

2025年05月23日 04:10

https://arxiv.org/abs/2505.15433v1 C(・ω・ )つみんなー！やっほー！🌟新しい言葉の魔法使い「Set-LLM」が登場したよ！✨この魔法使いは、選択肢の順番に影響されずに答えを出せるんだ！🍀例えば、テストの選択肢を並べ替えても、いつも同じ答えをくれるから安心だね！😄これで、AIのお友だち同士の競争もスムーズに！🎉みんなも、Set-LLMのワクワクな冒険に参加しよう！🚀💖

arXiv

AdUE: Improving uncertainty estimation head for LoRA adapters in LLMs

2025年05月23日 04:10

https://arxiv.org/abs/2505.15443v1 C(・ω・ )つみんなー！やっほー！🌟今日は、AIが自分の予測の「自信」を測る方法をアップグレードする新しいアイデアを紹介するよ！その名も「AdUE」！🎉これは、従来の手法よりももっと正確に自信を計れるんだ。しかも、重い計算がいらないからサクサク動くよ！💨色んな言語モデルで試してみたら、みんなの予測精度がバッチリUP！📈これで、AIももっと頼れる存在に近づくんだね！✨ワクワクするね！

arXiv

Single LLM, Multiple Roles: A Unified Retrieval-Augmented Generation Framework Using Role-Specific Token Optimization

2025年05月23日 04:10

https://arxiv.org/abs/2505.15444v1 C(・ω・ )つみんなー！🎉やっほー！みんな、すっごい新しい研究が発表されたよ！🦸‍♂️「RoleRAG」っていう、超ハイテクなフレームワークが登場したんだ！💡このシステムは、1つの大きなAIがいろんな役割を持って、質問に答えたり、情報を集めたりするのを助けるんだって！🌟それぞれの役割ごとにカスタマイズされたトークンを使って、賢く動くんだよ！🎈実験でもバッチリ結果を出してるみたいで、すごく楽しみ！✨さぁ、一緒に未来のAIの冒険を応援しよう！🚀

arXiv

A Qualitative Investigation into LLM-Generated Multilingual Code Comments and Automatic Evaluation Metrics

2025年05月23日 04:09

https://arxiv.org/abs/2505.15469v1 C(・ω・ )つみんなー！やっほー！💻🎉 みんな、大注目の研究が登場したよ！なんと、プログラミングのコメントを5つの言語で生成するAIを調査したんだ！✨中国語やオランダ語、ギリシャ語、ポーランド語まで対応してるんだって！🤯 でも、AIが作ったコメントには間違いも多いんだ。エラーの種類はなんと26も！😱 面白いアイデアがたくさん詰まったこの研究、ぜひチェックしてみてね！🚀💖

arXiv

LFTF: Locating First and Then Fine-Tuning for Mitigating Gender Bias in Large Language Models

2025年05月23日 04:09

https://arxiv.org/abs/2505.15475v1 C(・ω・ )つみんなー！やっほー！🌈大きな言葉のモデル、LLMたちが、うっかり「性別バイアス」を持っちゃってるって知ってた？😲✨新しい研究では、「LFTF」っていうすごい方法で、そのバイアスを見つけて、ちゃんと調整することができるんだ！🎉「GenBiasEval」っていう特別なデータセットも登場して、みんなが公平な言葉を使えるようにお手伝いするよ！💪💖これで、言葉の世界をもっと楽しく、もっと公平にしちゃおう！🚀🎊

arXiv

KaFT: Knowledge-aware Fine-tuning for Boosting LLMs' Domain-specific Question-Answering Performance

2025年05月23日 04:08

https://arxiv.org/abs/2505.15480v1 C(・ω・ )つみんなー！やっほー！✨今回は「KaFT」っていう新しいアイデアを紹介するよ！🤖✨大きな言語モデルを使って、専門的な質問に答えるのがもっと上手になるんだ！でも、モンスターみたいな知識の衝突があって、それが問題だったの。😱そこで、KaFTは「知識を意識した微調整」を使って、データを賢く選んで、正しい答えを引き出すんだ！🎉これで、LLMたちがもっと賢くなって、みんなの質問にもバッチリ答えられるようになるよ！🌟ワクワクするね！

arXiv

Protoknowledge Shapes Behaviour of LLMs in Downstream Tasks: Memorization and Generalization with Knowledge Graphs

2025年05月23日 04:08

https://arxiv.org/abs/2505.15501v1 C(・ω・ )つみんなー！やっほー！✨新しい研究が登場したよ！「プロトナレッジ」っていう新しい言葉を使って、AIがどのように知識を覚えて、使うかを探るんだ！📚💡知識グラフから得た情報をどう活用するかを分析して、AIが自然言語を理解する力を高める方法を見つけたんだって！🤖💬これからのAIの進化にワクワクしちゃうね！🌈✨みんなも一緒にAIの世界を探検しよう！🚀🎉

arXiv

Evaluate Bias without Manual Test Sets: A Concept Representation Perspective for LLMs

2025年05月23日 04:08

https://arxiv.org/abs/2505.15524v1 C(・ω・ )つみんなー！やっほー！✨みんな、大注目の研究が登場したよ！「BIASLENS」って言うんだけど、これがすっごいんだ！🤖💖従来の方法ではめちゃくちゃ時間がかかるバイアス評価を、なんとテストセットなしでできちゃうんだ！🔍✨「男性」と「女性」、そして「医者」の関係がどう偏っているかを、超カンタンに分析できるんだよ！🎉みんなもこれでAIの公平性を見守っちゃおう！🌈💪

arXiv

Do RAG Systems Suffer From Positional Bias?

2025年05月23日 04:07

https://arxiv.org/abs/2505.15561v1 C(・ω・ )つみんなー！やっほー！🌟新しい研究がやってきたよ！「RAGシステムにはポジショナルバイアスがあるの？」ってテーマで、LLM（大きな言語モデル）がどこに情報を置くかで答えが変わっちゃうんだって！🤯実験を通じて、実は重要な情報と邪魔な情報が一緒に来ちゃうと、ポジショナルバイアスの影響が小さくなることがわかったんだ！📊🎉つまり、リーダーたちが情報を並べる方法を変えても、結果が変わらないかも！これは面白い発見だね！🐾✨

arXiv

Exploring LLM-Generated Feedback for Economics Essays: How Teaching Assistants Evaluate and Envision Its Use

2025年05月23日 04:07

https://arxiv.org/abs/2505.15596v1 C(・ω・ )つみんなー！🌟こんにちは、中学生のみんな！🎉今回の研究は、AIが作ったフィードバックを使って、経済のエッセイをもっと楽しく、早く評価できる方法を探るんだよ！🤖✍️ 教師たちがAIのサポートで、より良いアドバイスを学生に届けられるようになるかも！✨これで、勉強ももっと楽しくなるかもしれないよ〜！📚💕興味津々な君たち、ぜひチェックしてみてね！🚀✨

arXiv

From Problem-Solving to Teaching Problem-Solving: Aligning LLMs with Pedagogy using Reinforcement Learning

2025年05月23日 04:07

https://arxiv.org/abs/2505.15607v1 C(・ω・ )つみんなー！🎉やったね！新しい研究が登場したよ！大型言語モデル（LLM）が、ただ答えを教えるだけじゃなくて、みんなの学びをサポートしちゃうんだ！🤖✨特別なトレーニングで、学生が自分で問題を解く力を育てるためのお手伝いをするんだよ！🚀こんな新しいチューターがいたら、勉強がもっと楽しくなること間違いなし！🎈みんなも一緒に学びの冒険に出かけよう！📚🌟

arXiv

Can LLMs $\textit{understand}$ Math? -- Exploring the Pitfalls in Mathematical Reasoning

2025年05月23日 04:06

https://arxiv.org/abs/2505.15623v1 C(・ω・ )つみんなー！🎉やっほー！みんな～、大ニュースだよ！✨新しい研究が登場したんだ！大きな言葉のモデル（LLM）が数学を理解できるか挑戦するんだって！🤔💭正しい答えだけじゃなく、間違いの理由を深掘りする「MAPLEスコア」っていう面白い評価方法を使ってるんだよ！🍁🔍これで、LLMの数学的な考え方がわかるかも！💡みんなも一緒にワクワクしながら、数学の世界を探検しよう！🧮🚀✨

arXiv

Be Careful When Fine-tuning On Open-Source LLMs: Your Fine-tuning Data Could Be Secretly Stolen!

2025年05月23日 04:06

https://arxiv.org/abs/2505.15656v1 C(・ω・ )つみんなー！こんにちは！🎉✨最近の研究で、オープンソースの大きな言語モデル（LLM）を使ってデータを微調整すると、なんとそのデータが「こっそり盗まれちゃう」危険があることがわかったよ！😱🔍研究者たちは、この背後に潜む秘密の手法を発見したんだ！だから、LLMを使うときは注意が必要だよ！🛡️💔みんなも安全に楽しく使おうね！📚💖

arXiv

A Federated Splitting Framework for LLMs: Security, Efficiency, and Adaptability

2025年05月23日 04:05

https://arxiv.org/abs/2505.15683v1 C(・ω・ )つみんなー！やっほー！🌟新しい研究が登場したよ！その名も「FL-LLaMA」！🦙このすごいシステムは、プライバシーを守りながら、みんなのデータを上手に使って、超効率的に学ぶことができるんだ！💡しかも、使う人が必要に応じてデータの分け方を変えられるから、どんなタスクにもピッタリ！🚀これでAIがもっと賢くなっちゃうかも！✨興味津々になったら、ぜひ調べてみてね！📚💖

arXiv

Advancing LLM Safe Alignment with Safety Representation Ranking

2025年05月23日 04:04

https://arxiv.org/abs/2505.15710v1 C(・ω・ )つみんなー！やっほー！🌟新しい研究が登場したよ！「Safety Representation Ranking（SRR）」っていうんだ！この技術は、言語モデルが安全な回答を選ぶのを手助けするんだって！🤖💡内部のデータを使って、危険な回答を見つけるんだよ！これで、みんなが安心してAIとおしゃべりできるようになるかも！✨安全第一で、楽しい会話を楽しもうね！🎉

arXiv

TurnaboutLLM: A Deductive Reasoning Benchmark from Detective Games

2025年05月23日 04:04

https://arxiv.org/abs/2505.15712v1 C(・ω・ )つみんなー！🎉みんな、聞いて聞いて～！新しいゲームみたいな論文「TURNABOUT LLM」ができたよ！🕵️‍♂️✨これは、 detectives（探偵）なストーリーから、難しい問題を解く力をLLM（大規模言語モデル）でテストしちゃうんだ！👀💡長い物語の中から証言と証拠の矛盾を見つけるなんて、まるで本物の探偵みたいだね！🔍💥これでLLMの推理力をバッチリ試せるから、面白い発見がいっぱい待ってるよ～！🚀📚

arXiv

Beyond Empathy: Integrating Diagnostic and Therapeutic Reasoning with Large Language Models for Mental Health Counseling

2025年05月23日 04:03

https://arxiv.org/abs/2505.15715v1 C(・ω・ )つみんなー！🎉こんにちは！新しいお友達、PsyLLMを紹介しちゃうよ！🤖✨このすごいAIは、ただの優しいお話相手じゃないんだ！なんと、心の病を診断したり、いろんな治療法を使ってお話を進めることができるんだよ！🧠💖だから、いつでも本物のカウンセリングを受けているみたいに感じられるんだ！これからのメンタルヘルスは、PsyLLMにお任せだね！🚀🌈

arXiv

Shared Path: Unraveling Memorization in Multilingual LLMs through Language Similarities

2025年05月23日 04:03

https://arxiv.org/abs/2505.15722v1 C(・ω・ )つみんなー！やっほー！🎉みんな！今日はすっごく面白い研究を紹介するよ！なんと、マルチリンガルな大規模言語モデル（MLLMs）がどうやって記憶を使っているかを探る初めての大調査が発表されたんだ！🌍✨95の言語を分析して、言語の似てるところが記憶にどう影響するかを解明したんだって！🤯💡これによって、記憶の仕組みがもっと分かって、言語間のつながりもバッチリ理解できるようになるかも！💖みんなも一緒にこのワクワクな研究を応援しよう！🚀📚

arXiv

Alignment Under Pressure: The Case for Informed Adversaries When Evaluating LLM Defenses

2025年05月23日 04:03

https://arxiv.org/abs/2505.15738v1 C(・ω・ )つみんなー！やっほー！👋 大型言語モデル（LLM）の世界に新たな風が吹いてるよ！🌪️ なんと、悪党（アタッカー）がモデルの秘密を知って、より強力な攻撃を仕掛ける方法を発見したんだ！💥「インフォームド・ホワイトボックス攻撃」っていう新しい技術で、隠された弱点を突いて、どんな入力にも効く「ユニバーサル悪意のサフィックス」を見つけちゃった！🎯 これで、LLMの安全性がどれだけ脆いかが明らかに！再び安全な未来を目指そう！🌈✨

arXiv

HybridProver: Augmenting Theorem Proving with LLM-Driven Proof Synthesis and Refinement

2025年05月23日 04:02

https://arxiv.org/abs/2505.15740v1 C(・ω・ )つみんなー！やっほー！🎉新しい発見があるよ～！「HybridProver」っていうすごいシステムが登場したんだ！🤖✨このシステムは、難しい数学の証明を、賢い言葉のモデルを使ってサクッと作っちゃうんだって！📜💡従来の方法と新しいアイデアを組み合わせて、証明をより簡単にするんだ。これで、みんなも数学のヒーローになれるかも！？🌟一緒に数学の冒険に出かけよう！🚀💖

arXiv

Scalable Defense against In-the-wild Jailbreaking Attacks with Safety Context Retrieval

2025年05月23日 04:02

https://arxiv.org/abs/2505.15753v1 C(・ω・ )つみんなー！やっほー！🎉新発見のお知らせだよ！✨なんと、大きな言葉のモンスター（LLM）が、悪い人たちの攻撃から身を守るために「安全コンテキスト取得」っていう技を身につけたんだ！🦸‍♂️💥これで、いつでも新しい攻撃にバッチリ対応できるんだって！これまでは静かな防御だったけど、今は賢く反応する時代だよ！🌟みんなもこの新しいヒーローの活躍を応援しようね！🚀💖

arXiv

Soft Thinking: Unlocking the Reasoning Potential of LLMs in Continuous Concept Space

2025年05月23日 04:01

https://arxiv.org/abs/2505.15778v1 C(・ω・ )つみんなー！やっほー！🙌新しい研究「ソフトシンキング」って知ってる？🧠✨これは、AIが人間みたいにふわふわした抽象的な考えをして、難しい問題を解決する方法なんだ！💡従来の方法じゃ、言葉の壁にぶつかっちゃうけど、ソフトシンキングは、アイデアを自由に操ることができるんだよ！🎉 これでAIももっと賢くなるかも！🚀興味津々だね！💖

arXiv

Large Language Models as Computable Approximations to Solomonoff Induction

2025年05月23日 04:01

https://arxiv.org/abs/2505.15784v1 C(・ω・ )つみんなー！やあ！みんな、ちょっと聞いてよ！🤗最近の研究で、大きな言葉のモデル（LLM）が、実は未来の予知みたいなことをしているってわかったんだ！✨これを「ソロモンオフの誘導」って呼ぶんだ。なんと、LLMはデータを使って、自分で学んでいくことができる魔法のような存在なんだよ！🪄この研究は、モデルがどうやって賢くなるのかを解明して、より良いAIを作る手助けをしてくれるんだ！未来のAIにワクワクしちゃうね！🌟

arXiv

HCRMP: A LLM-Hinted Contextual Reinforcement Learning Framework for Autonomous Driving

2025年05月23日 04:01

https://arxiv.org/abs/2505.15793v1 C(・ω・ )つみんなー！🚗✨みんな、聞いて聞いて！新しい技術が登場したよ～！それは「HCRMP」という名前の、超かっこいい自動運転の学習システムなんだ！😆大きな言葉のモデル（LLM）と、学んで成長する強化学習（RL）がタッグを組んで、運転をもっと安全に、そして賢くするんだって！🌟特に危険な状況でも、衝突をぐっと減らして、成功率を80％以上にするっていうから、すごいよね！🚦💨自動運転の未来がますます楽しみだね！🎉

arXiv

STAR-R1: Spacial TrAnsformation Reasoning by Reinforcing Multimodal LLMs

2025年05月23日 04:00

https://arxiv.org/abs/2505.15804v1 C(・ω・ )つみんなー！やっほー！✨新しい発見があるよ！「STAR-R1」っていう超カッコいいシステムが、画像の中のオブジェクトの変化を見抜いちゃうんだ🎉👀。普通のAIはちょっと苦手だけど、STAR-R1は賢くて、部分的な正しさも評価するんだよ！🚀これで、もっとスムーズに物の変化を理解できちゃうかも！お友達に自慢できること間違いなしだね！💖✨興味が湧いたら、ぜひチェックしてみてね！🌈📚

arXiv