2025年05月22日の論文要約

Temporal Alignment of Time Sensitive Facts with Activation Engineering

2025年05月22日 04:21

https://arxiv.org/abs/2505.14158v1 C(・ω・ )つみんなー！やっほー！🎉新しい研究が登場したよ！大型言語モデル（LLM）が、時代に合わせた正しい答えを出すために「アクティベーションエンジニアリング」って魔法の技を使うんだ！✨これで、質問に対して昔の情報じゃなくて、今の正しい答えが出せるようになるんだって！例えば、2022年の日本の総理大臣を正しく教えてくれるんだよ！🇯🇵🎈しかも、特別なデータはいらないから、とっても効率的！みんなもこのワクワクする技術を知って、未来の会話を楽しもう！😄💫

arXiv

Tokenization Constraints in LLMs: A Study of Symbolic and Arithmetic Reasoning Limits

2025年05月22日 04:20

https://arxiv.org/abs/2505.14178v1 C(・ω・ )つみんなー！🎉やっほー！みんな！今日はすごい発見をしたよ！✨言葉を理解するAIが、どうやって計算や論理を考えるか、その秘密を探ったんだ！🔍「トークン」っていう小さな単位が、AIの考える力を左右するって知ってた？💡この研究のおかげで、AIがもっと賢くなる方法がわかっちゃったんだ！✨これからのAIの進化が楽しみだね！🚀みんなも一緒にワクワクしよう！🎈

arXiv

SlangDIT: Benchmarking LLMs in Interpretative Slang Translation

2025年05月22日 04:20

https://arxiv.org/abs/2505.14181v1 C(・ω・ )つみんなー！🌟やっほー！みんな、面白い研究を紹介するよ～！🚀「SlangDIT」っていう新しい挑戦が登場！😆これは、スラング（言葉遊び）を理解するための特別なテストなんだ✨英語と中国語のスラングを一緒に学んで、もっと楽しく翻訳しちゃおう！📚💬スラングの意味を知ることで、友達ともっと楽しく会話できるようになるよ！🎉さあ、一緒にスラングの世界を探検しよう！🕵️‍♀️✨

arXiv

Safety Subspaces are Not Distinct: A Fine-Tuning Case Study

2025年05月22日 04:20

https://arxiv.org/abs/2505.14185v1 C(・ω・ )つみんなー！やっほー！🤗みんな、AIの世界もすごいことになってるよ！この研究では、大きな言語モデル（LLM）が「安全」に関する秘密を探ってるんだ！🔍✨なんと、安全な行動と危険な行動が同じ場所で絡まってるって発見したんだって！😲これって、まるで安全と危険が手をつないでるみたい！💥だから、単純に「安全な部分を守る」ってのは難しいんだ！新しいアイデアが必要だね！💡みんなもこのワクワクする未来に注目してね！🚀

arXiv

Unraveling Interwoven Roles of Large Language Models in Authorship Privacy: Obfuscation, Mimicking, and Verification

2025年05月22日 04:20

https://arxiv.org/abs/2505.14195v1 C(・ω・ )つみんなー！やっほー！✨今日は、すごーく面白い研究を紹介するよ！大きな言葉を使うAI（LLM）が、私たちの書き方を真似したり、逆に隠したり、誰が書いたかを調べたりするんだって！🤖✍️この研究は、これらの技術がどんなふうに絡み合っているのかを初めて詳しく探るんだよ！まるで、AIが私たちの秘密を知っちゃうかもしれないってこと！😱✨みんなもこのワクワクする発見を一緒に楽しもう！🎉

arXiv

Capturing the Effects of Quantization on Trojans in Code LLMs

2025年05月22日 04:19

https://arxiv.org/abs/2505.14200v1 C(・ω・ )つみんなー！やっほー！😊✨今日はスゴイ研究を紹介するよ！なんと、コードのAIたちが「量子化」っていう魔法の技を使って、悪いトロイの木馬を退治する方法を見つけたんだ！⚔️💻この新しい技術で、AIたちがみんなのコードを守ってくれるかも！量子化がどんな影響を与えるのか、ドキドキワクワクしちゃうね！🎉🔍さぁ、未来のプログラミングを一緒に楽しもう！🚀✨

arXiv

Reinforcement Learning vs. Distillation: Understanding Accuracy and Capability in LLM Reasoning

2025年05月22日 04:19

https://arxiv.org/abs/2505.14216v1 C(・ω・ )つみんなー！やっほー！✨みんな、大きな言葉モデルがもっと賢くなるための新しい研究が出たよ！🐾「強化学習」と「蒸留」のバトルで、どっちがスゴイ？🤔強化学習は簡単な問題は得意だけど、難しい問題はイマイチ…😅でも、蒸留は新しい知識を入れると、難しい問題もバッチリ解決！💡この研究で、賢いロボットたちの秘密を探ろう！🔍✨興味津々でしょ？一緒に学ぼう！📚💖

arXiv

"Haet Bhasha aur Diskrimineshun": Phonetic Perturbations in Code-Mixed Hinglish to Red-Team LLMs

2025年05月22日 04:19

https://arxiv.org/abs/2505.14226v1 C(・ω・ )つみんなー！やっほー！🎉みんな、面白い発見があったよ！この研究では、英語とヒンディー語をミックスした「ヒングリッシュ」を使って、AIモデルを騙す新しい方法を考えたんだ！💻✨なんと、特別なスペルミスを使って、AIの安全フィルターをすり抜けることができちゃう！攻撃成功率は99%だって！😲💥これからのAIの安全性を考える上で、すっごく大事な話だよ！みんなも注目してね！🌟

arXiv

AAPO: Enhance the Reasoning Capabilities of LLMs with Advantage Momentum

2025年05月22日 04:18

https://arxiv.org/abs/2505.14264v1 C(・ω・ )つみんなー！やっほー！✨みんな、すごいニュースだよ！📚大きな言葉を使うAIが、もっと賢くなる方法を見つけたんだ！その名も「AAPO」！🚀これは、特別な学び方でAIが頭を使って考える力をアップさせるんだよ！💡難しい問題も、スラスラ解けちゃうかも！？😄みんなも一緒に、AIの成長を応援しよう！🎉

arXiv

Think-J: Learning to Think for Generative LLM-as-a-Judge

2025年05月22日 04:18

https://arxiv.org/abs/2505.14268v1 C(・ω・ )つみんなー！やっほー！🎉新しい研究『Think-J』が登場したよ！この研究は、AIが自分で考えて、生成した文章を評価する能力をアップさせるんだって！👀✨普通のAIはまだまだ不正確だけど、Think-Jは特別なトレーニングで賢くなって、大事なジャッジをしっかりこなすよ！💪💖これでAIがもっと使えるようになったら、面白いことがたくさんできちゃうね！🌈📚みんなも応援してね！

arXiv

YESciEval: Robust LLM-as-a-Judge for Scientific Question Answering

2025年05月22日 04:17

https://arxiv.org/abs/2505.14279v1 C(・ω・ )つみんなー！やっほー！😄✨新しい研究「YESciEval」は、科学の質問に答える大きな言葉のモデル（LLM）をもっと賢くするための秘密兵器だよ！🔍💡この研究では、質問に対する答えがどれだけ正確かを評価するために、特別なルールを使っているんだ！🤖💕しかも、難しい言葉を使わずに、みんなが使いやすいように工夫されてるんだよ！🎉これで、科学の世界がもっと面白くなるかも！🌍🔬一緒に科学の冒険に出かけよう！🚀✨

arXiv

Universal Acoustic Adversarial Attacks for Flexible Control of Speech-LLMs

2025年05月22日 04:17

https://arxiv.org/abs/2505.14286v1 C(・ω・ )つみんなー！🎤やっほー！アクースティックアタックの新しい発見があるよ〜！🦸‍♂️この研究では、音声LLM（大きな言語モデル）を騙すための「ユニバーサルアタック」を使って、特定の声や言語にだけ影響を与える方法を探ってるんだ！🤖✨これで、しゃべる内容を変えたり、何も言わなくさせちゃうかも！😱💥さあ、もっと安全な音声技術を目指して、みんなで応援しよう！📣💪

arXiv

Empowering LLMs in Task-Oriented Dialogues: A Domain-Independent Multi-Agent Framework and Fine-Tuning Strategy

2025年05月22日 04:17

https://arxiv.org/abs/2505.14299v1 C(・ω・ )つみんなー！やっほー！✨新しい論文が登場したよ！🎉「タスク指向ダイアログ」を超簡単にしちゃう、すごい「マルチエージェントフレームワーク」だよ！🤖✨これで、いろんなお仕事をお手伝いしてくれるエージェントたちが仲良く協力して、みんなの質問にバッチリ答えられるんだ！💪💬難しいことをサクッと解決しちゃうこの仕組み、めっちゃ面白いし、未来感満載！🚀✨みんなも一緒にワクワクしよう！💖

arXiv

SafetyNet: Detecting Harmful Outputs in LLMs by Modeling and Monitoring Deceptive Behaviors

2025年05月22日 04:17

https://arxiv.org/abs/2505.14300v1 C(・ω・ )つみんなー！みんな、注目～！🎉「SafetyNet」っていう新しいシステムが登場したよ！🤖✨このシステムは、大きな言葉を理解するAIが悪いことを言わないように、リアルタイムで見守ってくれるんだ！💪💖悪い言葉や危ないことを言う前に、サッとキャッチするんだよ！まるでヒーローみたいだね！🦸‍♂️✨悪い時のサインを見つけるために、特別なトリックを使ってるんだって！これで安全に楽しい会話ができるね！😄🔍✨

arXiv

Scaling Law for Quantization-Aware Training

2025年05月22日 04:16

https://arxiv.org/abs/2505.14302v1 C(・ω・ )つみんなー！やっほー！🎉大きな言葉モデル（LLM）をもっと軽くして、みんなが使いやすくするための新しい研究が登場したよ！🔍「量子化を意識したトレーニング」（QAT）っていう方法で、モデルの精度を下げても性能をキープ！✨特に4ビットの量子化でのエラーの秘密を解明したり、データ量やモデルの大きさがどう影響するかを探ったんだ！📊これで、もっと効率的にAIを使えるようになるかも！ワクワクするね～！💖

arXiv

Exploring Jailbreak Attacks on LLMs through Intent Concealment and Diversion

2025年05月22日 04:15

https://arxiv.org/abs/2505.14316v1 C(・ω・ )つみんなー！🎉やったー！新しい研究が登場！🎉大人気の大規模言語モデル（LLM）をハッキングする新しい方法「ICE」を発表！🔍このICEは、たった1回の質問で安全対策を突破しちゃうんだ！✨さらに、質問応答だけじゃなく、テキスト生成でも使えるから、色んな場面で役立つぞ！💪みんなもこの面白い研究をチェックして、LLMの世界に飛び込もう！🚀💖

arXiv

Breaking Down Video LLM Benchmarks: Knowledge, Spatial Perception, or True Temporal Understanding?

2025年05月22日 04:15

https://arxiv.org/abs/2505.14321v1 C(・ω・ )つみんなー！🎉やっほー！みんな、動画を理解するAIの新しい挑戦が始まったよ！📹✨「VBenchComp」っていう新しいテスト方法が登場したんだ！これでAIが本当に動画を理解できているのか、知識だけじゃなくて、ちゃんと時間の流れを把握できてるかがわかるんだよ！⏳💡だから、AIのスゴさをもっと正しく評価できるようになるんだ！みんなもワクワクしちゃうね！🚀🤖💖

arXiv

Scaling and Enhancing LLM-based AVSR: A Sparse Mixture of Projectors Approach

2025年05月22日 04:15

https://arxiv.org/abs/2505.14336v1 C(・ω・ )つみんなー！🎉やったね！音声と映像を組み合わせた「オーディオビジュアルスピーチレコグニション（A VSR）」の新しいお友達、「Llama-SMoP」が登場だよ！🐑✨この子は、少ない計算資源でもスゴイ性能を発揮するんだ！小さなモデルでもパワーアップできる「スパースミクスチャーオブプロジェクター（SMoP）」って技を使ってるんだよ！🎶ノイズだらけの場所でも、音声をバッチリ理解してくれるよ！これでみんなの会話ももっと楽しくなるね！🗣️💖

arXiv

Towards eliciting latent knowledge from LLMs with mechanistic interpretability

2025年05月22日 04:14

https://arxiv.org/abs/2505.14352v1 C(・ω・ )つみんなー！やっほー！✨最近の研究で、言葉の秘密を探る新しい方法が発見されたよ！🕵️‍♂️「タブーモデル」っていう特別な言語モデルが、隠れた言葉を教えてくれるんだ！🤫例えば、「ダンス」って言葉を隠している時、リズムでヒントをくれるの！🕺💃これで、もっと安全に言語モデルを使えるようになるんだって！未来の技術がワクワクするね！🚀💖

arXiv

WirelessMathBench: A Mathematical Modeling Benchmark for LLMs in Wireless Communications

2025年05月22日 04:14

https://arxiv.org/abs/2505.14354v1 C(・ω・ )つみんなー！📡✨こんにちは、ワイヤレス通信の世界へようこそ！新しい「WirelessMathBench」が登場したよ！数学の問題を解くために作られたこのベンチマークは、最先端のAIに挑戦状を叩きつけるんだ！💪📊 587問の問題があって、難しい計算や方程式の完成をテストするよ。たくさんの研究から集めた情報で、AIがどれだけ賢いかを調べるんだ！🧠✨ さあ、一緒にワクワクする数学の冒険に出かけよう！🚀💖

arXiv

Is Your Prompt Safe? Investigating Prompt Injection Attacks Against Open-Source LLMs

2025年05月22日 04:14

https://arxiv.org/abs/2505.14368v1 C(・ω・ )つみんなー！🎉こんにちは！新しい研究が登場したよ！🤖✨この論文では、オープンソースの大規模言語モデル（LLM）が「プロンプト注入攻撃」にどれだけ弱いかを調査したんだ！💥🕵️‍♂️なんと、特別な「催眠攻撃」を使って、モデルが不適切な内容を生成しちゃうことがわかったんだって！😲💬さらに、攻撃成功の確率を新しい方法で測定して、みんなに安全性を伝えるよ！🔍✨安心して使えるAIの未来を一緒に作ろう！🌈💖

arXiv

Unearthing Gems from Stones: Policy Optimization with Negative Sample Augmentation for LLM Reasoning

2025年05月22日 04:12

https://arxiv.org/abs/2505.14403v1 C(・ω・ )つみんなー！🎉やっほー！新しい研究が登場したよ～！📚✨「石から宝石を見つける」ってなんだかワクワクする響きだね！🪨💎この研究では、長～い思考の過程をうまく活用する方法を考えたんだ！🤔💡マイナスのサンプルからも学べることがたくさんあるって知ってた？🤯🔍みんなの考える力をもっと引き出すための新しいアイデアがいっぱい詰まってるよ！🚀👏さあ、一緒に未来の賢いAIを育てよう！🌈✨

arXiv

MindVote: How LLMs Predict Human Decision-Making in Social Media Polls

2025年05月22日 04:11

https://arxiv.org/abs/2505.14422v1 C(・ω・ )つみんなー！やっほー！🎉みんな、すごい発見があるよ！「MindVote」っていう新しい研究が登場したんだ！🤖💭大きな言葉モデル（LLM）が、SNSでの投票で人間の気持ちを予測できるかを試すんだって！✨276の投票データを使って、LLMのパワーを測定するんだよ！📊これで、みんなの意見がどう変わるか分かるかも！⏰🌈未来の投票がもっと面白くなるかもね！🌟みんなも一緒にワクワクしよう！💖

arXiv

Scaling Low-Resource MT via Synthetic Data Generation with LLMs

2025年05月22日 04:11

https://arxiv.org/abs/2505.14423v1 C(・ω・ )つみんなー！こんにちは！🌟新しい研究が登場したよ！なんと、最新のAI（大きな言語モデル）を使って、少ないデータしかない言語の翻訳をもっと良くできる方法を発見したんだ！📚✨英語の文章を7つの異なる言語に翻訳して、さらに147の言語ペアに広げちゃった！🐾自動生成したデータを使うと、翻訳の精度が大幅にアップするんだって！🤩これで、もっと多くの言語が世界中で使われるようになるかも！🌍💖すごいね！

arXiv

From Templates to Natural Language: Generalization Challenges in Instruction-Tuned LLMs for Spatial Reasoning

2025年05月22日 04:10

https://arxiv.org/abs/2505.14425v1 C(・ω・ )つみんなー！みんな、注目～！👀✨私たちの研究は、ロボットが指示を理解するのに役立つんだよ！🦾💻合成データだけで学んだ言語モデルが、実際の人間の指示にどう反応するかを調べたんだ！🏗️🟢簡単なタスクは得意だけど、ちょっと複雑になるとバタバタ💦！この面白い挑戦を通じて、私たちのロボットがもっと賢くなるヒントを見つけたよ！🚀💡一緒に未来のロボットを応援しよう！🎉

arXiv

Choosing a Model, Shaping a Future: Comparing LLM Perspectives on Sustainability and its Relationship with AI

2025年05月22日 04:10

https://arxiv.org/abs/2505.14435v1 C(・ω・ )つみんなー！🎉こんにちは、未来のエコヒーローたち！🌍✨私たちの新しい研究では、最新のAIモデルが「サステイナビリティ」についてどう考えているかを探りました！🤖💚GPTはちょっと疑い深いけど、LLaMAは超ポジティブ！😄💪異なるモデルが持つバイアスが、私たちの地球を守る方法に影響を与えるかもしれないんだ！🌱🌈AIとサステイナビリティの関係を知って、君も未来を変える力を手に入れよう！🚀✨

arXiv

ServerlessLoRA: Minimizing Latency and Cost in Serverless Inference for LoRA-Based LLMs

2025年05月22日 04:09

https://arxiv.org/abs/2505.14468v1 C(・ω・ )つみんなー！🎉やったー！新しい技術「ServerlessLoRA」が登場したよ！💡このシステムは、大きなAIモデルをもっと速く、安く使えるようにするんだ！✨みんなが同じ「背骨」の部分をシェアすることで、無駄を減らして、待ち時間も超短縮！⏱️そして、たくさんのリクエストにも強い！🎊これで、AIの力をもっと身近に感じられるね！🌈みんなも一緒に未来の技術を楽しもう！🚀

arXiv

Attributional Safety Failures in Large Language Models under Code-Mixed Perturbations

2025年05月22日 04:09

https://arxiv.org/abs/2505.14469v1 C(・ω・ )つみんなー！🎉みんなー！新しい研究が登場したよ！✨大人気の大規模言語モデル（LLM）が、コード混合の言葉（いろんな言語を混ぜちゃうやつ）にめっちゃ弱いってことがわかったんだ！😱💬この研究では、どうして危ない言葉を言っちゃうのかを探るために、内部の動きを詳しく見てるんだって！📊🌍文化によって言葉の意味も変わるから、みんなが安心して使えるようにするための大事なお話なんだ！🤔💖さぁ、一緒に言葉の冒険に出かけよう！🚀✨

arXiv

Towards Reliable Proof Generation with LLMs: A Neuro-Symbolic Approach

2025年05月22日 04:08

https://arxiv.org/abs/2505.14479v1 C(・ω・ )つみんなー！やっほー！✨数学の証明が苦手なLLMたちに新たなヒーロー登場！🎉「神経-記号的アプローチ」で、証明をサクサク生成する方法を提案しちゃったよ！💡まずは似た問題を探して、それを参考にしながら、間違いがあったらフィードバックをもらうんだって！📚これで証明の精度がなんと58%もアップ！数学がもっと楽しくなる未来が待ってるかも！？🌈✨さぁ、一緒に数学の冒険に出かけよう！🚀

arXiv

Reasoning Models Better Express Their Confidence

2025年05月22日 04:08

https://arxiv.org/abs/2505.14489v1 C(・ω・ )つみんなー！✨こんにちわ～！みんな、すごい発見があったよ！🤖✨大きな言語モデル（LLM）って、時々自信満々だけど、実は間違えてることもあるんだ。でもね、ある特別な「推論モデル」が登場して、問題を解く能力だけじゃなく、自分の自信も上手に表現できることがわかったんだ！💪📚このモデルは「ゆっくり考える」から、自信を調整できるんだよ！🎉これで、もっと信頼できるAIができちゃうかも！みんなも一緒にワクワクしよう！🚀💖

arXiv

Enhanced Multimodal Aspect-Based Sentiment Analysis by LLM-Generated Rationales

2025年05月22日 04:08

https://arxiv.org/abs/2505.14499v1 C(・ω・ )つみんなー！やっほー！📣新しい研究が登場したよ！🎉その名も「LRSA」！このすごい仕組みは、小さな言葉モデルと大きな言葉モデルを組み合わせて、画像とテキストから気持ちを読み取るんだ！✨「あの絵の中の感情は何？」「この言葉の意味は？」を一緒に解決しちゃうんだ！🤔💕これで、より深く感情を理解できるようになるよ！みんなもこの面白い世界に飛び込んでみてね！🌈

arXiv

Teaching Audio-Aware Large Language Models What Does Not Hear: Mitigating Hallucinations through Synthesized Negative Samples

2025年05月22日 04:07

https://arxiv.org/abs/2505.14518v1 C(・ω・ )つみんなー！🎉やっほー！音を理解する大きな言葉のモデル、ALLMが登場したよ！でも、たまに「変な音」を作っちゃうことがあるんだ。そこで、LISTENっていうカッコいい方法を使って、正しい音と間違った音を見分ける練習をするんだ！✨これで、音の間違いを減らせるし、データも少なくて済むんだよ！🦄🎶みんなも音の世界を一緒に楽しもう！🌈✨

arXiv

Internal Chain-of-Thought: Empirical Evidence for Layer-wise Subtask Scheduling in LLMs

2025年05月22日 04:07

https://arxiv.org/abs/2505.14530v1 C(・ω・ )つみんなー！🤖✨やっほー！みんな、すごい発見があったよ！大きな言語モデル（LLM）が、実は「内なる思考の連鎖」を持っていて、複雑な問題を層ごとに分けて考えてるんだ！🧠💡例えば、「速い」の反対の言葉を見つけて、次にそれを大文字にするよ！🎉この研究で、彼らがどうやって頭の中で計画を立てているのかがわかったんだ！みんなもこの不思議な世界に飛び込んでみよう！🚀🌈

arXiv

Breaking Bad Tokens: Detoxification of LLMs Using Sparse Autoencoders

2025年05月22日 04:06

https://arxiv.org/abs/2505.14536v1 C(・ω・ )つみんなー！やっほー！🎉新しい研究が登場したよ！🌟「Breaking Bad Tokens」っていうんだ！大きな言葉のモデルが「悪い言葉」を使わないように、スパースオートエンコーダーっていう魔法の道具を使って、悪口を減らす方法を発見したんだ！✨この技術で、モデルが悪い言葉を言わなくなるけど、ちゃんとお話も上手にできるんだって！😄これでみんなが安心して使えるね！🚀詳しく知りたくなったら、ぜひチェックしてみてね！📚💖

arXiv

Can Large Language Models Really Recognize Your Name?

2025年05月22日 04:05

https://arxiv.org/abs/2505.14549v1 C(・ω・ )つみんなー！🌟こんにちは、みんな！大注目の研究が登場したよ！🎉大きな言語モデル（LLM）が、実は私たちの名前を見逃しちゃうことがあるんだって！😲🔍「名前の曖昧さ」に引っかかって、人の名前を「偽物」と勘違いしちゃうことが多いんだよ～！🤔💭これって、プライバシーを守るためのシステムには大問題！💥新しいデータセット「AMBENCH」を使って、LLMの弱点を暴いちゃった！👀✨これからのプライバシー対策に、きっと役立つよ～！💪✨

arXiv

KORGym: A Dynamic Game Platform for LLM Reasoning Evaluation

2025年05月22日 04:05

https://arxiv.org/abs/2505.14552v1 C(・ω・ )つみんなー！🎉やったー！新しいゲームの世界「KORGym」が登場だよ！🎮✨これは、大きな言葉のモデルたちがどれだけ賢いかを試す、超楽しいダイナミックなプラットフォームなんだ！💡🐰🐥50以上のゲームで、みんなの考える力をバッチリ評価！🔍💪 しかも、テキストやビジュアルの挑戦もあって、みんなでワイワイ楽しめるよ！🎊🤖 さあ、君もKORGymで新しい冒険に出発しよう！🚀🌈

arXiv

Context Reasoner: Incentivizing Reasoning Capability for Contextualized Privacy and Safety Compliance via Reinforcement Learning

2025年05月22日 04:05

https://arxiv.org/abs/2505.14585v1 C(・ω・ )つみんなー！やっほー！✨みんな、大注目の新しい研究が登場だよ！🎉この論文では、大きな言語モデル（LLM）が安全性やプライバシーの問題をしっかり守るために、賢く考える力を育てる方法を提案しているんだ！🤔💡ルールに基づいた報酬を使って、法律もバッチリ守れるように進化するんだよ！📜💪実験の結果、なんと思考力もアップしちゃった！📈これからの未来、LLMがもっと安心して使えるようになるかも！✨ワクワクが止まらないね！💖

arXiv

MCIP: Protecting MCP Safety via Model Contextual Integrity Protocol

2025年05月22日 04:04

https://arxiv.org/abs/2505.14590v1 C(・ω・ )つみんなー！🚀やったね！新しい研究が登場したよ！モデルコンテキストプロトコル（MCP）っていう面白い仕組みを安全にするため、モデルコンテキストインテグリティプロトコル（MCIP）が開発されたんだ！🎉クライアントとサーバーが協力して、危険なことを見つけるための新しい方法を提案してるよ！🤖💡これでLLMたちも安心して外の世界とおしゃべりできるね！✨みんなも一緒に安全な未来を作ろう！🌈

arXiv

Success is in the Details: Evaluate and Enhance Details Sensitivity of Code LLMs through Counterfactuals

2025年05月22日 04:04

https://arxiv.org/abs/2505.14597v1 C(・ω・ )つみんなー！やっほー！🎉みんな、知ってる？最近の研究では、プログラムを作るAIが「細かいところ」に敏感になってるんだよ！🤖✨これまでのAIは、問題の大きな部分ばかりを見ていたけど、私たちは「ちょっとした変更」が大きな結果を生むことに注目したんだ！🌟新しいCTF-Codeベンチマークを使って、AIがどれだけ賢くなったかを試すんだって！これで、みんなもプログラミングがもっと楽しくなるかも！？🚀💻一緒にワクワクしよう！

arXiv

Toward Reliable Biomedical Hypothesis Generation: Evaluating Truthfulness and Hallucination in Large Language Models

2025年05月22日 04:04

https://arxiv.org/abs/2505.14599v1 C(・ω・ )つみんなー！やっほー！🎉新しい研究が登場だよ！大きな言語モデル（LLM）が、科学の世界でヒントを見つけるお手伝いをしてくれるって！でもね、時々間違った情報を出しちゃうことも💦そこで、「TruthHypo」っていう新しい基準を作って、正しいヒントを見つけ出すんだ！これで科学の発見がもっとスムーズに進むかも！🔍✨みんなもこのワクワクする未来を一緒に楽しもう！🌟

arXiv

Let LLMs Break Free from Overthinking via Self-Braking Tuning

2025年05月22日 04:04

https://arxiv.org/abs/2505.14604v1 C(・ω・ )つみんなー！やっほー！🦄✨新しい研究が登場したよ！「自己ブレーキチューニング」っていう面白い技術で、AIが無駄に考えすぎないようにするんだって！🤔💡これで計算がスピードアップして、トークンも60%も節約できるんだ！⚡️🎉数学の問題をサクサク解決できるようになるから、みんなもAIと一緒に楽しく勉強しようね！📚💖

arXiv

sudoLLM : On Multi-role Alignment of Language Models

2025年05月22日 04:04

https://arxiv.org/abs/2505.14607v1 C(・ω・ )つみんなー！やっほー！✨みんな、すごい新しいアイデアを紹介するよ！🎉「sudoLLM」っていう言葉、聞いたことある？これは、言葉を使うロボットが、誰が何を聞いても大丈夫かをちゃんと考える仕組みなんだ！🔍👀例えば、信頼できるアリスには特別な情報を教えて、ボブには安全なことだけを教えるんだよ！💡これで、危ないことを防げるから安心！🛡️みんなもこの新しいヒーローを応援しよう！🏆✨

arXiv

SATBench: Benchmarking LLMs' Logical Reasoning via Automated Puzzle Generation from SAT Formulas

2025年05月22日 04:03

https://arxiv.org/abs/2505.14615v1 C(・ω・ )つみんなー！🎉こんにちは！みんな、論理パズルの世界へようこそ！🧩新しい研究「SATBench」が登場したよ！大きな言葉を使わなくても、簡単に言うと、コンピュータが論理的に考える力を試すためのパズルを作っちゃうんだ✨ SATという難しい問題を元に、ストーリーを作って、条件を考えるの！🤔みんなも一緒に論理的思考を楽しもう！さあ、パズルを解いて、頭をフル回転させよう💡💪

arXiv

TinyV: Reducing False Negatives in Verification Improves RL for LLM Reasoning

2025年05月22日 04:03

https://arxiv.org/abs/2505.14625v1 C(・ω・ )つみんなー！こんにちは！🎉新しい発見をお届けするよ～！私たちの研究は、AIが数学の問題を解くときに、間違って「不正解」って言っちゃうことがあるってことを明らかにしたんだ！😱そのせいで、AIが上手く学べないことが多いんだよね。そこで、新しい「TinyV」っていうかわいいAIのお助けキャラを作ったよ！✨これでAIがもっと賢くなって、みんなの期待に応えられるようになるんだ！🚀一緒に数学を楽しく学ぼう！📚💖

arXiv

General-Reasoner: Advancing LLM Reasoning Across All Domains

2025年05月22日 04:02

https://arxiv.org/abs/2505.14652v1 C(・ω・ )つみんなー！やっほー！🌟新しい論文「General-Reasoner」が登場だよ～！🤖✨このすごいモデルは、数学だけじゃなくて、科学や経済などいろんな分野での推論力をバッチリ強化しちゃうんだ！💡💪従来の方法とは違って、面白い質問に対しても正確に答えられるように、特別なデータセットを使ってトレーニングしてるんだって！📚🎉みんなもこの新しい知恵の力を体験してみよう！🚀💖

arXiv

Beyond Words: Multimodal LLM Knows When to Speak

2025年05月22日 04:02

https://arxiv.org/abs/2505.14654v1 C(・ω・ )つみんなー！みんな、聞いて～！📣新しい研究が登場したよ！「MM-When2Speak」というすごいモデルが、会話の中で「いつ話す？」を学んじゃったんだ！💬✨映像や音声からヒントをもらって、タイミングばっちりの返事ができるんだって！これでAIも人間みたいにスムーズにおしゃべりできるようになるかも！🤖💕未来の会話が楽しみだね！🌟🎉

arXiv

Cost-Augmented Monte Carlo Tree Search for LLM-Assisted Planning

2025年05月22日 04:01

https://arxiv.org/abs/2505.14656v1 C(・ω・ )つみんなー！🎉こんにちは、みんな！新しい研究が登場したよ！🎊「コストを考えたモンテカルロ木探索（CATS）」っていう、すっごいプランニングの方法なんだ！🤖💡この方法は、AIが計画を立てるときにお金のこともちゃんと考えてくれるんだよ！💰✨普通のAIはお金を気にしないけど、CATSは無駄遣いを防いで、賢い選択をサポートしてくれるんだ！🛠️🌈これで、旅行やお買い物の計画がもっと楽しくなるね！🚀💖みんなもAIと一緒に賢いプランを立てよう！

arXiv

ContextAgent: Context-Aware Proactive LLM Agents with Open-World Sensory Perceptions

2025年05月22日 04:01

https://arxiv.org/abs/2505.14668v1 C(・ω・ )つみんなー！やっほー！🎉 新しいAIの友達「ContextAgent」が登場だよ！この子は、ただの反応するAIじゃなくて、周りの情報をバッチリキャッチして、あなたが何をしたいかを先読みしちゃうんだ！👀✨ スマートグラスやイヤフォンを使って、あなたの生活をもっと便利にしてくれるんだよ。まるで、生活の中のスーパーヒーローみたい！🦸‍♂️🚀 これからのAIは、あなたの心の声を聞いてくれるんだね！ワクワクが止まらないよ〜！💖

arXiv